نویسه‌خوان نوری

فیلمی از یک نویسه‌خوان نوری قابل حمل

نویسه خوان نوری^[۱] که با سرواژۀ OCR^∗ شناخته می‌شود، عبارت است از تشخیص (recognition) خودکار متون موجود در تصاویر اسناد و تبدیل آن‌ها به متون قابل جستجو و ویرایش توسط رایانه. تصویر سند غالباً توسط روبشگر یا دوربین دیجیتال تولید می‌شود. این تصاویر شامل تعدادی پیکسل با رنگ‌های مختلف است که هر رنگ با ترکیب سه رنگ اصلی سبز، آبی و قرمز ساخته می‌شوند. از دید انسان، یک سند ممکن است ارزش اطلاعاتی زیادی داشته باشد، لیکن از دید رایانه تصویر یک سند با تصویر یک منظره تفاوتی ندارد، چرا که هر دوی آن‌ها مجموعه‌ای از پیکسل‌ها هستند. برای اینکه بتوان از اطلاعات نوشتاری تصویر سند استفاده کرد، بایستی به نحوی نوشته‌های موجود در سند را تشخیص دهیم. چنین کاری توسط نرم‌افزارهای نویسه خوان نوری انجام می‌شود.

نویسه خوان نوری ابتدا تنها در مورد بازشناسی ارقام و حروف چاپی بکار گرفته می‌شد. سامانهٔ نویسه خوان مثل یک نفر ماشین‌نویس، متن سند را می‌خواند و آن را به قالب مناسب برای ذخیره در رایانه تبدیل می‌کند. معمولاً اسکنر، تصاویر مورد نیاز برای تشخیص نویسه را فراهم می‌آورند. سامانهٔ نویسه خوان، اشیاء موجود در تصویر سند را که ارقام، حروف، علائم و کلمات هستند، بازشناسی کرده و رشته‌ی متناظر با آن‌ها را در قالب مناسب ذخیره می‌کند. یک فایل تصویری، حجم زیادی دارد و جستجوی متنی در آن ممکن نیست. این در حالی است که فایل خروجی سامانهٔ نویسه خوان بسیار کم حجم و قابل جستجو است.

سامانه‌های نویسه خوان مثل بسیاری از سامانه‌های هوشمند دیگر، پیچیدگی زیادی دارد. پردازش تصویر و بازشناسی الگو دو مبحث اصلی در این سامانه‌ها هستند. پیچیدگی این سامانه‌ها برای زبان‌های گوناگون، متفاوت است. به عنوان مثال نوشتن نویسه خوانی نوری برای زبان‌های لاتین به دلیل اینکه حروف آن‌ها به‌طور مجزا نوشته می‌شود آسان‌تر است از زبان‌هایی مثل فارسی و عربی که حروف یک کلمه به یکدیگر می‌چسبند. این موضوع به علاوهٔ جمعیت کم کاربران زبان فارسی، سبب شده سامانه‌های نویسه خوان زبان فارسی نقاط ضعف زیادی داشته باشند. البته در سال‌های اخیر تلاش‌های قابل تقدیری از سوی برخی شرکت‌های فعال در زمینهٔ پردازش تصویر انجام شده که برخی از آن‌ها منجر به محصولات قابل قبولی شده‌است.

تاریخچه[ویرایش]

سابقه نویسه خوانی نوری به بیش از نیم قرن گذشته برمی گردد. از زمانی که سیستم‌های کامپیوتری، در تجارت و صنعت وارد شد، نیاز به جمع‌آوری و پردازش دستخط به وسیلهٔ سیستم به وجود آمد. اما پاسخ به این نیازها با میزان تکنولوژی سیستم‌های موجود، محدود می‌شدند. برای بررسی سابقه نویسه خوانی نوری می‌توان آن را به سه دوران کلی تقسیم کرد.^[۲] ^[۳]

پیدایش اولیه نویسه خوان‌های نوری[ویرایش]

شاید بتوان اولین تحقیقات حوزه نویسه خوانی نوری را در اوایل دهه ۱۹۵۰ پیدا کرد. در آن زمان دانشمندان سعی داشتند که به وسیلهٔ دیسک‌های گردان و اسکنرهای نوری مجهز به لنز لوله پرتو کاتدی تصاویری از دستخط را به سیستم وارد کنند. در ادامه با ورود تکنولوژی مدارات مجتمع، نویسه خوان‌ها نیز متحول شدند. این تکنولوژی موجب به وجود آمدن آرایه‌های نوری بزرگتری شد که علاوه بر بالا بردن کیفیت اسکنر، سرعت تبدیل آن به داده‌های دیجیتال را نیز افزایش داد. در خلال سال‌های ۱۹۶۰ تا ۱۹۷۰، کاربردهای نویسه خوانی نوری در مراکز غیر علمی و تحقیقاتی رواج پیدا کرد. بانک‌ها، بیمارستان، مراکز پست، شرکت‌های بیمه و شرکت‌های پروازی، سازمان‌های تجاری و همچنین صنایعی چون شرکت‌های چاپ روزنامه از جمله مراکز استفاده‌کننده از نویسه خوانی نوری محسوب می‌شدند.^[۲]

توسعه سخت‌افزاری سیستم‌های کامپیوتری موجب شد که تحقیقات مربوط به نویسه خوان نه تنها در مراکز علمی که حتی در مراکز تجاری نیز انجام شود. البته به دلیل ضعیف بودن سیستم‌های کامپیوتری و همچنین نوظهور بودن روش‌های به کار رفته در استخراج داده، اسکن‌های انجام شده از صفحات ضعیف بوده و موجبات خطاهای زیادی در محاسبات می‌شدند. برای رفع مشکلات، استانداردهایی برای چاپ فونت و جوهر مورد استفاده کاغذها وضع شد. از جمله این استانداردها می‌توان به فونت‌های جدید چون OCRA اشاره کرد. کار استانداردسازی این فونت‌ها در آمریکا توسط مؤسسه استاندارد ملی و در اروپا به وسیلهٔ انجمن تولیدکنندگان کامپیوتر اروپا توسعه یافت. این استاندارد بعداً توسط مؤسسه استاندارد جهانی (ISO) نیز تحت پوشش قرار داده شد. به عنوان نتیجه ای از این کارها، تشخیص دستخط به امری مقرون به صرفه و در عین حال دقیقتر از گذشته تبدیل شد. این دست‌آورد همچنین موجب شد کیفیت چاپ کاغذهای مورد استفاده در نویسه خوانی نوری نیز متحول شود. این تحولات موجب شد که انقلابی در نحوه ورود داده‌های دستنویس به کامپیوتر ایجاد شود و به دنبال این تحول، شغل هزاران نفر از کارکنانr که تا قبل از این مسئول پانج کردن کارت‌های ورود اطلاعات به کامپیوتر بودند، از بین رفت.

توسعه تکنیک‌ها[ویرایش]

با توسعه روش‌ها و تحقیقات انجام گرفته در حوزه نویسه خوانی نوری، نیاز برای سیستم‌های پیشرفته تر شدید تر می‌شد. این نیاز به دلیل رشد بسیار زیاد داده‌ها بود. دستخط‌های تولید شده شامل آدرس‌های نوشته شده روی پاکت‌های نامه، مبالغ چک، مشخصات فردی در فرم‌های نام‌نویسی و همچنین تعیین مبالغ نوشته شده در فرم‌ها و فاکتورهای مالی بود. روش‌های اولیه به کار رفته در نویسه خوانی نوری بیشتر شامل تطابق ساده خطوط و ویژگی‌های هندسی دستخط بود. اما این تکنیک‌ها برای تشخیص دستخط در فرم‌ها و اسناد مطلوب نبودند. برای از بین بردن این مشکل، کمیته استاندارد در آمریکا، ژاپن، کانادا و برخی از کشورهای اروپایی، مدل‌هایی برای نوشتار تبیین کردند تا دستخط در مکان‌هایی مخصوص و با شرایطی خاص نوشته شوند. برای مثال قوانین جدید نوشتار، نویسندگان اسناد را ملزم می‌کرد تا درشت تر بنویسند، حلقه‌های موجود در بین نوشتار را ببندند، کارکترها را به یکدیگر نچسبانند و…. با وجود این قوانین نویسه خوانی نوری برای چندین سال همچنان به رشد خود ادامه داد.^[۴]

دوران نوین[ویرایش]

با گسترش سخت‌افزار سیستم‌ها و بعد از سال‌ها تلاش در زمینه تحقیقات و به وجود آمدن روش‌های کارآمد، نویسه خوانی نوری وارد دوران جدیدی شد. در دوران جدید دیگر نیاز به رعایت قوانین خاص برای نوشتار نبود. افراد می‌توانند به حالت عادی متن‌های خود را بنویسند و محدودیت‌های نوشتار از بین رفت. روش‌های جدید، بسیار قدرتمندتر شدند به نحوی که استخراج ویژگی و طبقه‌بندی داده‌ها نسبت به زمان‌های قبل متحول شدند. امروزه دستخط‌ها به وسیله اسکنرهای قدرتمند وارد سیستم می‌شوند تا مراحل زیر را طی کنند.

پیش پردازش: با ورود دستخط، مرحله پیش پردازش کیفیت تصویر ورودی را بهبود می‌بخشد و ناحیه مورد نظر را برای تشخیص دستخط انتخاب میͺند.
.استخراج ویژگی: در مرحله استخراج ویژگی، ویژگی‌های قابل تشخیص دربرداری با عنوان بردار ویژگی ذخیره شده و برای پردازش به مرحله بعد ارسال می‌شوند.
طبقه‌بندی: در مرحله طبقه‌بندی، بردار ویژگی برای تشخیص کلمات و حروف مورد تجزیه و تحلیل قرار می‌گیرد.

کاربردها[ویرایش]

وارد کردن داده‌ها برای سندهای تجاری
استخراج اطلاعات کلیدی از اسناد بیمه به صورت خودکار
تبدیل سریع نسخه‌های متنی به سندهای چاپ شده مثل اسکن کتاب برای پروژه گوتنبرگ
قابل جستجو کردن متن تصاویر الکترونیک از کتاب‌های چاپ شده مثل گوگل بوکس
فریب دادن سامانه‌های ضد ربات مثل کپچا
کمک به نابینایان

انواع[ویرایش]

نویسه‌خوانی نوری
واژه‌خوانی نوری
نویسه‌خوانی هوشمند
واژه‌خوانی هوشمند

تکنیک‌ها[ویرایش]

پیش‌پردازش
تشخیص نویسه
پس‌پردازش
بهینه‌سازی مختص نرم‌افزار

یادداشت‌ها[ویرایش]

^ (Optical Character Recognition/Reader)
^ (Magnetic Ink Character Recognition)
^ (Online)

جستارهای وابسته[ویرایش]

منابع[ویرایش]

ویکی‌پدیای انگلیسی

↑ نویسه‌خوانی نوری از واژه‌های مصوب فرهنگستان زبان و ادب فارسی به جای optical character recognition یا OCR در انگلیسی و در حوزهٔ رایانه است. «فرهنگ واژه‌های مصوّب فرهنگستان: ۱۳۷۶ تا ۱۳۸۵، بخش لاتین». فرهنگستان زبان و ادب فارسی. ص. ۱۴۴. بایگانی‌شده از اصلی در ۱۲ مه ۲۰۱۲. دریافت‌شده در ۷ فروردین ۱۳۹۱.
↑ ^۲٫۰ ^۲٫۱ Character recognition systems: a guide for students and practioners. Hoboken, N.J.: Wiley-Interscience. ۲۰۰۷. شابک ۹۷۸۰۴۷۰۱۷۶۵۲۸.
↑ Schantz, Herbert F. (1982). The history of OCR, optical character recognition. [Manchester Center, Vt.]: Recognition Technologies Users Association. ISBN 9780943072012.
↑ "Optical Character Recognition (OCR) – How it works". Nicomsoft.com. Retrieved June 16, 2013.

پیوند به بیرون[ویرایش]

[1] نویسه‌خوانی نوری از واژه‌های مصوب فرهنگستان زبان و ادب فارسی به جای optical character recognition یا OCR در انگلیسی و در حوزهٔ رایانه است. «فرهنگ واژه‌های مصوّب فرهنگستان: ۱۳۷۶ تا ۱۳۸۵، بخش لاتین». فرهنگستان زبان و ادب فارسی. ص. ۱۴۴. بایگانی‌شده از اصلی در ۱۲ مه ۲۰۱۲. دریافت‌شده در ۷ فروردین ۱۳۹۱.

[:0-2] ۲٫۰ ^۲٫۱ Character recognition systems: a guide for students and practioners. Hoboken, N.J.: Wiley-Interscience. ۲۰۰۷. شابک ۹۷۸۰۴۷۰۱۷۶۵۲۸.

[3] Schantz, Herbert F. (1982). The history of OCR, optical character recognition. [Manchester Center, Vt.]: Recognition Technologies Users Association. ISBN 9780943072012.

[4] "Optical Character Recognition (OCR) – How it works". Nicomsoft.com. Retrieved June 16, 2013.

[۱]

[۲]

[۳]

[۴]

ن ب و پردازش زبان‌های طبیعی
شرایط عمومی	پیکره متنی Speech corpus کلمات توقف مدل بسته کلمات Ai-complete ان-گرم (Bigram, Trigram)
متن‌کاوی	Text segmentation برچسب‌زنی اجزای کلام Text chunking Compound term processing Collocation extraction Stemming Lemmatisation Named-entity recognition Coreference resolution تجزیه و تحلیل احساسات Concept mining تجزیه‌کننده Word sense disambiguation Terminology extraction Truecasing
خلاصه‌سازی خودکار	Multi-document summarization Sentence extraction Text simplification
ترجمه ماشینی	ترجمه به کمک کامپیوتر Example-based Rule-based
شناسایی خودکار و ضبط داده‌ها	بازشناسی گفتار متن به گفتار نویسه‌خوان نوری Natural language generation
مدل عناوین	Pachinko allocation تخصیص پنهان دیریکله آنالیز پنهان مفهومی
بررسی به کمک کامپیوتر	Automated essay scoring Concordancer Grammar checker Predictive text غلط‌یاب Syntax guessing
زبان طبیعی رابط کاربر	دستیار شخصی هوشمند ربات سخنگو Interactive fiction Question answering