علي، ولي، قلي ... و سيب

نكتة ديگر اين است كه يك بانك اطلاعاتي بايد شامل تعدادي كلمات خام باشد، بلكه «بسامد» آن واژگان، يعني ميزان استعمال و تكرار كلمات در زبان و مشخصات آماري آن‌ها هم بايد ثبت شده باشد، والا كارايي زيادي ندارد. مثلاً «علي» نامي است كه شباهت زيادي به «ولي» و «قلي» دارد. كارهاي آماري در بانك اطلاعاتي بايد طوري انجام شده باشد كه تعداد «علي» بيشتر باشد، تا و بعد نوبت «ولي» و «قلي» برسد، چون درصد بسامدي «علي» به لحاظ آماري و كاربرد در ميان نام‌هاي بيشتر است.
در OCR فارسي گسسته، اگر فقط مربوط به نام‌ها و نام‌خانوادگي باشد، كار ساده‌تر است از حالتي كه در OCR پيوسته وجود دارد. چون در OCR پيوسته هر كلمه‌اي ممكن است وجود داشته باشد مثل «سيب»، اما در بانك اطلاعاتي نام‌ها همه مي‌دانيم كه سيب نام يك شخص نيست بلكه نام يك ميوه است! بنابراين در OCR همواره سعي مي‌شود كه درصد خطا كاهش يابد، تا كلمات در حد ممكن درست تشخيص داده شوند. اگرچه طراحان هنوز به صددرصد صحت نرسيده‌اند، ولي نگران نتايج آزمون خود نباشيد، چون تمامي اطلاعات مربوط به شما چندين بار كنترل مي‌شوند و از سازوكار reject (يا مردودي) در رايانه هم استفاده مي‌شود. در اين روش اگر رايانه نتوانست كلمه‌اي را تشخيص دهد، مي‌فهمد كه نفهميده است و در خروجي‌‌اش مي‌آورد كه: «من اين كلمه را نفهميده‌ام» و كار به سيستم دستي مي‌رود و در آنجا تصحيح مي‌شود. اين فرايند در پست خيلي كارايي دارد. در هر جاي دنيا كه تفكيك نامه‌ها و ديگر مرسولات پستي به وسيلة OCR انجام مي‌شود، بعضي از نامه‌ها در سيستم كامپيوتري وارد سازوكار «مردودي» مي‌شوند و به طور دستي مورد بررسي مجدد قرار مي‌گيرند. هم‌اكنون در سطح محدودي از OCR در پست كشور ما نيز استفاده مي‌شود، چون در پست هم كد پستي چندرقمي و ديگر اطلاعات به صورت گسسته و داخل كادرهايي نوشته مي‌شود، و كار آسان‌تر است.
در مورد خطاي OCR در تشخيص كلمات، مسئولان شركت «پايا» نظر جالبي دارند:
«حتي با تعبية سيستم مردودي (reject) هم ممكن است خطايي در تشخيص كلمات وجود داشته باشد. بايد در نظر داشته باشيم كه هيچ سيستم پردازشگري (از جمله انسان) بدون خطا نيست. نكته مهم اين است كه يك سيستم ماشيني درصد خطاي كمتري نسبت به انسان داشته باشد تا جايگزين خوبي براي انسان باشد. مسئله اين نيست كه خطا را به صفر برسانيم. هر قدر كه فناوري جلوتر مي‌رود، ميزان خطا هم بيشتر كاهش مي‌يابد.»
مدير شركت «دوران نوين» هم به گونه‌اي ديگر به همين موضوع اشاره مي‌كند: «انتظار ما از مسئولان طرح «تكفا» آن است كه با موضوع OCR واقع‌بينانه‌تر برخورد شود، و در بحث مربوط به هزينه‌هاي پروژه و انتظاراتي كه از OCR مي‌رود، واقعيت‌ها در نظر گرفته شود. ديدگاه كنوني مسئولان تكفا آن است كه كل مشكل «خطا» تا 100درصد حل شود، در حالي كه فكر مي‌كنم حل مسائل مربوط به هوش مصنوعي نياز به روش تدريجي دارد. مثلاً در زبان عربي هم، نرم‌افزار «صخر» در نسخة اول خود فقط تا حدود 40درصد دقت داشت، در حالي كه اكنون پس از گذشت 13 سال از اولين نسخه آن دقت به مرز 98 درصد رسيده است.»
همان‌طور كه اشاره شد از OCR در ثبت‌نام آزمون «سازمان ملي استعدادهاي درخشان» در سال‌هاي 81 و 82 استفاده شد كه از طريق آن 000,440 نفر به طور ماشيني ثبت‌نام شدند. اين روش باعث شد كه در سال 81 (نمونه اول) 45 درصد در هزينه‌ها و 25 درصد در زمان ثبت‌نام صرفه‌جويي شود. در سال بعد (82) اين رقم به 50 درصد رسيد. نرم‌افزاري كه در اين آزمون‌ها مورد استفاده قرار گرفت براي هر كدام از موارد صحت بازشناسي متفاوتي داشت و در مجموع كار آن خوب بود (به جدول توجه كنيد):

به نظر مي‌آيد كه در چند سال آينده و با پيشرفت OCR فارسي و كاهش هر چه بيشتر خطاي آن، در آزمون‌هاي بزرگ‌تري مانند آزمون سراسري دانشگاه‌ها نيز بتوان از آن استفاده كرد.