دکتر بهروز مینایی گفت: ایجاد پایگاههای داده نویسهخوان نوری برای حروف فارسی یکی از ارکان مهم تحقق محیط رایانهای فارسی است و بر این اساس از دو سال گذشته در این زمینه پژوهشنامهای در دست تهیه و تدوین قرار گرفت که در آن برنامه جامعی از نویسهخوانی نوری برای زبان فارسی ارایه شده است .
معاون فنی شورای عالی اطلاعرسانی خاطرنشان کرد: در این پژوهشنامه 9 پروژه زیرساختی تعریف شده و وظایف بخشهای مرتبط با حوزه خط و زبان فارسی مانند شورای عالی اطلاعرسانی و دیگر مراکز مشخص شده است. همچنین وضعیت کنونی نویسه خوانی نوری در جهان و وضعیت آن در ایران، تهیه برخی از زیرساختهای لازم به منظور حمایت از تحقیقات دانشگاهی، تهیه برخی از زیرساختهای لازم به منظور حمایت غیرمستقیم از فعالیت بخش خصوصی، ایجاد سازوکار لازم جهت ارزیابی و کنترل کیفی برنامههای نویسهخوانی نوری، ایجاد انگیزه در بخش خصوصی و دانشگاهی برای رقابت و حضور فعالتر، بررسی جایگاه و نقش منابع در نویسه خوانی نوری و تسهیل حرکت به سمت منابع باز در این حوزه از اهداف اصلی این پژوهشنامه است.
به گفته وی با سرمایهگذاری در این پروژهها، مبانی کلیدی نویسهخوان فارسی به صورت بومی امکانپذیر خواهد شد و پایگاههای اطلاعاتی در حوزه دستنویس و تایپی فارسی قابل دسترس میشود و از سوی دیگر نمونه دستخطهای فارسی تعریف خواهد شد.
از این رو در این حوزه به ایجاد یک پایگاهها دادهها نیاز بود که قرار است شورای عالی اطلاعرسانی پروژه ایجاد پایگاههای داده برای نویسه¬خوانی نوری حروف فارسی را از سال آینده آغاز کند.
مینایی ابراز امیدواری کرد با انجام سرمایهگذاریهای لازم و فراهم شدن واژگان لازم این پروژه عملی شود.
گفتنی است نویسهخوان نوری(OCR) به عنوان تنها ابزار بازیابی اطلاعات متنی از تصویر، یکی از ابزارهای تبدیل اطلاعات موجود به صورت قابل استفاده و پردازش در رایانههاست و ایجاد پایگاههای داده یکی از گامهای نخستین تحقق این امر است.
در حال حاضر به هنگام اسکن کردن یک متن، اطلاعات آن در قالب تصویر ذخیره میشود، ولی میتوان با استفاده از برخی از نرمافزارها اطلاعات را در قالبهای متنی ذخیره کرد.
هم اکنون این برنامهها درباره حروف فارسی وجود ندارد و قرار است با ایجاد پایگاههای داده نویسهخوان نوری، این ذخیرهسازی متنی در زبان فارسی نیز امکانپذیر شود.