تایپ کامپیوتری از کارهای متداول ، وقت گیر و خسته کننده کاربرهای عادی و پیشرفته کامپیوتر است ، بویژه برای کاربرانی که به هر دلیل مایل به استفاده از صفحه کلید نیستند.
این در حالی است که استفاده از قابلیت تشخیص خودکار صحبت با کامپیوتر، باعث سهولت و صرفه جویی در زمان تایپ می شود. خوشبختانه با دستیابی متخصصان کشورمان به فناوری پیشرفته طراحی و ساخت نرم افزار تشخیص گفتار مستقل از گوینده ، امکان تایپ مستقیم گفتار فارسی با رایانه بدون نیاز به تایپ فراهم شده است. سابقه کار روی سیستم های تشخیص خودکار گفتار به اوایل دهه 60میلادی برمی گردد، اما عملیاتی کردن این سیستم ها تا یکی دو دهه اخیر یک رویا بوده است. کارهای بسیار زیادی روی زبانهای مختلف در این زمینه انجام شده و شرکتهای بزرگی در این زمینه سرمایه گذاری کرده اند.
تشخیص گفتار در ایران هم تا قبل از دهه اخیر، بیشتر به صورت تحقیق های دانشگاهی و کارهای نسبتا پراکنده بوده که این تلاشها بیشتر در دانشگاه های صنعتی شریف و صنعتی امیرکبیر و گاه در دانشگاه های دیگری چون تهران ، علم و صنعت ایران و شیراز صورت گرفته است. البته یکی از مشکلات عمده ای که این تحقیقات در ایران با آن روبه رو بوده است ، نبود امکانات اولیه مناسب مانند دادگان صوتی یکدست و مناسب برای آموزش و آزمون بوده که با تاسیس پژوهشکده پردازش هوشمند علایم و شکل گیری چند گروه پردازش سیگنال گفتار به همراه گروهی برای تهیه دادگان صوتی با حضور استادانی چون دکتر بیجن خان ، دکتر شیخ زادگان و دکتر سیدصالحی جهشی نسبتا جدی به سوی داشتن چنین تکنولوژی برای زبان فارسی صورت گرفت ، اما به گفته مهندس باقر باباعلی ، دانشجوی دکتری کامپیوتر دانشگاه صنعتی شریف شروع جدی و منظم این کار از سال 1382 در کشور صورت گرفته و به این منظور سیستم تایپ گفتاری «نویسا» توسعه داده شده است.
این سیستم که مبتنی بر رایج ترین ایده های مقاوم سازی و مدلهای زبانی در این زمینه است ، دارای دقت حدود 80 درصد برای بازشناسی گفتار پیوسته در محیط عادی و با دادگان حدود هزار کلمه است و قوی ترین سیستم موجود در زبان فارسی محسوب می شود. نرم افزار تایپ گفتاری نویسا که از موتور نرم افزاری تشخیص گفتار به همین اسم مشتق شده است ، به عنوان اولین محصول تجاری دیکته خودکار زبان فارسی ، تلاشی به منظور نیل به هدف تشخیص خودکار گفتار توسط رایانه و تبدیل آن به متن است. بومی کردن این فناوری و استفاده از آن برای زبان فارسی ، صرفه جویی قابل ملاحظه ای در زمان و هزینه را به دنبال دارد. این سیستم می تواند کاربردهای مختلفی داشته باشد که از جمله آنها انجام کار تایپ به جای تایپیست (بویژه برای مدیران)، تهیه گزارش ها توسط پزشکان ، تهیه اسناد برای وکلا و... است. نسخه تخصصی این نرم افزار که ویژه متخصصان قلب طراحی شده است ، با توجه به منظور خاص بودن ، کارایی بهتری دارد. بدیهی است این سیستم می تواند متناسب با نیاز، برای هر کاربردی اختصاصی شود.
نرم افزاری استثنایی
دقت تشخیص بالا، شناسایی بلادرنگ گفتار طبیعی و پیوسته ، توانایی تطبیق با شرایط محیطی جدید، حفظ کارایی در شرایط نویزی ، قابلیت تطبیق با صدای کاربر، دایره وسیع کلمات فرهنگ لغت ، پشتیبانی از زبانهای فارسی و انگلیسی و قابلیت استفاده در همه ویرایشگرهای متنی رایج از جمله ویژگی های این نرم افزار است.
به گفته باباعلی ، این نرم افزار می تواند کاربردهای زیادی داشته باشد و باعث کاهش زمان و هزینه های فرد، سازمان و یا شرکت مربوط شود و صرفه جویی قابل توجهی را از نظر اقتصادی به دنبال داشته باشد. بعلاوه این نرم افزار کار بومی کردن یک فناوری سطح بالا را برای زبان فارسی انجام می دهد که این به نوبه خود می تواند به صورت های مختلف به تقویت زبان فارسی و مسائل مربوط به آن منجر شود. هر کدام از کاربردهای این سیستم در ابعاد اقتصادی ، فرهنگی و اجتماعی سهم بسزایی دارند.
کاربردهای تایپ گفتاری برای سیستم دیکته زبان فارسی: با سیستم تایپ گفتاری فارسی ، دیگر نیازی به تایپ کردن اطلاعات نیست ، بلکه می توان اطلاعات را برای سیستم دیکته کرد و کار تایپ به صورت خودکار انجام می گیرد. این امر می تواند باعث افزایش سرعت ورود اطلاعات و افزایش سرعت تایپ شود. بنابراین علاوه بر بی نیازی به تایپ ، بسیاری از مکالمات و سخنرانی ها می تواند به صورت مکتوب درآید و بسرعت آماده استفاده شود. همچنین باعث کاهش هزینه های شرکتها می شود. سیستم دیکته زبان فارسی می تواند برای مدیران ، پزشکان ، وکلا و... بسیار مفید باشد. همچنین از آنجا که سرعت صحبت کردن بسیار بیشتر از نوشتن یا تایپ کردن است ، بازشناسی گفتار می تواند باعث صرفه جویی در وقت شود.
کاربردهای بازشناسی دستورات صوتی: بحث ساختمان های هوشمند یکی از مباحث نو در کشورهای خارجی است که می توان از یک نقطه اتاق یا از پشت تلفن ، لوازم منزل را کنترل کرد. اگر این کنترل با دستورات صوت باشد کار راحت تر می شود. برای مثال با کمک این سیستم فرد می تواند کولر خانه را قبل از رسیدن به خانه روشن کند. با کمک فرمان های صوتی می توان با بسیاری از برنامه های رایانه کار کرد بدون آن که احتیاجی به دانستن اطلاعات چندانی درباره رایانه باشد. با روشن شدن رایانه فرد برنامه یا درخواست مورد نظر را بیان می کند و آن برنامه اجرا می شود ؛ به عنوان مثال می گوید ماشین حساب و برنامه ماشین حساب اجرا می شود. صحبت سریع ترین راه ارتباطی است ، بنابراین اگر بتوان با استفاده از صحبت اطلاعات را در فرمها وارد کرد، کمک شایانی به افزایش سرعت و راحتی ورود اطلاعات می شود و فرمهای گویا ایده ای است بر مبنای ورود اطلاعات گفتاری.
کمک به معلولان و نابینایان: با کمک گفتار بسیاری از معلولان و نابینایان می توانند با ماشین ها و رایانه ها ارتباط برقرار کنند. برای مثال فرد نابینا می تواند دستوراتی را به رایانه بگوید و رایانه آن کارها را برای او انجام دهد.
صحبت به جای تایپ
ابداع فناوری جدید که به کاربران رایانه امکان می دهد تا با صحبت کردن ، فرامین رایانه ای به اجرا درآید، حدود 30 سال است که روی این طرح کار می شود و از حدود 10سال پیش با تحول روبه رو شده است. در زبان فارسی نیز 5سال است که متخصصان کشور، قابلیت های خوب بازشناسی را ایجاد کرده اند و توانسته اند این ارتباط را به مرحله عمل برسانند. به گفته باباعلی ، مرکز این نرم افزارها یک موتور بازشناسی گفتار است که در قالب های متفاوت به کاربران عرضه می شود.
باباعلی می افزاید: بازشناسی گفتار رویایی قدیمی بوده که همان صحبت با رایانه است ، در حقیقت به بیان خواسته خود به رایانه فقط با استفاده از گفتار را بازشناسی گفتار می گویند. در زمان ظهور رایانه و سیستم های خودکار، رایانه قابلیت استفاده از گفتار را نداشت و ارتباط با کامپیوتر و سیستم های خودکار با استفاده از دکمه ، سیم و علامت صورت می گیرد و امروزه با کمک رابطهای گرافیکی انجام می شود. همیشه هدف این بوده که به نحوی بهتر و طبیعی با سیستم رابطه برقرار کنیم. این سیستم دارای ابعاد نسبتا وسیع علمی است. در ابتدای کار، سیگنال صوتی که با میکروفن گرفته می شود، به ولتاژ آنالوگ تبدیل شده و بعد از آن ، پردازش سیگنال صورت می گیرد که یکی از شاخه های اصلی است و بعد از آن ، استفاده تئوری های احتمالی و ریاضیات نسبتا وسیع که از آنها مدلهای آماری نسبتا سنگین و توانمندی استخراج می شود.
همچنین زبان شناسی و استفاده از ساختارهای زبان های طبیعی نیمی از کار پردازش سیگنال و نیمی دیگر شناسایی زبان مورد نظر است. به طور کلی روشهای هوش مصنوعی و مجموعه ای از نرم افزارهای بسیار قوی در این زمینه یک سیستم کامل را ارائه می کند، سیستم اصلی برای کل کلمات زبان فارسی است تا هر متنی را بدون محدودیت ساختاری ، روی جمله و کلمه و مسائل جانبی آن در محیطی مانند word padو Note pad و یا صفحه ویرایشی که بتوان در آن فارسی نوشت ، بنویسد.