متن كامل خبر
شبکه های عصبی و بازشناسی کلمات

تاريخ خبر : 17/7/1385امتياز بده :ارسال به دوستتعدادمشاهده : 1170

آیا می دانید بازشناسی گفتار تلفنی به چه معناست و به چه روشی اطلاق می شود؟ بازشناسی گفتار یعنی این که ماشین (رایانه) بتواند گفتار تکلم شده توسط انسان را بفهمد.
بنابر این بازشناسی گفتار تلفنی یعنی درک مکالمه های تلفنی توسط رایانه که به دلیل اغتشاشات و پهنای باند کم تلفن این گفتار نسبت به گفتار ضبط شده میکروفونی کیفیت نامطلوبی داشته و بازشناسی آن مشکل تر است و درعین حال کاربردهای آن بسیار وسیع تر است.
در همین راستا با خبر شدیم که یکی از دانش آموخته های دکتری مهندسی پزشکی دانشگاه صنعتی امیرکبیر موفق شده است به روش جدیدی برای بازشناسی گفتار تلفنی دست یابد. دکتر منصور ولی در گفتگویی با ما توضیحات بیشتری را در اختیارمان می گذارد.

چه شیوه هایی تاکنون در دنیا برای بازشناسی گفتار تلفنی طراحی و ارائه شده است؟ سیستم ساخته شده توسط شما چیست و چطور کار می کند؟

روشهای رایج بازشناسی گفتار مبتنی بر طراحی مدلهای آماری است. یعنی سیگنال گفتار را یک سیگنال تصادفی در نظر می گیرند که در طول زنجیره کلام از حالتی به حالت دیگر منتقل می شود. این حالتها تقریبا همان آواهای گفتار هستند، اما روش دیگری وجود دارد که به دلیل حجم بالای محاسبات و نیز عدم شناخت از شیوه های مناسب کاربرد آن تاکنون کمتر از روش آماری مورد استفاده قرار گرفته است. کار تحقیقاتی اینجانب استفاده از تکنیک شبکه های عصبی در ارتقای کیفیت بازشناسی گفتار تلفنی است. در سیستم های رایج بازشناسی گفتار همه تلاشها روی ارتقای کیفیت خود سیگنال گفتار تلفنی یا مشخصه های استخراج شده از این نوع گفتار یا بهبود مدلهای بازشناسی تلفنی متمرکز شده است ؛ درحالی که در کار تحقیقاتی ما مشخصه های گفتار میکروفونی درکنار مشخصه های گفتار تلفنی مورد استفاده قرار داده شده و یک مدل بازشناسی مبتنی بر شبکه های عصبی برای بازشناسی توام گفتار تلفنی و میکروفونی طراحی شده است. ما از این مدل بازشناسی توام که حاوی دانش گفتار با کیفیت بالای میکروفونی است استفاده کرده و بازشناسی گفتار با کیفیت پایین تلفنی را نیز ارتقائ می دهیم.

تاکنون چند الگوریتم مختلف از این سیستم ها داشته ایم و نمونه ارائه شده از طرف شما چه مزیتها یا ویژگی هایی نسبت به آن دارد؟

اگرچه روش های بسیار زیادی برای بالا بردن کیفیت بازشناسی گفتار در محیطهای واقعی مانند بازشناسی مکالمات تلفنی صورت گرفته است ، اما آنها را می توان به 2 دسته کلی تقسیم کرد؛ یکی سیستم های بازشناسی گفتار مبتنی بر مدلهای آماری و دیگری سیستمهای بازشناسی گفتار مبتنی بر مدلهای هوش مصنوعی.

در این سیستم از چه الگوریتمی برای تطبیق و بهبود بازشناسی استفاده شده است؟

مشخصه های گفتار میکروفونی و تلفنی بصورت توام به یک شبکه عصبی مصنوعی دوسویه تعلیم داده شده اند. ساختار این شبکه عصبی و نحوه تعلیم آن یکی دیگر از نوآوری های این طرح است. دوسویه بودن شبکه به این معنی است که شبکه یک بخش پردازشی دارد که می تواند از روی مشخصه های گفتار، زنجیره آواهای آن را شناسایی کند و یک بخش بازگشتی وجود دارد که از روی دانش یادگرفته در شبکه مشخصه های گفتار ورودی را بهبود می بخشد. به این ترتیب طی چند بار پردازش رفت و برگشتی کیفیت مشخصه های گفتار بهبود پیدا می کند. درست مانند انسان که وجود دانشهای یادگرفته شده قبلی راجع به یک موضوع ، کمک زیادی به یادگیری یک موضوع جدید و مشابه می کند.

کاربردهای عملی آن چیست؟

کاربردهای بازشناسی گفتار تلفنی:
- رزرو بلیت قطار و هواپیما به صورت شبانه روزی به گونه ای که یک طرف مکالمه در عوض اپراتور انسانی ، صرفا یک رایانه گویاست.
- انجام یک سری عملیاتهای بانکی بصورت شبانه روزی.
- مکالمه تلفنی دو نفر با دو زبان مختلف از دو گوشه مختلف دنیا به گونه ای که رایانه واسط، عمل ترجمه همزمان مکالمات را به عهده دارد.
سایر کاربردهای بازشناسی گفتار:
- کنترل بسیاری از دستگاه ها و فرآیندها به صورت گفتاری ازجمله در داخل خودرو برای دستور دادن گفتاری به خودرو
- تایپ رایانه ای به وسیله صحبت کردن به جای استفاده از صفحه کلید
- ترجمه همزمان سخنرانی های کنفرانس های بین المللی توسط رایانه به جای انسان
- کار با رایانه با استفاده از صحبت کردن و دستور دادن به آن برای معلولان جسمانی که توانایی استفاده از دستهای خود را ندارند.

این سیستم چگونه در ارائه خدمات تلفنی خودکار کمک می کند؟ وجود رایانه برنامه ریزی شده با الگوریتم های قوی بازشناسی گفتار، نیاز به اپراتور انسانی را از بین می برد.

غیر از کاربردهای روزانه ، این سیستم در مسیر تکامل خود چه هدف هایی را دنبال می کند؟

هدف آتی که در بازشناسی گفتار تلفنی دنبال می شود همان کاربرد سوم است که در بالا قید شد؛ یعنی مکالمه تلفنی دو نفر با دو زبان مختلف از دو گوشه مختلف دنیا به گونه ای که رایانه واسط، عمل ترجمه همزمان مکالمات را بر عهده داشته باشد. این امر هنوز محقق نشده است ، اما مراکز تحقیقاتی در سرتاسر دنیا روی بازشناسی گفتار تلفنی برای بسیاری از زبانهای رایج دنیا مشغول به فعالیت هستند. برای زبان فارسی تعداد محدودی مراکز تحقیقاتی آن هم تنها با سابقه ای حداکثر 15سال مشغول به کار هستند.

تحقیقات شما در چه جهتی قابل توسعه است؟

تحقیقات ما میزان بازشناسی گفتار تلفنی را بر اساس تکنیک های شرح داده شده فوق حدود 5درصد نسبت به روشهای رایج افزایش داده است. مجموعه داده های گفتاری ما دو جمله از 64 گوینده تلفنی و همان دو جمله از 200 گوینده میکروفونی بوده است. بنابراین اولین گام برای توسعه روش ها، افزایش حجم داده های گفتار است. در مرحله کاربرد و صنعتی شدن باید برای کاربردهای قید شده در بالا سیستم طراحی شود.


     منبع خبر : جام جم

بازگشت