بازشناسی گفتار

از ویکی‌پدیا، دانشنامهٔ آزاد
(تغییرمسیر از تشخیص گفتار)
پرش به: ناوبری, جستجو

هدف از تشخیص گفتار که در متون علمی بیشتر با نام بازشناسی گفتار شناخته شده است، طراحی و پیاده‌سازی سیستمی است که اطلاعات گفتاری را دریافت و متن و فرمان گوینده را استخراج می‌کند. [1] فناوری تشخیص گفتار به رایانه‌ای که توانایی دریافت صدا را دارد (برای مثال به یک میکروفن مجهز است) این قابلیت را می‌دهد که صحبت کاربر را متوجه شود. این فناوری در تبدیل گفتار به متن و یا به عنوان جایگزینی برای صفحه کلید یا ماوس برای وارد کردن دستورات مورد استفاده قرار می‌گیرد. سیستم‌های تشخیص دهنده گفتار انواع مختلفی دارند، بعضی قادرند گفتار پیوسته را شناسایی نمایند، بعضی دیگر فقط می‌توانند گفتار گسسته (که بین کلمات سکوت وجود دارد) را تشخیص دهند. همچنین سیستم‌ها قادرند کلمات بیان شده توسط افراد مختلف و یا فقط توسط یک گوینده تشخیص دهند. بهر حال ایده آل‌ترین سیستم آن است که بتواند گفتار پیوسته غیر وابسته به گوینده را در محیط نویزی شناسایی نماید. این سیستم‌ها با بکار گیری روش‌های مختلف طبقه بندی و شناسایی الگو قادرند به تشخیص کلمات هستند که البته برای افزایش دقت در شناسایی از یک فرهنگ لغات نیز در انتهای سیستم استفاده می‌شود. روشهایی مانند Hidden Markov Model یا Neural Network در بسیاری از سیستم‌های تشخیص گفتار مورد استفاده قرار می‌گیرند و در بخش‌های انتهایی سیستم از هوش مصنوعی کمک گرفته می‌شود.

امروزه با داشتن میکروفن و کارت صوتی در کامپیوتر و بکار گیری نرم‌افزار تشخیص گفتار می‌توان دستورات یا کلمات را به صورت صوتی به کامپیوتر وارد کرد. حتی در بعضی از گوشی‌های تلفن همراه از این سیستم‌ها جهت دریافت دستورات بصورت صوتی استفاده می‌شود.

یکی از مطرح ترین پژوهشگاه های ایران در زمینه تکنیک های تشخیص گفتاری عصرگویش پرداز می باشد. این شرکت به عنوان اولين مرکز پيشرو در ارايه سيستم‌هاي مبتني بر ساده‌ترين وسيله ارتباطي انسان براي زبان فارسي، علاوه بر توسعه تعدادي از سيستم‌ها و راه‌حل‌هاي مبتني بر گفتار مانند سيستم ديکته زبان فارسي، سيستم تشخيص گفتار تلفني، جستجوگر کلمات در گفتار و ... براي زبانهاي فارسي و انگليسي، توانايي انجام کليه فعاليت‌هاي ديگر مبتني بر گفتار را دارد. از آنجا که ارتباط کلامي راحتترين، ساده ترين و سريع ترين راه ارتباطي مي باشد با کمک سيستمهاي تشخيص گفتار عصر گويش پرداز مي توان با رايانه ها از طريق صحبت ارتباط برقرار نمود، با آنها حرف زد، دستور داد يا از پشت تلفن و از راه دور بتوان سيستمهاي خانگي را کنترل نمود. با کمک اين محصولات، بسياري از افراد معلول و يا افرادی با آشنایی محدود با کامپيوتر و زبان‌هاي‌خارجي نيز مي‌توانند تنها از طريق صحبت‌كردن با کامپيوتر ارتباط برقرار نمايند. در حال حاضر موتور تشخيص گفتار در اين شرکت طراحي و پياده‌سازي شده است که پايه و هسته اصلي سيستم‌هاي تشخيص گفتار فارسي است. اين سيستم بر اساس آخرين تکنولوژي و استفاده از منابع علمي روز طراحي شده و دقتي بسيار قابل قبول در مقايسه با سيستم‌هاي معروف خارجي دارد. تعدادي از محصولات شرکت كه بر اساس موتور تشخيص گفتار توسعه داده شده‌اند، شامل موارد زير مي‌باشد:

   (نویسا)سيستم ديکته کردن متن به جاي تايپ نمودن آن با قابليت فعال شدن در همه محيط‌ها جهت افزايش موثر سرعت تايپ
   (نیوشا)سيستم‌هاي تلفن گويا براي ارتباط تلفني از راه دستورات صوتي
   (کارا)سيستم‌هاي تشخيص دستورات صوتي مانند کنترل برنامه‌ها يا فرم‌هاي صوتي و فهم گفتار در خودروها يا ساختمان‌هاي هوشمند
   (جویا)جستجوگر واژه‌هاي کليدي براي جستوگرکلامي در سيستم‌هاي امنيتي
   (پارسیا)مترجم کلامي فارسي-انگليسي با امکانات محدود
   (آریانا) سیستم متن خوان فارسی

علاوه بر زمينه‌هاي پردازش سيگنال‌ها و بويژه سيگنال‌هاي صوتي و تشخيص اتوماتيك گفتار، محققان اين شرکت در زمينه‌هاي ديگري چون افزايش کيفيت گفتار،، تبديل گفتار به متن، پردازش زبانهاي طبيعي شامل روش‌هاي آماري، دستوري و معنايي زبان درمرحله تحقيق و توسعه سيستمها مي‌باشند كه هم اکنون برخي از اين محصولات در اختيار کاربران قرار گرفته است. به علاوه اين محصولات مي‌‌تواند به زبان‌هاي ديگر و از جمله زبان انگليسي نيز توسعه داده شود. اين شرکت افتخار دارد با تلاش محققان وطن دوست توانسته است به يکي از تکنولوژي روز دنيا دست يابد و در حال حاضرآماده همکاري با شرکت‌ها، موسسات و سازمانهايي است که خواهان استفاده از محصولات عصر گويش پرداز جهت تسريع بخشيدن در کار مديران يا تکريم ارباب رجوع مي باشد. پروژه هامتن بزرگ نويسا: تايپ گفتاري مهمترين پروژه در حال اجراي واحد تحقيقات شرکت، پروژه ديکته گفتاري زبان فارسي (نويسا) مي‌باشد. به کمک نويسا ديگر لازم به تايپ يا نوشتن متن نيست، بلکه تنها لازم است که متن خوانده شده آنگاه رايانه آن را براي شما تايپ مي‌نمايد. در اين پروژه تحقيقاتي روش‌هاي مرسوم و نوين در بازشناسي گفتار مورد استفاده قرار گرفته است. موتور و هسته اصلي بازشناسي گفتار پيوسته به صورت مستقل از گوينده و با واژگان بزرگ آماده گرديده است که تحقيقات براي بهبود بيشتر و افزايش قابليت‌‌هاي مختلف به آن در حال انجام است. مقاوم‌سازي سيستم‌هاي تشخيص گفتارمتن کوچک اين شرکت تحقيقات گسترده‌اي روي روش‌هاي مختلف تشخيص گفتار مقاوم به شرايط محيطي و گويندگان مختلف انجام داده است. اين روشها بر روي موتور بازشناسي گفتار اضافه شده است تا بتوان کار بازشناسي گفتار را در محيط‌هاي واقعي انجام داد. علاوه بر موتور بازشناسي گفتار، تشخيص گفتار مقاوم در محصولات ديگر مانند محصولات تلفني و براي کاربرد خاص آنها بهينه سازي شده است. تعدادي از روشهاي مقاوم سازي به کار رفته به شرح زير است:

   روش‌هاي مبتني بر ويژگي: CMS, PCA, RASTA-PLP, RCC, Liftering
   روش‌هاي بهبود هنگام صحبت: تفريق طيفي، آرايه ميکروفني و beam-forming
   روش‌هاي مبتني بر تطبيق: MLLR و MAP
   روشهاي مبتني بر پيش بيني: PMC
   روشهاي مبتني بر نرمال سازي گوينده: VTLN

مدل‌هاي زباني و پردازش زبان‌هاي طبيعيمتن بزرگ براي بسياري از کاربردها مانند تشخيص گفتار، TTS، ترجمه، OCR و پيدا نمودن خطاهاي تايپي، مدلهاي زباني از مهمترين‌ ابزارهاي مورد نياز مي‌باشد. شرکت عصر گويش روي زبان‌هاي فارسي و انگليسي روي اين زمينه فعاليت نموده است و توانسته روشهاي آماري و دستور زباني را براي زبان فارسي آماده نمايد. مخصوصا براي دستور زبان فارسي با توجه به کمبود منابع دستور زبان محاسباتي از افراد خبره زبان شناسي استفاده شده است. تعدادي از کارهاي انجام شده به شرح زير است:

   مدل احتمالي کلمات تکي، دوتايي، سه‌تايي و چهارکلمه‌اي براي زبان‌هاي فارسي و انگليسي
   قوانين دستوري GPSG براي زبان فارسي
   دستور زبان احتمالي
   پارسرهاي مناسب مدل زباني
   روشهاي خوشه بندي کلمات

بازشناسي گفتار تلفنيمتن بزرگ يکي از کاربردهاي بازشناسي گفتار، استفاده از آن در سيستم‌هاي تلفني مي‌باشد که کاربر بتواند در پشت تلفن تنها با بيان عنوان موردنظر به صورت گفتاري، کار خود را انجام دهد. اين پروژه تحولي در سيستم‌هاي کامپيوتر- تلفني به وجود آورده است. تشخيص گفتار تلفني به دليل شرايط خاص پشت تلفن مانند نويزهاي کانال، محدوديت پهناي باند، تنوع نوع گوشي‌ها، تغييرات شدت صدا، تنوع گوينده و تنوع گويش داراي پيچيدگي‌هاي خاص خود است. نيوشا نرم افزار توسعه داده شده براي تشخيص گفتار تلفني است که به روش‌هاي مختلف مقاوم‌سازي مجهز شده است تا قابل استفاده در کاربردهاي واقعي باشد. بازشناسي گفتار روي رايانه‌هاي جيبي و پردازنده‌هاي خاص يکي از پروژه‌هاي موجود در گروه تحقيقات شرکت، بازشناسي گفتار روي رايانه‌هاي جيبي، گوشي‌هاي همراه و پردازنده‌هاي خاصي که عموما داراي توان پردازشي ضعيف‌تر بوده و قابليت پردازش اعداد اعشاري را ندارند، مي‌باشد. موتور بازشناسي گفتار مخصوص اينگونه پردازنده‌ها آماده شده است که با سرعت و دقت مناسب کار بازشناسي را انجام مي‌دهد. نرم افزار مترجم صوتي و اجراي برنامه صوتي دو نمونه از اين نرم افزارها مي‌باشد که روي PDAهاي آماده شده است.

تشخيص کلمات کليدي گفتار تشخيص کلمات کليدي گفتار به معناي پيدا کردن يک کلمه يا عبارت خاص در گفتار مي‌باشد که براي کاربردهاي امنيتي، آرشيوهاي صوتي و جستجوي صوتي قابل استفاده است. نسخه‌هاي تلفني و غيرتلفني اين نرم‌افزار آماده شده است و تحقيقت براي بهبود آن ادامه دارد.

کلمات خارج از دادگان و معيار اطمينان براي آماده سازي يک سيستم واقعي، معيار اطمينان يکي از پارامترهاي مهم مي‌باشد. به کمک معيار اطمينان مي‌توان دقت را در موارد خاص بررسي نمود و يا در هنگام آموزش از اين ويژگي استفاده نمود. کاربرد ديگر معيار اطمينان در بدست آوردن کلمات خارج از دادگان است. کلمات خارج از دادگان يکي از پارامترهاي اصلي سيستم‌هاي تشخيص فرامين صوتي مي‌باشد.

بهبود کيفيت گفتار در زمينه بهبود کيفيت گفتار روشهاي تفريق طيفي، Wiener Filter، Signal sub-space و Array Processing beam-forming پياده سازي و تست شده است.

تشخيص گفتار از غير گفتار (VAD) براي بازشناسي گفتار پيوسته يا بازشناسي دستورات صوتي در يک رايانه بدون مشخص بودن شروع يا پايان آواها، لازم است که بدانيم گفتار از کجا شروع شده و تا کجا ادامه دارد. به همين دليل لازم است قسمت گفتار از سکوت جدا شود تا پردازش فقط روي گفتار انجام گيرد. در اين تحقيقات دو روش جديد پياده سازي شده است و از روش‌هاي استاندارد ETSI's AMR ، ITU-T's G.722 VAD براي مقايسه و ارزيابي کارايي استفاده مي‌شود.

بازشناسي با فاصله و آرايه ميکروفني تحقيقات گسترده‌اي در زمينه بازشناسي گفتار از راه دور که منبع صوت دور از ميکروفن بوده و همچنين در زمينه استفاده از آرايه ميکروفني در حال انجام است.

روخواني متن (TTS) تحقيقات ابتدايي در زمينه روشهاي تبديل متن به گفتار انجام گرفته است. کارهاي انجام گرفته بيشتر در محدوده مدل زباني و آماده نمودن برنامه‌هاي اوليه TTS است. ادامه اين بخش تحقيقاتي بنا به درخواست قابل انجام مي‌باشد.

تشخيص گفتار بومي از غيربومي اين کارتحقيقاتي براي زبان فنلاندي شروع شد و تا حدودي کار براي زبان فارسي انجام شده است. با استفاده از اين روش مي‌توان امتياز، دقت و درست بودن لهجه، بين يک گوينده با لهجه غيربومي و فرد ديگري با لهجه بومي را پيدا نمود.

محاسبه سريع معيارشباهت يکي از بارهاي محاسباتي در الگوريتم‌هاي بازشناسي گفتار بدست آوردن مقدار شباهت است که يکي از گلوگاه‌هاي سيستم‌هاي بازشناسي گفتار مي‌باشد. روش‌هاي بهينه‌اي براي محاسبه مقدار شباهت پياده سازي شده و به کار گرفته شده است.

منابع

1-کتاب مبانی پردازش سیگنال گفتار دکتر سعید آیت، انتشارات دانشگاه پیام نور، 1387. 2-عصر گویش پرداز 3-پروژه ها و تحقیقات 4-مقاله ها و انتشارات 5-نویسا 6-آریانا

ابزارهای شخصی

گویش‌ها
فضاهای نام
عملکردها
گشتن
چاپ/برون‌بری
جعبه‌ابزار
زبان‌های دیگر