بازشناسی گفتار
| این مقاله نیازمند ویکیسازی است. لطفاً با توجه به راهنمای ویرایش و شیوهنامه، محتوای آن را بهبود بخشید. |
| در متن این مقاله از هیچ منبع و مأخذی نام برده نشدهاست. شما میتوانید با افزودن منابع برطبق اصول اثباتپذیری و شیوهنامهٔ ارجاع به منابع، به ویکیپدیا کمک کنید. مطالب بیمنبع احتمالاً در آینده حذف خواهند شد. |
هدف از تشخیص گفتار که در متون علمی بیشتر با نام بازشناسی گفتار شناخته شده است، طراحی و پیادهسازی سیستمی است که اطلاعات گفتاری را دریافت و متن و فرمان گوینده را استخراج میکند. [1] فناوری تشخیص گفتار به رایانهای که توانایی دریافت صدا را دارد (برای مثال به یک میکروفن مجهز است) این قابلیت را میدهد که صحبت کاربر را متوجه شود. این فناوری در تبدیل گفتار به متن و یا به عنوان جایگزینی برای صفحه کلید یا ماوس برای وارد کردن دستورات مورد استفاده قرار میگیرد. سیستمهای تشخیص دهنده گفتار انواع مختلفی دارند، بعضی قادرند گفتار پیوسته را شناسایی نمایند، بعضی دیگر فقط میتوانند گفتار گسسته (که بین کلمات سکوت وجود دارد) را تشخیص دهند. همچنین سیستمها قادرند کلمات بیان شده توسط افراد مختلف و یا فقط توسط یک گوینده تشخیص دهند. بهر حال ایده آلترین سیستم آن است که بتواند گفتار پیوسته غیر وابسته به گوینده را در محیط نویزی شناسایی نماید. این سیستمها با بکار گیری روشهای مختلف طبقه بندی و شناسایی الگو قادرند به تشخیص کلمات هستند که البته برای افزایش دقت در شناسایی از یک فرهنگ لغات نیز در انتهای سیستم استفاده میشود. روشهایی مانند Hidden Markov Model یا Neural Network در بسیاری از سیستمهای تشخیص گفتار مورد استفاده قرار میگیرند و در بخشهای انتهایی سیستم از هوش مصنوعی کمک گرفته میشود.
امروزه با داشتن میکروفن و کارت صوتی در کامپیوتر و بکار گیری نرمافزار تشخیص گفتار میتوان دستورات یا کلمات را به صورت صوتی به کامپیوتر وارد کرد. حتی در بعضی از گوشیهای تلفن همراه از این سیستمها جهت دریافت دستورات بصورت صوتی استفاده میشود.
یکی از مطرح ترین پژوهشگاه های ایران در زمینه تکنیک های تشخیص گفتاری عصرگویش پرداز می باشد. این شرکت به عنوان اولين مرکز پيشرو در ارايه سيستمهاي مبتني بر سادهترين وسيله ارتباطي انسان براي زبان فارسي، علاوه بر توسعه تعدادي از سيستمها و راهحلهاي مبتني بر گفتار مانند سيستم ديکته زبان فارسي، سيستم تشخيص گفتار تلفني، جستجوگر کلمات در گفتار و ... براي زبانهاي فارسي و انگليسي، توانايي انجام کليه فعاليتهاي ديگر مبتني بر گفتار را دارد. از آنجا که ارتباط کلامي راحتترين، ساده ترين و سريع ترين راه ارتباطي مي باشد با کمک سيستمهاي تشخيص گفتار عصر گويش پرداز مي توان با رايانه ها از طريق صحبت ارتباط برقرار نمود، با آنها حرف زد، دستور داد يا از پشت تلفن و از راه دور بتوان سيستمهاي خانگي را کنترل نمود. با کمک اين محصولات، بسياري از افراد معلول و يا افرادی با آشنایی محدود با کامپيوتر و زبانهايخارجي نيز ميتوانند تنها از طريق صحبتكردن با کامپيوتر ارتباط برقرار نمايند. در حال حاضر موتور تشخيص گفتار در اين شرکت طراحي و پيادهسازي شده است که پايه و هسته اصلي سيستمهاي تشخيص گفتار فارسي است. اين سيستم بر اساس آخرين تکنولوژي و استفاده از منابع علمي روز طراحي شده و دقتي بسيار قابل قبول در مقايسه با سيستمهاي معروف خارجي دارد. تعدادي از محصولات شرکت كه بر اساس موتور تشخيص گفتار توسعه داده شدهاند، شامل موارد زير ميباشد:
(نویسا)سيستم ديکته کردن متن به جاي تايپ نمودن آن با قابليت فعال شدن در همه محيطها جهت افزايش موثر سرعت تايپ (نیوشا)سيستمهاي تلفن گويا براي ارتباط تلفني از راه دستورات صوتي (کارا)سيستمهاي تشخيص دستورات صوتي مانند کنترل برنامهها يا فرمهاي صوتي و فهم گفتار در خودروها يا ساختمانهاي هوشمند (جویا)جستجوگر واژههاي کليدي براي جستوگرکلامي در سيستمهاي امنيتي (پارسیا)مترجم کلامي فارسي-انگليسي با امکانات محدود (آریانا) سیستم متن خوان فارسی
علاوه بر زمينههاي پردازش سيگنالها و بويژه سيگنالهاي صوتي و تشخيص اتوماتيك گفتار، محققان اين شرکت در زمينههاي ديگري چون افزايش کيفيت گفتار،، تبديل گفتار به متن، پردازش زبانهاي طبيعي شامل روشهاي آماري، دستوري و معنايي زبان درمرحله تحقيق و توسعه سيستمها ميباشند كه هم اکنون برخي از اين محصولات در اختيار کاربران قرار گرفته است. به علاوه اين محصولات ميتواند به زبانهاي ديگر و از جمله زبان انگليسي نيز توسعه داده شود. اين شرکت افتخار دارد با تلاش محققان وطن دوست توانسته است به يکي از تکنولوژي روز دنيا دست يابد و در حال حاضرآماده همکاري با شرکتها، موسسات و سازمانهايي است که خواهان استفاده از محصولات عصر گويش پرداز جهت تسريع بخشيدن در کار مديران يا تکريم ارباب رجوع مي باشد. پروژه هامتن بزرگ نويسا: تايپ گفتاري مهمترين پروژه در حال اجراي واحد تحقيقات شرکت، پروژه ديکته گفتاري زبان فارسي (نويسا) ميباشد. به کمک نويسا ديگر لازم به تايپ يا نوشتن متن نيست، بلکه تنها لازم است که متن خوانده شده آنگاه رايانه آن را براي شما تايپ مينمايد. در اين پروژه تحقيقاتي روشهاي مرسوم و نوين در بازشناسي گفتار مورد استفاده قرار گرفته است. موتور و هسته اصلي بازشناسي گفتار پيوسته به صورت مستقل از گوينده و با واژگان بزرگ آماده گرديده است که تحقيقات براي بهبود بيشتر و افزايش قابليتهاي مختلف به آن در حال انجام است. مقاومسازي سيستمهاي تشخيص گفتارمتن کوچک اين شرکت تحقيقات گستردهاي روي روشهاي مختلف تشخيص گفتار مقاوم به شرايط محيطي و گويندگان مختلف انجام داده است. اين روشها بر روي موتور بازشناسي گفتار اضافه شده است تا بتوان کار بازشناسي گفتار را در محيطهاي واقعي انجام داد. علاوه بر موتور بازشناسي گفتار، تشخيص گفتار مقاوم در محصولات ديگر مانند محصولات تلفني و براي کاربرد خاص آنها بهينه سازي شده است. تعدادي از روشهاي مقاوم سازي به کار رفته به شرح زير است:
روشهاي مبتني بر ويژگي: CMS, PCA, RASTA-PLP, RCC, Liftering روشهاي بهبود هنگام صحبت: تفريق طيفي، آرايه ميکروفني و beam-forming روشهاي مبتني بر تطبيق: MLLR و MAP روشهاي مبتني بر پيش بيني: PMC روشهاي مبتني بر نرمال سازي گوينده: VTLN
مدلهاي زباني و پردازش زبانهاي طبيعيمتن بزرگ براي بسياري از کاربردها مانند تشخيص گفتار، TTS، ترجمه، OCR و پيدا نمودن خطاهاي تايپي، مدلهاي زباني از مهمترين ابزارهاي مورد نياز ميباشد. شرکت عصر گويش روي زبانهاي فارسي و انگليسي روي اين زمينه فعاليت نموده است و توانسته روشهاي آماري و دستور زباني را براي زبان فارسي آماده نمايد. مخصوصا براي دستور زبان فارسي با توجه به کمبود منابع دستور زبان محاسباتي از افراد خبره زبان شناسي استفاده شده است. تعدادي از کارهاي انجام شده به شرح زير است:
مدل احتمالي کلمات تکي، دوتايي، سهتايي و چهارکلمهاي براي زبانهاي فارسي و انگليسي قوانين دستوري GPSG براي زبان فارسي دستور زبان احتمالي پارسرهاي مناسب مدل زباني روشهاي خوشه بندي کلمات
بازشناسي گفتار تلفنيمتن بزرگ يکي از کاربردهاي بازشناسي گفتار، استفاده از آن در سيستمهاي تلفني ميباشد که کاربر بتواند در پشت تلفن تنها با بيان عنوان موردنظر به صورت گفتاري، کار خود را انجام دهد. اين پروژه تحولي در سيستمهاي کامپيوتر- تلفني به وجود آورده است. تشخيص گفتار تلفني به دليل شرايط خاص پشت تلفن مانند نويزهاي کانال، محدوديت پهناي باند، تنوع نوع گوشيها، تغييرات شدت صدا، تنوع گوينده و تنوع گويش داراي پيچيدگيهاي خاص خود است. نيوشا نرم افزار توسعه داده شده براي تشخيص گفتار تلفني است که به روشهاي مختلف مقاومسازي مجهز شده است تا قابل استفاده در کاربردهاي واقعي باشد. بازشناسي گفتار روي رايانههاي جيبي و پردازندههاي خاص يکي از پروژههاي موجود در گروه تحقيقات شرکت، بازشناسي گفتار روي رايانههاي جيبي، گوشيهاي همراه و پردازندههاي خاصي که عموما داراي توان پردازشي ضعيفتر بوده و قابليت پردازش اعداد اعشاري را ندارند، ميباشد. موتور بازشناسي گفتار مخصوص اينگونه پردازندهها آماده شده است که با سرعت و دقت مناسب کار بازشناسي را انجام ميدهد. نرم افزار مترجم صوتي و اجراي برنامه صوتي دو نمونه از اين نرم افزارها ميباشد که روي PDAهاي آماده شده است.
تشخيص کلمات کليدي گفتار تشخيص کلمات کليدي گفتار به معناي پيدا کردن يک کلمه يا عبارت خاص در گفتار ميباشد که براي کاربردهاي امنيتي، آرشيوهاي صوتي و جستجوي صوتي قابل استفاده است. نسخههاي تلفني و غيرتلفني اين نرمافزار آماده شده است و تحقيقت براي بهبود آن ادامه دارد.
کلمات خارج از دادگان و معيار اطمينان براي آماده سازي يک سيستم واقعي، معيار اطمينان يکي از پارامترهاي مهم ميباشد. به کمک معيار اطمينان ميتوان دقت را در موارد خاص بررسي نمود و يا در هنگام آموزش از اين ويژگي استفاده نمود. کاربرد ديگر معيار اطمينان در بدست آوردن کلمات خارج از دادگان است. کلمات خارج از دادگان يکي از پارامترهاي اصلي سيستمهاي تشخيص فرامين صوتي ميباشد.
بهبود کيفيت گفتار در زمينه بهبود کيفيت گفتار روشهاي تفريق طيفي، Wiener Filter، Signal sub-space و Array Processing beam-forming پياده سازي و تست شده است.
تشخيص گفتار از غير گفتار (VAD) براي بازشناسي گفتار پيوسته يا بازشناسي دستورات صوتي در يک رايانه بدون مشخص بودن شروع يا پايان آواها، لازم است که بدانيم گفتار از کجا شروع شده و تا کجا ادامه دارد. به همين دليل لازم است قسمت گفتار از سکوت جدا شود تا پردازش فقط روي گفتار انجام گيرد. در اين تحقيقات دو روش جديد پياده سازي شده است و از روشهاي استاندارد ETSI's AMR ، ITU-T's G.722 VAD براي مقايسه و ارزيابي کارايي استفاده ميشود.
بازشناسي با فاصله و آرايه ميکروفني تحقيقات گستردهاي در زمينه بازشناسي گفتار از راه دور که منبع صوت دور از ميکروفن بوده و همچنين در زمينه استفاده از آرايه ميکروفني در حال انجام است.
روخواني متن (TTS) تحقيقات ابتدايي در زمينه روشهاي تبديل متن به گفتار انجام گرفته است. کارهاي انجام گرفته بيشتر در محدوده مدل زباني و آماده نمودن برنامههاي اوليه TTS است. ادامه اين بخش تحقيقاتي بنا به درخواست قابل انجام ميباشد.
تشخيص گفتار بومي از غيربومي اين کارتحقيقاتي براي زبان فنلاندي شروع شد و تا حدودي کار براي زبان فارسي انجام شده است. با استفاده از اين روش ميتوان امتياز، دقت و درست بودن لهجه، بين يک گوينده با لهجه غيربومي و فرد ديگري با لهجه بومي را پيدا نمود.
محاسبه سريع معيارشباهت يکي از بارهاي محاسباتي در الگوريتمهاي بازشناسي گفتار بدست آوردن مقدار شباهت است که يکي از گلوگاههاي سيستمهاي بازشناسي گفتار ميباشد. روشهاي بهينهاي براي محاسبه مقدار شباهت پياده سازي شده و به کار گرفته شده است.
منابع
1-کتاب مبانی پردازش سیگنال گفتار دکتر سعید آیت، انتشارات دانشگاه پیام نور، 1387. 2-عصر گویش پرداز 3-پروژه ها و تحقیقات 4-مقاله ها و انتشارات 5-نویسا 6-آریانا