بازشناسی گفتار
|
|
ممکن است این مقاله نیازمند ویکیسازی باشد تا با استانداردهای کیفی ویکیپدیا همخوانی یابد. خواهشمندیم با افزودن پیوندهای داخلی مرتبط، یا با بهبود چیدمان به بهبود آن کمک کنید.
برای جزئیات بیشتر روی [نمایش] کلیک کنید.
هیچ دلیلی برای این برچسب ویکیسازی ذکر نشدهاست. میتوانید دلیلتان را با استفاده از پارامتر
|
هدف از تشخیص گفتار که در متون علمی بیشتر با نام بازشناسی گفتار شناخته شدهاست، طراحی و پیادهسازی سیستمی است که اطلاعات گفتاری را دریافت و متن و فرمان گوینده را استخراج میکند. فناوری تشخیص گفتار به رایانهای که توانایی دریافت صدا را دارد (برای مثال به یک میکروفن مجهز است) این قابلیت را میدهد که صحبت کاربر را متوجه شود. این فناوری در تبدیل گفتار به متن و یا به عنوان جایگزینی برای صفحه کلید یا ماوس برای وارد کردن دستورات مورد استفاده قرار میگیرد. سیستمهای تشخیص دهنده گفتار انواع مختلفی دارند، بعضی قادرند گفتار پیوسته را شناسایی نمایند، بعضی دیگر فقط میتوانند گفتار گسسته (که بین کلمات سکوت وجود دارد) را تشخیص دهند. همچنین سیستمها قادرند کلمات بیان شده توسط افراد مختلف و یا فقط توسط یک گوینده تشخیص دهند. بهر حال ایده آلترین سیستم آن است که بتواند گفتار پیوسته غیر وابسته به گوینده را در محیط نویزی شناسایی نماید. این سیستمها با بکار گیری روشهای مختلف طبقه بندی و شناسایی الگو قادرند به تشخیص کلمات هستند که البته برای افزایش دقت در شناسایی از یک فرهنگ لغات نیز در انتهای سیستم استفاده میشود. روشهایی مانند Hidden Markov Model یا Neural Network در بسیاری از سیستمهای تشخیص گفتار مورد استفاده قرار میگیرند و در بخشهای انتهایی سیستم از هوش مصنوعی کمک گرفته میشود.
یک سیستم بازشناسی گفتار خودکار (Automatic Speech Recognition) که به اختصار ASR نامیده میشود با چالشهای فراوانی روبروست. از جمله مهمترین این چالشها میتوان به وجود نویز، انتخاب مجموعه ویژگیهای مناسب، انتخاب مدل آکوستیکی مناسب، تنوع زبان، تنوع جنسیت و مشکل لهجه در بازشناسی گفتار اشاره نمود. در مورد زبانهای رایج مانند انگلیسی کارهای زیادی در جهت مقابله با این چالشها انجام شدهاست اما در مورد زبان فارسی هنوز راه زیادی در پیش است. امروزه با داشتن میکروفن و کارت صوتی در کامپیوتر و بکار گیری نرمافزار تشخیص گفتار میتوان دستورات یا کلمات را به صورت صوتی به کامپیوتر وارد کرد. حتی در بعضی از گوشیهای تلفن همراه از این سیستمها جهت دریافت دستورات بصورت صوتی استفاده میشود.
یکی از مطرح ترین پژوهشگاههای ایران در زمینه تکنیکهای تشخیص گفتاری عصرگویش پرداز میباشد. این شرکت به عنوان اولین مرکز پیشرو در ارایه سیستمهای مبتنی بر سادهترین وسیله ارتباطی انسان برای زبان فارسی، علاوه بر توسعه تعدادی از سیستمها و راهحلهای مبتنی بر گفتار مانند سیستم دیکته زبان فارسی، سیستم تشخیص گفتار تلفنی، جستجوگر کلمات در گفتار و... برای زبانهای فارسی و انگلیسی، توانایی انجام کلیه فعالیتهای دیگر مبتنی بر گفتار را دارد. از آنجا که ارتباط کلامی راحت ترین، ساده ترین و سریع ترین راه ارتباطی میباشد با کمک سیستمهای تشخیص گفتار عصر گویش پرداز میتوان با رایانهها از طریق صحبت ارتباط برقرار نمود، با آنها حرف زد، دستور داد یا از پشت تلفن و از راه دور بتوان سیستمهای خانگی را کنترل نمود. با کمک این محصولات، بسیاری از افراد معلول و یا افرادی با آشنایی محدود با کامپیوتر و زبانهایخارجی نیز میتوانند تنها از طریق صحبتکردن با کامپیوتر ارتباط برقرار نمایند. در حال حاضر موتور تشخیص گفتار در این شرکت طراحی و پیادهسازی شدهاست که پایه و هسته اصلی سیستمهای تشخیص گفتار فارسی است. این سیستم بر اساس آخرین تکنولوژی و استفاده از منابع علمی روز طراحی شده و دقتی بسیار قابل قبول در مقایسه با سیستمهای معروف خارجی دارد. تعدادی از محصولات شرکت که بر اساس موتور تشخیص گفتار توسعه داده شدهاند، شامل موارد زیر میباشد:
(شنوا)سیستم دیکته کردن متن به جای تایپ نمودن آن با قابلیت فعال شدن در همه محیطها جهت افزایش موثر سرعت تایپ (نیوشا)سیستمهای تلفن گویا برای ارتباط تلفنی از راه دستورات صوتی (کارا)سیستمهای تشخیص دستورات صوتی مانند کنترل برنامهها یا فرمهای صوتی و فهم گفتار در خودروها یا ساختمانهای هوشمند (جویا)جستجوگر واژههای کلیدی برای جستوگرکلامی در سیستمهای امنیتی (پارسیا)مترجم کلامی فارسی-انگلیسی با امکانات محدود (آریانا) سیستم متن خوان فارسی
علاوه بر زمینههای پردازش سیگنالها و بویژه سیگنالهای صوتی و تشخیص اتوماتیک گفتار، محققان این شرکت در زمینههای دیگری چون افزایش کیفیت گفتار، ، تبدیل گفتار به متن، پردازش زبانهای طبیعی شامل روشهای آماری، دستوری و معنایی زبان درمرحله تحقیق و توسعه سیستمها میباشند که هم اکنون برخی از این محصولات در اختیار کاربران قرار گرفتهاست. به علاوه این محصولات میتواند به زبانهای دیگر و از جمله زبان انگلیسی نیز توسعه داده شود. این شرکت افتخار دارد با تلاش محققان وطن دوست توانستهاست به یکی از تکنولوژی روز دنیا دست یابد و در حال حاضرآماده همکاری با شرکتها، موسسات و سازمانهایی است که خواهان استفاده از محصولات عصر گویش پرداز جهت تسریع بخشیدن در کار مدیران یا تکریم ارباب رجوع میباشد. پروژه هامتن بزرگ نویسا: تایپ گفتاری مهمترین پروژه در حال اجرای واحد تحقیقات شرکت، پروژه دیکته گفتاری زبان فارسی (شنوا) میباشد. به کمک شنوادیگر لازم به تایپ یا نوشتن متن نیست، بلکه تنها لازم است که متن خوانده شده آنگاه رایانه آن را برای شما تایپ مینماید. در این پروژه تحقیقاتی روشهای مرسوم و نوین در بازشناسی گفتار مورد استفاده قرار گرفتهاست. موتور و هسته اصلی بازشناسی گفتار پیوسته به صورت مستقل از گوینده و با واژگان بزرگ آماده گردیدهاست که تحقیقات برای بهبود بیشتر و افزایش قابلیتهای مختلف به آن در حال انجام است. مقاومسازی سیستمهای تشخیص گفتارمتن کوچک این شرکت تحقیقات گستردهای روی روشهای مختلف تشخیص گفتار مقاوم به شرایط محیطی و گویندگان مختلف انجام دادهاست. این روشها بر روی موتور بازشناسی گفتار اضافه شدهاست تا بتوان کار بازشناسی گفتار را در محیطهای واقعی انجام داد. علاوه بر موتور بازشناسی گفتار، تشخیص گفتار مقاوم در محصولات دیگر مانند محصولات تلفنی و برای کاربرد خاص آنها بهینه سازی شدهاست. تعدادی از روشهای مقاوم سازی به کار رفته به شرح زیر است:
روشهای مبتنی بر ویژگی: CMS, PCA, RASTA-PLP, RCC, Liftering روشهای بهبود هنگام صحبت: تفریق طیفی، آرایه میکروفنی و beam-forming روشهای مبتنی بر تطبیق: MLLR و MAP روشهای مبتنی بر پیش بینی: PMC روشهای مبتنی بر نرمال سازی گوینده: VTLN
مدلهای زبانی و پردازش زبانهای طبیعیمتن بزرگ برای بسیاری از کاربردها مانند تشخیص گفتار، TTS،ترجمه، OCR و پیدا نمودن خطاهای تایپی، مدلهای زبانی از مهمترین ابزارهای مورد نیاز میباشد. شرکت عصر گویش روی زبانهای فارسی و انگلیسی روی این زمینه فعالیت نمودهاست و توانسته روشهای آماری و دستور زبانی را برای زبان فارسی آماده نماید. مخصوصا برای دستور زبان فارسی با توجه به کمبود منابع دستور زبان محاسباتی از افراد خبره زبان شناسی استفاده شدهاست. تعدادی از کارهای انجام شده به شرح زیر است:
مدل احتمالی کلمات تکی، دوتایی، سهتایی و چهارکلمهای برای زبانهای فارسی و انگلیسی قوانین دستوری GPSG برای زبان فارسی دستور زبان احتمالی پارسرهای مناسب مدل زبانی روشهای خوشه بندی کلمات
بازشناسی گفتار تلفنیمتن بزرگ یکی از کاربردهای بازشناسی گفتار، استفاده از آن در سیستمهای تلفنی میباشد که کاربر بتواند در پشت تلفن تنها با بیان عنوان موردنظر به صورت گفتاری، کار خود را انجام دهد. این پروژه تحولی در سیستمهای کامپیوتر- تلفنی به وجود آوردهاست. تشخیص گفتار تلفنی به دلیل شرایط خاص پشت تلفن مانند نویزهای کانال، محدودیت پهنای باند، تنوع نوع گوشیها، تغییرات شدت صدا، تنوع گوینده و تنوع گویش دارای پیچیدگیهای خاص خود است. نیوشا نرم افزار توسعه داده شده برای تشخیص گفتار تلفنی است که به روشهای مختلف مقاومسازی مجهز شدهاست تا قابل استفاده در کاربردهای واقعی باشد. بازشناسی گفتار روی رایانههای جیبی و پردازندههای خاص یکی از پروژههای موجود در گروه تحقیقات شرکت، بازشناسی گفتار روی رایانههای جیبی، گوشیهای همراه و پردازندههای خاصی که عموما دارای توان پردازشی ضعیفتر بوده و قابلیت پردازش اعداد اعشاری را ندارند، میباشد. موتور بازشناسی گفتار مخصوص اینگونه پردازندهها آماده شدهاست که با سرعت و دقت مناسب کار بازشناسی را انجام میدهد. نرم افزار مترجم صوتی و اجرای برنامه صوتی دو نمونه از این نرم افزارها میباشد که روی PDA های آماده شدهاست.
تشخیص کلمات کلیدی گفتار تشخیص کلمات کلیدی گفتار به معنای پیدا کردن یک کلمه یا عبارت خاص در گفتار میباشد که برای کاربردهای امنیتی، آرشیوهای صوتی و جستجوی صوتی قابل استفادهاست. نسخههای تلفنی و غیرتلفنی این نرمافزار آماده شدهاست و تحقیقت برای بهبود آن ادامه دارد.
کلمات خارج از دادگان و معیار اطمینان برای آماده سازی یک سیستم واقعی، معیار اطمینان یکی از پارامترهای مهم میباشد. به کمک معیار اطمینان میتوان دقت را در موارد خاص بررسی نمود و یا در هنگام آموزش از این ویژگی استفاده نمود. کاربرد دیگر معیار اطمینان در بدست آوردن کلمات خارج از دادگان است. کلمات خارج از دادگان یکی از پارامترهای اصلی سیستمهای تشخیص فرامین صوتی میباشد.
بهبود کیفیت گفتار در زمینه بهبود کیفیت گفتار روشهای تفریق طیفی، Wiener Filter، Signal sub-space و Array Processing beam-forming پیاده سازی و تست شدهاست.
تشخیص گفتار از غیر گفتار (VAD) برای بازشناسی گفتار پیوسته یا بازشناسی دستورات صوتی در یک رایانه بدون مشخص بودن شروع یا پایان آواها، لازم است که بدانیم گفتار از کجا شروع شده و تا کجا ادامه دارد. به همین دلیل لازم است قسمت گفتار از سکوت جدا شود تا پردازش فقط روی گفتار انجام گیرد. در این تحقیقات دو روش جدید پیاده سازی شدهاست و از روشهای استاندارد ETSI's AMR، ITU-T's G.722 VAD برای مقایسه و ارزیابی کارایی استفاده میشود.
بازشناسی با فاصله و آرایه میکروفنی تحقیقات گستردهای در زمینه بازشناسی گفتار از راه دور که منبع صوت دور از میکروفن بوده و همچنین در زمینه استفاده از آرایه میکروفنی در حال انجام است.
روخوانی متن (TTS) تحقیقات ابتدایی در زمینه روشهای تبدیل متن به گفتار انجام گرفتهاست. کارهای انجام گرفته بیشتر در محدوده مدل زبانی و آماده نمودن برنامههای اولیه TTS است. ادامه این بخش تحقیقاتی بنا به درخواست قابل انجام میباشد.
تشخیص گفتار بومی از غیربومی این کارتحقیقاتی برای زبان فنلاندی شروع شد و تا حدودی کار برای زبان فارسی انجام شدهاست. با استفاده از این روش میتوان امتیاز، دقت و درست بودن لهجه، بین یک گوینده با لهجه غیربومی و فرد دیگری با لهجه بومی را پیدا نمود.
محاسبه سریع معیارشباهت یکی از بارهای محاسباتی در الگوریتمهای بازشناسی گفتار بدست آوردن مقدار شباهت است که یکی از گلوگاههای سیستمهای بازشناسی گفتار میباشد. روشهای بهینهای برای محاسبه مقدار شباهت پیاده سازی شده و به کار گرفته شدهاست.
منابع [ویرایش]
- 1-کتاب مبانی پردازش سیگنال گفتار
- دکتر سعید آیت، انتشارات دانشگاه پیام نور، ۱۳۸۷.
- 2-عصر گویش پرداز
- 3-پروژهها و تحقیقات
- 4-مقالهها و انتشارات
- 5-شنوا
- 6-آریانا