پردازش گفتار
این مقاله نیازمند ویکیسازی است. لطفاً با توجه به راهنمای ویرایش و شیوهنامه، محتوای آن را بهبود بخشید. |
هشدار! مطالب این صفحه، لزوماً دربارهٔ پردازش گفتار نیست.
فناوری تشخیص گفتار نرمافزاری است که قادر است صوت را به متن تبدیل کند. فناوری تشخیص گفتار به رایانهای که توانایی دریافت صدا را دارد برای مثال به یک میکروفن مجهز است این قابلیت را میدهد که صحبت کاربر را متوجه شود٫این فناوری در تبدیل گفتار به متن یا به عنوان جایگزین برای ارتباط با رایانه کاربرد دارد. برقراری ارتباط گفتاری با رایانهها به جای استفاده از صفحه کلید و ماوس یکی از زمینههای تحقیقاتی مهم چند دههٔ اخیر است و شرکتهای بزرگی چون مایکروسافت ٫فیلیپس ٫ ای ال ای تی ٫ ای بی ام ٫سالانه هزینههای هنگفتی را برای این منظور پرداخت کرده و میکنند.
از جمله محدودیتهای این نرمافزار این است که کلماتی که در این نرمافزار وجود دارد کلماتی است که از قبل به نرمافزار معرفی شدهاست. ضمن آن که در این نرمافزار کلمات محاورهای قابل شناسایی نیست. از جمله کاربردهای این نرمافزار در ادارات و سازمانها برای کاهش بهکارگیری نیروی انسانی بهره برد. همچنین افزایش امنیت نیز یکی دیگر از قابلیتهای استفاده از این نرمافزار است.[۱]
مقدمه
[ویرایش]هدف بلند مدت سیستمهای بازشناسی خودکار گفتار‚ طراحی ماشینی است که سیگنال صوتی مربوط به یک جملهٔ بیان شده را به دنبالهای از کلمات نوشته شده تبدیل نماید. سیستمهای بازشناسی خودکار گفتار اطلاعات متنوعی ازمنابع دانش گوناگون را در جهت دستیابی به جملهٔ بیان شده از روی سیگنال صوتی دریافت شده، به کار میگیرند. پردازش گفتار به عنوان یکی از زیر شاخههای پردازش سیگنال ٫ به سرعت در حال گسترش است. تکنیکهای پیچیده و نوآوریهای روزافزون این دانش٫همگی در راستای دستیابی به این آرزو هستند که امکان بیابیم مفاهیم در قالب ابزارهای ریاضی فراهم گردد. در این مقاله٫به بیان خلاصهای از انواع روشهای پردازش گفتار میپردازیم:
- تحت تأثیر قرار گرفتن کیفیت سیگنال صوتی به وسیلهٔ نویز محیط و تابع انتقال سیستم انتقال مانند میکروفن، تلفن
- عدم وضوح مرز ما بین کلمات و واجها در سیگنال صوتی
- تنوع وسیع سرعت بیان
- دقت ناکافی در بیان کلمات و به خصوص انتهای آنها در گفتار محاورهای نسبت به گفتار مجزا.
- تاپیر تنوعات متعدد گوینده از جمله جنسیت، شرایط فیزیولوژیک و روانی بر گفتار.
- بهکارگیری محدودیتهای معنایی-نهوی زبان برای گفتار زبان طبیعی به روشی مشابه ارتباط انسان با انسان در سیستم بازشناسی.
در جهت غلبه بر مشکلات مذکور تاکنون روشهای متنوعی پیشنهاد شدهاست که از جمله آنها روشهای اماری مبتنی بر قانون تصمیمگیری بیز، روشهای مبتنی بر شبکهٔ عصبی و در برخی موارد ترکیب روشهای اماری و شبکهٔ عصبی است. با بررسی روشهای فوق میتوان دریافت که شناسایی کلمه یا واج بدون خطا بدون استفاده از دانش سطوح بالاتر به خصوص در بازشناسی گفتار پیوسته با حجم لغتنامهٔ بزرگ، امکانپذیر نیست. به عنوان یک نتیجه ‚یک سیستم بازشناسی گفتار که با انبوهی از فرضها دربارهٔ واجها، کلمات و معانی و ادراک مشخص میشود‚در نظر بگیرد. در سیستمهای مبتنی بر قانون تصمیمگیری بیز برخی از این محدودیتها توسط مدل زبانی به سیستم بازشناسی اعمال میشود. نتایج مطالعات و بررسیها نشان دادهاست که مدلهای زبانی که در حالت کلی توالی واحدهای زبانی را مدل میکنند، در کاهش خطای بازشناسی نقش عمدهای ایفا میکنند. در این میان، استفاده از مدلهای زبانی مبتنی بر شبکههای عصبی با وجود قابلیت این شبکهها در یادگیری زنجیره نمادها و نیز به دلیل قابلیت هموارسازی و خاصیت تعمیم دهی آنها بر روشهای اماری مزیت دارد.
تولید نرمافزار ترجمه گفتار
[ویرایش]از جمله قابلیتهای این نرمافزار این است که این نرمافزار قادر است فایلهای WAV,mp3 را مستقل از صدای گوینده به متن تبدیل کند ولی کیفیت ان کمتر از ان است که صدای فرد را به نرمافزار معرفی کنیم. از دیگر قابلیتهای سیستمهای گفتاری میتوان به ترجمهٔ گفتار به سایر زبانها اشاره کرد. از این قابلیت در جنگ آمریکا و عراق استفاده شد. امریکاییها سیستمهایی را طراحی و تولید کردند که قادر بود کلام عربی را به انگلیسی ترجمه کند. همچنین در انجام اقدامات امنیتی بهرهبرداری میکنند که میتواند کلمات کلیدی را برای این نرمافزار شناسایی کرد تا نسبت به ان کلمه خاص حساس شود تا در صورت استفاده از آن، سیستم این کلمات را رکورد کند. این قابلیت در سال ۱۹۹۴ در آمریکا طراحی و تولید شد و در سیستمهای تلفنی به کار گرفته شد. در حال حاضر این نرمافزار طراحی و تولید شدهاست به گونهای که در متن و گفتار کاربر، کلمهٔ خاصی را میتوان فعال کرد و این نرمافزار میتواند ان کلمه را جستجو کند و کلمهٔ عبور کاربر ذخیره شود.
کاربردهای نرمافزار تشخیص گفتار
[ویرایش]به عنوان یک کاربر رایانه، احتمالاً با قابلیت گفتاری مجموعهٔ افیس به عنوان یکی از ویژگیهای جذاب و تا حدی فانتزی برخورد کرده یا با ان کار کردهاید. به کمک این قابلیت شما به جای استفاده از صفحه کلید برای تایپ مطالبتان ‚به راحتی با خواندن متن مورد نظرتان و انتقال گفتارتان به کمک یک میکروفن معمولی به رایانه ‚مطلب مورد نظرتان را تایپ شده میبینید. حتی برای ذخیره کردن، کپی کردن، گذاشتن عکس در متن… به جای کلیکهای پشت سر هم و گاهی با تعداد بالا، میتوانید فرمان مربوطه را به کمک گفتار به نرمافزار داده تا کار شما را انجام دهد. جدای از اینکه توانایی درست کار کردن این قابلیت افیس چقدر باشد‚یک محدودیت بزرگ در سر راه استفاده از ان برای ما ایرانیان وجود دارد ‚این قابلیت فقط برای زبان انگلیسی است. (البته زبانهای چینی و ژاپنی را نیز شامل میشود!). ایجاد چنین سیستمی که ان را تشخیص یا بازشناسی گفتار مینامند، در زبان فارسی، چندین سال از تحقیقات محققان ¸اساتید و دانشجویان دانشگاههای مختلف کشور را به خود اختصاص دادهاست. اما جدیترین جهشی که در حدود ده سال پیش در این زمینه ایجاد شد، ایجاد دادگان گفتاری فارسی دات و یک سیستم اولیه تشخیص گفتار فارسی در مرکز هوشمند علائم بودهاست. در ادامه و در طی یکی –دو سال اخیر ¸مهمترین دستاورد در این تکنولوژی برای زبان فارسی، سیستمهای تشخیص است. در کاربردهایی مانند تشخیص گفتار تلفنی ‚سیستم لزوماً باید مستقل از گوینده باشد. در کاربردهای واقعی معمولاً سیستم را مستقل از گوینده میسازند و موقع استفاده به صدای گوینده خاصی ان را اصطلاحاً تطبیق میکنند این کار در قابلیت گفتاری مجموعه افیس به کمک خواندن متون اولیه در ویزارد سیستم انجام میشود ‚چنین قابلیتی در سیستم نویسا نیز وجود دارد. هر چه تعداد واژگانی که سیستم میتواند تشخیص دهد بیشتر باشد، شباهت میان کلمات بیشتر باشد و در نتیجه کارایی سیستم به علت افزایش اشتباهات کاهش پیدا میکند. از این رو در کاربردهای واقعی معمولاً فقط واژگان متناسب با کاربردهای موردنظر را انتخاب میکنند تا محدود شود. در قابلیت گفتاری افیس هم که ادعا میشود اکثر کلمات انگلیسی را دارد٫ کارایی به شدت پایین است (کارایی پایین آن به علت این است که ما غیر انگلیسی زبان هستیم!)ولی در محصولات محدودتر این شرکت کارایی به مراتب بهتر است. گفتار کاربر میتواند پیوسته و طبیعی یا با مکث میان کلمات همراه باشد٫ بدیهی است که حالت اول مطلوب هر کاربری است. یکی از مشکلاتی که محصولات نویسا و نیوشا تا حد زیادی ان را حل کردهاند٫استخراج و بهکارگیری قابلیتهای زبان ٫زبان فارسی در حد نسبتاً کاملی است. این اطلاعات زبانی میتواند در سایر نرمافزارهایی که نیاز به اطلاعات زبانی دارند٫مانند مترجمها نیز به کار گرفته میشود. اثر صداهای اضافی و ناخواسته در کاربردهای واقعی نرمافزارهای ocr نرمافزارهای تشخیص گفتار را در عمل دچار افت شدید کارایی مینماید٫در محصولات فارسی ارائه شده با رویکردهای مختلفی این نقصان را تا حد زیادی جبران کردهاست.
تکنولوژی بازشناسی گفتار
[ویرایش]تکنولوژی بازشناسی گفتار ٫ شیوهای جدید برای تشخیص پیام هاو دستورهای صوتی و حاصل پژوهش جمعی از متخصصین دانشگاه صنعتی شریف در زمینهٔ پردازش گفتار است. نگارندگان این مقاله ٫ توانستهاند نرمافزارهای طراحی و پیادهسازی کنند که بتواند قابلیتهای طرح را در سیستمی که از لحاظ سختافزاری کوچک و از نظر هزینه مقرون به صرفهاست٫پیادهسازی کند. ویژگیهای منحصر به فرد این طرح٫ان را از جدیدترین فناوریهای موجود دنیا در زمینهٔ پردازش گفتار٫متمایز میکند.[۲]
از جمله ویژگیهای این طرح میتوان به موارد زیر اشاره کرد:
- قابل اجرا بر روی رایانه یا سختافزاری مستقل
- سهولت استفاده
- هزینه اندک پیادهسازی
- عدم وابستگی به هیج نوع زبان با گویشی
- عدم حساسیت به سروصدای محیط
- امکان تعریف دستورهای صوتی، مطابق با سلیقه کاربرد
فناوری بازشناسی گفتار، بر پایه این ویژگیها در طیف گستردهای از محصولات قابل استفادهاست. نمونههایی از زمینههای کاربرد آن عبارتند از:
- خودرها
- لوازم خانگی الکتریکی و الکترونیکی
- اسباب بازیها، عروسکها و سرگرمیهای رایانهای
- سیستمهای دیتار افراد کم توان و سالخورده
- نرمافزارهای رایانهای مدیریتی
- سیستمهای آموزش زبان
به عنوان نمونه از این نرمافزار در دادن فرامین صوتی به خودرو ویژه هنگامی که راننده مشغول رانندگی است و نمیتواند کاربری دیگری انجام دهد، استفاده میشود فرامین صوتی شامل موارد ذیل میشوند:
- تنظیم آینههای بغل و عقب
- کنترل بالابر شیشهها
- کنترل قفل کودک
- کنترل روغن ترمز و موتور یا بنزین در حال حرکت
- کنترل رادیو یا هر نوع رسانه دیگر در خودرو
- کنترل برف پاک کنها
- تنظیم صندلیها
- کنترل چراغها
- هر نوع دستور دیگر که انجام آن نیازمند حرکت اضافی راننده یا سرنشینان است.
این نرمافزار، به خوبی در محیط پرنویز، عمل میکند مثلاً در خودرویی با سرعت ۱۰۰ کیلومتر در ساعت با شیشههای باز و در بزرگراه تست شده و پاسخ مناسب گرفتهاست. دیگر مزیت این نرمافزار، حجم بسیار پایین آن است که به راحتی قابل برنامهریزی بر روی یک ای سی است (نسخه دمو روی pc) به راحتی تا ۱۰۰ فرمان را پردازش میکند) نرمافزار مورد بحث، با این مشخصات در ایران مشابه ندارد و موارد موجود در دنیا نیز مانند فرمانی توسط صدا حداقل نیاز به پردازنده پنتیوم با حجم زیاد حافظه دارند. نکته دیگر اینکه این نرمافزار، هوشمند بوده و قابل آموزش دادن است و پس از آموزش (مثلاً با صدای اعضای یک خانواده) صدار هرکدام از آنها را که بشنود (و در کل هر زمانی که کلمه یا فرمانی را بشنود) مستقل از این که چه کسی آن را ادا کردهاست (صدای زن یا مرد، کلفت یا نازک) فرمان را اجرا میکند. دیگر مزیت این نرمافزار، حجم بسیار پایین آن است که به راحتی قابل برنامهریزی بر روی یک ای سی است (نسخه دمو روی کامپیوتر جیبی به راحتی تا ۱۰۰ فرمان را پردازش میکند. نرمافزار مورد بحث با این مشخصات در ایران مشابه ندارد و موارد موجود در دنیا نیز مانند وویس کامند در میکروسافت آفیس٫حداقل نیاز به پردازنده پنتیوم با حجم زیاد حافظه دارند نکته دیگر اینکه این نرمافزار هوشمند بوده و قابل آموزش دادن است و پس از آموزش (مثلاً با صدای اعضای یک خانواده) صدای هر کدام از آنها را که بشنود (و در کل هر زمانی که کلمه یا فرمان را بشنود) مستقل از اینکه چه کسی آن را ادا کردهاست (صدای زن با مردن، کلفت یا نازک) فرمان را اجرا میکند.
گزارش طرح نرمافزار فناوری بازشناسی گفتار
[ویرایش]- عنوان طرح: فناوری بازشناسی گفتار مقاوم در برابر نویز
- توضیح عمومی و کاربرد: با استفاده از این فناوری، صدای ضبط شده توسط یک میکروفون بازشناسی شده و به فرامین برای یک دستگاه الکترونیکی یا رایانه، تبدیل میشوند حوزه کاربرد این فناوری تمامی دستگاههای الکتریکی، الکترونیکی و رایانهای است که به طریقی از کاربر فرمان میگیرند. تمام فرامین قابل بیان با استفاده از مجموعه متناهی کلمات گسسته را میتوان با استفاده از این فناوری توسط میکروفون به دستگاه یا رایانه داد.[۳]
- مزایا در مقایسه با دیگر فناوریهای مشابه: مهمترین خصوصیات این فناوری نیاز به توان پردازشی بسیار کم و مقاومت بسیار زیاد در مقابل سرو صدای محیط (نویز) است.
- شرح طرح: روش ارائه شده از سه بخش اصلی تشکیل شدهاست.
الف ـ بخش اول که وظیفه تبدیل سیگنال صوتی به دادههای قابل پردازش را برای دو بخش دیگر انجام میدهد.
ب ـ بخش دوم که وظیفه یادگیری و توصیف کلمات را بر عهده دارد و با گرفتن نمونههای ضبط شده کلمات، الگوهای لازم برای بخش بازشناسی را میسازد.
ج ـ بخش سوم که دادههای گرفته شده از بخش اول را با الگوهایی که در بخش دوم یادگرفته شدهاند مقایسه میکرده و شبیهترین کلمه را انتخاب میکند.
استخراج ویژگیها از سیگنال صدا:
اولین مرحله در مراحل یادگیری و بازشناسی، استخراج ویژگیها از سیگنال صداست. برای انجام این کار باید مراحل زیر را طی کرد:
- استخراج اسپکتروگرام صدا
- اعمال فیلترهای فیوژن ماکسیمم –ان بر روی فریمهای اسپکتروگرام تولید شده
- اعمال فیلترهای شناسایی یکنواختی در طول اسپکتروگرام
الف ـ اولین مرحله در بازشناسی صدا، تبدیل سیگنال صدای ورودی به اسپکتروگرام با طول محدود است برای این کار با استفاده از الگوریتم استاندارد تبدیل سریع فوریه تبدیلات فوریه پنجرههایی به طول ۵۱۲ صدای ضبط شده با ۱۲۸ فریم همپوشانی گرفته و در کنار یکدیگر قرار داده میشود در پایان این مرحله، سیگنال یک بعدی صدا به تصویری دوبعدی تبدیل میشود
ب ـ سومین مرحله از بخش استخراج خصوصیات، فشردهسازی اسپکتروگرام در طول محور فرکانس است. پس از اعمال این الگوریتم، مراحل تبدیل داده خام (سیگنال صدا) به داده آماده بازشناسی با یادگیری، تمام شده و میتوان به یکی از دو بخش بعدی رفت.
یادگیری: برای یادگیری الگوی هر کلمه یک یا چند نمونه از ان کلمه به بخش یادگیری داده میشود اگر تنها یک نمونه از کلمه وجود داشته باشد آن نمونه به عنوان الگوی خروجی انتخاب میشود در غیر این صورت از الگوریتم کا مینز۱ برای به دست آوردن الگوهای مناسب برای دستهبندی تمامی کلمات داده شدهاستفاده میشود
بازشناسی الگوها
[ویرایش]در این بخش الگوریتم مقایسه یک ورودی صوتی با الگوی کلماتی که از قبل یادگرفته شدهاند ارائه میشود برای این کار الگوریتم مقایسه کشسان (۱) ارائه میشود. برای تصمیمگیری نهایی ورودی این بخش با تمام کلماتی که قبلاً یادگرفته شدهاند توسط این الگوریتم مقایسه شده و کلمهای که بیشترین تطابق را داشته باشد به عنوان جواب انتخاب میشود. الگوریتم مقایسه کشسان ساختاری مشابه ماشین حالات محدود (۲) دارد با ۳ تفاوت مهم زیر (از این به بعد این الگوریتم را ماشین تطبیق دهندهٔ قابل انعطاف یاEMM مینامیم)[۲] ۱- بر خلاف EMM, FSM ممکن است بیش از یک حالت فعال در هر زمان وجود داشته باشد تعداد حالات فعال در زمانهای مختلف نیز متفاوت است. در صورتی که یک EMM به وضعیتی برسد که هیچ حالت فعالی نداشته باشد به پایان کار خود رسیدهاست. ۲- در EMM حالات فعال به جز شماره حالت خصوصیات دیگری نیز دارند. فهرست این خصوصیات عبارتند از:
الف ـ میزان تطابق وضعیت (۳)های قبلی: این معیار مشخص میکند که اگر اکنون در وضعیت N ام ماشین باشیم. N-1 وضعیت قبلی با چه درجه تطابقی شناسایی شدهاست.
ب ـ میزان تطابق وضعیت قبلی: این معیار، بیانگر میزان تطابق درست بین ورودیهایی که به این وضعیت انتساب داده شدهاند با الگوریتم خواسته شده برای این وضعیت است.
۳- در EMM مشابه ماشینهای حالت محدود غیرقطعی (۴) با یک ورودی و از یک وضعیت ممکن است توان حرکت به بیش از یک وضعیت دیگر وجود داشته باشد در چنین حالتی تمامی وضعیتهای بعدی همزمان تولید و پیموده میشوند.
روش کار EMM به این شکل است که برای مقایسه یک کلمه (الگو) با یک ورودی Ii فریمهای خروجی بخش پیش پردازش اطلاعات (۱–۴) برای ورودی و Pi فریمهای خروجی بخش یادگیری برای الگو خوانده خواهند شد. برای این کار یک EMM ساخته میشود که به اندازه فریمهای الگو وضعیت دارد و انتقال بین وضعیتها فقط در طول محور فریمهای الگو قابل انجام است به این ترتیب با خواندن هر فریم ورودی (Ii) یا باید در وضعیت سابق الگو بمانیم یا به وضعیتی بعد از آن منتقل شویم. به این ترتیب با رسیدن هر فریم ورودی هر وضعیت فعلی فعال EMM به دو وضعیت جدید تبدیل میشود اما باید به طریقی از این افزایش نمایی جلوگیری کرد برای این کار وضعیتهایی که درجه شناسایی درستشان از حد خاصی کمتر باشد حذف میشوند.
تلفن همراه SPH-P۲۰۷ ساخته شرکت سامسونگ دارای نرمافزاری تشخیص گفتار است. که بر این اساس به پیامهای گفتاری سریعتر از تایپ کردن آنها روی صفحه شمارهگیری جواب میدهد وظیفه اصلی این تلفن بیسیم تبدیل گفتار انسان به سیگنالهای دیجیتالی و بالعکس میباشد تلفن SPH-P۲۰۷ سامسونگ اولین تلفنی است که از فناوری تشخیص گفتار برای دیکته یک متن استفاده میشود.
ترکیب و تشخیص صحبت
[ویرایش]کاربردهای نیازمند پردازش صحبت اغلب در دو دستهٔ ترکیب صحبت و تشخیص صحبت مورد بررسی قرار میگیرند.[۲] ترکیب صحبت عبارت است از فناوری تولید مصنوعی صحبت به وسیلهٔ ماشین و بهطور عمده از پروندههای متنی به عنوان ورودی آن استفاده میگردد. در اینجا باید به یک نکتهٔ مهم اشاره شود که بسیاری از تولیدات تجاری که صدای شبیه به صحبت انسان ایجاد میکنند در واقع ترکیب صحبت انجام نمیدهند بلکه تنها یک تکهٔ ضبط شده به صورت دیجیتال از صدای انسان را پخش میکنند. این روش کیفیت صدای بالایی ایجاد میکند اما به واژهها و عبارات از پیش ضبط شده محدود است. از کاربردهای عمدهٔ ترکیب صحبت میتوان به ایجاد ابزارهایی برای افراد دارای ناتوانی بینایی برای مطلع شدن از آنچه بر روی صفحهٔ کامپیوتر میگذرد اشاره کرد. تشخیص صحبت عبارت است از تشخیص کامپیوتری صحبت تولید شده توسط انسان و تبدیل آن به یک سری فرامین یا پروندههای متنی. کاربردهای عمدهٔ موجود برای این گونه سیستمها دربرگیرندهٔ بازهٔ گستردهای از سیستمها و کاربردها از سیستمهای دیکتهٔ کامپیوتری که در سیستمهای آموزشی و همچنین سیستمهای پردازش واژه کاربرد دارد گرفته تا سیستمهای کنترل کامپیوترها به وسیلهٔ صحبت و بهطور خاص سیستمهای فراهم آورندهٔ امکان کنترل کامپیوترها برای افراد ناتوان از لحاظ بینایی یا حرکتی میباشد. کاربرد مورد نظر ما یعنی تشخیص گوینده از لحاظ نحوهٔ پیادهسازی و استفاده تناسب فراوانی خانوادهٔ دوم یعنی تشخیص کامپیوتری صحبت دارد، ولی از لحاظ اهداف و کاربردها میتواند در خانوادهای جداگانه از کاربردهای نیازمند پردازش صحبت قرار گیرد. ترکیب و تشخیص کامپیوتری صحبت مسائل دشواری هستند. روشهای مختلفی مورد آزمایش قرار گرفتهاند که موفقیت کمی داشتهاند. این زمینه از زمینههای فعال در تحقیقات پردازش سیگنال دیجیتال (دی.اس. پی) بوده و بدون شک سالها این گونه خواهد ماند. در حال حاضر از ابزارهای برنامهنویسی جاافتاده در زمینههای برشمرده شده میتوان به ای.پی. آی صحبت شرکت مایکروسافت اشاره نمود که دارای تواناییهای عمده ای در زمینههای تشخیص و ترکیب صحبت است و توانایی آن تا حدی گستردهاست که در محصول بزرگ و از آن استفادهٔ عملی شدهاست. ابزار عمدهٔ دیگر تولید شرکت آی.بی. ام است و MS افیس xp توانمند نام دارد که به لحاظ پشتیبانی آن برای سیستمعاملهای متعدد و زبانهای گوناگون از اهمیت خاصی برخوردار است.[۴]
مدلی برای توصیف روش تولید صحبت
[ویرایش]تقریباً تمام تکنیکهای ترکیب و تشخیص صحبت بر اساس مدل تولید صحبت انسان که در شکل شماره ۳ نشان داده شدهاست ایجاد شدهاند. بیشتر صداهای مربوط به صحبت انسان به دو دستهٔ صدادار و سایشی تقسیم میشوند. اصوات صدادار وقتی که هوا از ریهها و از مسیر تارهای صوتی به بیرون دهان یا بینی رانده میشوند ایجاد میگردند. تارهای صوتی دو رشتهٔ آویخته از بافت هستند که در مسیر جریان هوا کشیده شدهاند. در پاسخ به کشش ماهیچههای متفاوت تارهای صوتی با فرکانسی بین ۵۰ تا ۱۰۰۰ هرتز ارتعاش میکنند که باعث انتقال حرکتهای متناوب هوا میشود. در مقایسه، اصوات سایشی به صورت نویز تصادفی و نه حاصل از ارتعاش تارهای صوتی به وجود میآیند. این حادثه زمانی رخ میدهد که تقریباً جریان هوا به وسیلهٔ زبان و لبها یا دندانها حبس میشود که این امر باعث ایجاد اغتشاش هوا در نزدیکی محل فشردگی میگردد شکل شماره ۳ - مدل صحبت انسان. در یک تکه زمان کوتاه، حدود ۲ تا ۴۰ میلیثانیه صحبت میتواند با استفاده از سه پارامتر مدلسازی شود: ۱- انتخاب یک آشفتگی متناوب یا نویزوار. ۲- پیچ آشفتگی متناوب ۳- ضرایب یک فیلتر خطی بازگشتی که پاسخ اثر صوتی را تقلید میکند. اصوات سایشی زبان انگلیسی عبارتند از S,Z،TH استفاده از یک مولد نویز نشان داده شدهاند. هر دو نوع این اصوات، توسط چالههای صوتی که از زبان، لبها، دهان، گلو و گذرگاههای بینی تشکیل شدهاند دچار تغییر میشوند. چون انتشار صدا در این ساختارها یک فرایند خطی است میتواند با استفاده از یک فیلتر خطی با یک پاسخ ضربهٔ مناسب نمایش داده شود. در بیشتر موارد از یک فیلتر بازگشتی که ضرایب بازگشتی آن ویژگیهای فیلتر را مشخص میکند استفاده میشود. به خاطر این که چالههای صوتی ابعادی به اندازهٔ چند سانتیمتر دارند پاسخ فرکانسی یک دنباله از تشدیدها با اندازههای کیلوهرتزی است. در اصطلاح پردازش صوت این قلههای تشدید فرکانسهای فرمانت خوانده میشوند. با تغییر جایگاه نسبی زبان و لبها فرکانسهای فرمانت هم از لحاظ دامنه و هم از لحاظ فرکانس ممکن است تغییر کنند.
سیگنال صوتی به تکههای کوچک به اندازهٔ ۲ تا ۴۰ میلیثانیه تقسیم میشوند و از الگوریتم اف.اف. تی برای یافتن طیف فرکانسی هر تکه استفاده میشود. این طیفها در کنار هم قرار داده شده تبدیل به یک تصویر سیاه و سفید میشود (دامنههای پایین روشن و دامنههای بالا تیره میشوند). این کار یک روش گرافیکی برای مشاهدهٔ این که چگونه محتویات فرکانسی صحبت با زمان تغییر میکند به وجود میآورد. اندازهٔ هر تکه بر اساس اعمال یک بده بستان بین دقت فرکانسی (که با تکههای بزرگتر بهتر میشود) و دقت زمانی (که با تکههای کوچکتر بهتر میشود) انتخاب میگردد. ویژگیهای عمومی اصوات d و c ویژگیهای عمومی اصوات صدادار و شکلهای b و a دارای موج صوتی متناوبی مانند آنچه در رین در a همچنانکه در شکل ۴ دیده میشود اصوات صدا دار مثل نشان داده شده و طیف فرکانسی آنها که عبارت است از یک دنباله از همسازهای با اندازهٔ منظم a شکل دارای یک سیگنال نویزی در دامنهٔ استوم در s میباشد در مقابل، اصوات سایشی مانند b مانند شکل هستند. این طیفها همچنین شکل فرکانسهای فرمانت برای d و یک طیف نویزی مانند شکل c زمان مانند شکل در هر رین هر دو نوع صوت نشان میدهند. همچنین به این نکته توجه کنید که نمایش زمان-فرکانس کلمهٔ دو باری که ادا شده شبیه به هم است. در یک دور هی کوتاه برای نمونه ۲۵ میلیثانیه یک سیگنال صحبت میتواند با مشخص کردن سه پارامتر تقریب زده شود:
- انتخاب یک اغتشاش متناوب یا نویزوار
- فرکانس موج متناوب (اگر مورد استفاده قرار گرفته باشد)
- ضرایب فیلتر دیجیتالی که برای تقلید پاسخ تارهای صوتی استفاده شدهاست.
صحبت پیوسته با بهروزآوری این سه پارامتر به صورت پیوسته به اندازهٔ ۴۰ بار در ثانیه ترکیب شود. این نامیده میشود و یک وسیلهٔ «صحبت و املا» راهکار برای یکی از کاربردهای تجاری دی.اس. پی که الکترونیکی پرفروش برای بچه هاست مناسب است. کیفیت صدای این نوع ترکیبکنندهٔ صحبت پایین است و بسیار مکانیکی و متفاوت با صدای انسان به نظر میرسد. ولی در هر صورت نرخ دادهٔ خیلی پایینی در حدود چند کیلوبیت بر ثانیه نیاز دارد.
همچنین این راهکار پایهای برای روش کدگذاری پیشگویانهٔ خطی (ال.پی. سی) در فشردهسازی صحبت فراهم میآورد. صحبت ضبط شدهٔ دیجیتالی انسان به تکههای کوچک تقسیم میشود و هر کدام با توجه به سه پارامتر مدل توصیف میشود. این عمل بهطور معمول نیاز به یک دوجین بایت برای هر تکه دارد که نرخ دادهای برابر با ۲ تا ۶ کیلوبایت بر ثانیه را طلب میکند. این تکهٔ اطلاعاتی ارسال میشود و در صورت لزوم ذخیره میگردد و سپس توسط ترکیب کنند هی صحبت بازسازی میشود.
الگوریتمهای تشخیص صحبت با تلاش برای شناسایی الگوهای پارامترهای استخراج شده از این روش نیز پیش تر میروند. این روشها معمولاً شامل مقایسهٔ تکههای اطلاعاتی با قالبهای صدای از پیش ذخیره شده در تلاش برای تشخیص کلمات گفته شده میباشند. مشکلی که در اینجا وجود دارد این است که این روش همیشه به درستی کار نم یکند. این روش برای بعضی کاربردها قابل استفادهاست اما با تواناییهای شنوندگان انسانی خیلی فاصله دارد.
آیندهٔ فناوریهای پردازش صحبت
[ویرایش]ارزش ایجاد فناوریهای ترکیب و تشخیص صحبت بسیار زیاد است. صحبت سریعترین و کاراترین روش ارتباط انسانهاست. تشخیص صحبت پتانسیل جایگزینی نوشتن، تایپ، ورود صفحهکلید و کنترل الکترونیکی را که توسط کلیدها و دکمهها اعمال میشود را داراست و فقط نیاز به آن دارد که کمی برای پذیرش توسط بازار تجاری بهتر کار کند. ترکیب صحبت علاوه بر آن که همانند تشخیص صحبت میتواند استفاده از کامپیوتر را برای کلیهٔ افراد ناتوان بدنی که دارای تواناییهای شنوایی و گفتاری مناسب هستند آسا نتر سازد به عنوان یک وسیلهٔ خروجی کاربرپسند در محیطهای مختلف میتواند با جایگزین کردن بسیاری از علائم دیداری (انواع چراغها و…) و شنوایی (انواع زنگهای اخطار و …) با گفتارهای بیانکنندهٔ کامل پیامها استفاده از و رسیدگی به سیستمهای نیازمند این گونه پیامها را بهینه کند. در اینجا لازم است به این نکته اشاره شود که پیشرفت در فناوری تشخیص صحبت (و همچنین تشخیص گوینده) همان قدر که محدودهٔ دی.اس. پی را در بر میگیرد نیازمند دانش به دست آمده از محدودههای هوش مصنوعی و شبکههای عصبی است. شاید این تنوع دانشهای مورد نیاز به عنوان عامل دشواری مطالعهٔ مبحث پردازش صحبت در نظر گرفته شود حال آن که این گونه نیست و این تنوع راهکارها بخت رسیدن به سیستم با کارایی مطلوب را افزایش میدهد. تواناییهای ابزارهایی که در بخش اول این فصل به آنها اشاره شد امیدواریهای فراوانی را در زمینهٔ موفقیت ابزارهای موجود فراهم میآورد و دامنهٔ وسیع شرکتها و مراکز دانشگاهی که در این زمینه فعالیت میکنند بر تنوع در قابلیتها و کاربردهای پیادهسازی شدهٔ این ابزارها میافزاید.
نتیجه
در این مقاله یک سیستم تشخیص گفتار وابسته به گوینده مورد بررسی قرار گرفتهاست. که این سیستم در کنار معایب خود که از آن جمله میتوان به شامل نشدن کلمات و جملات محاورهای اشاره کرد و این که این نرمافزار برای زبان فارسی طراحی نشدهاست و اخیراً در داخل کشور ایران تلاشهایی توسط متخصصین دانشگاه صنعتی شریف جهت دستیابی به نسخه فارسی آن صورت گرفته، مزایای هم در پی دارد که از آن جمله میتوان به عدم حساسیت آن به زبان و گویش خاص اشاره کرد و اینکه این نرمافزار نسبت به سروصدای محیط و همچنین مکانهای پرنویز حساس نیست و در مقابل چنین مکانهایی مقاوم است اشاره کرد. هدفی که این نرمافزار دنبال میکند آن است که به جای برقراری ارتباط با کامپیوتر توسط ماوس و صفحه کلید و… خود بتوان پیام موردنظر را بیان کرده و کامپیوتر آن فرمان مربوطه را انجام دهد یا به جای تایپ کردن متن موردنظر فقط کافی است که متن موردنظر را از طریق میکروفون به رایانه منتقل کرده و متن را تایپ شده و آماده ببنیم. هدفی که این نرمافزار همانند بسیاری از نرمافزارهای دیگر دنبال میکند ارتقای سطح کیفیت زندگی و تسهیل امور روزمرهاست در صورت استفاده از این نرمافزار در ادارات و سازمانهای دولتی است.
منابع
[ویرایش]جستارهای وابسته
[ویرایش]منابع بیشتر برای مطالعه
[ویرایش]- کتاب مبانی پردازش سیگنال گفتار بایگانیشده در ۸ فوریه ۲۰۰۹ توسط Wayback Machine، دکتر سعید آیت، انتشارات دانشگاه پیام نور، ۱۳۸۷.
- نرمافزارهای موجود برای بازشناسی گفتار فارسی یا تبدیل گفتار فارسی به متن.
- نرمافزارهای موجود برای تولید گفتار فارسی یا تبدیل متن فارسی به گفتار.