شبکه عصبی با تاخیر زمانی
شبکه عصبی با تأخیر زمانی (TDNN)[۱] یک معماری شبکه عصبی مصنوعی چندلایه است که هدف آن ۱) ردهبندی الگوها با جابهجایی-ناوردا (به انگلیسی: shift-invariance) و ۲) بافت مدل (به انگلیسی: model context) در هر لایه از شبکه است.
ردهبندی جابهجایی-ناوردا به این معنی است که ردهبند (به انگلیسی: classification) قبل از ردهبندی نیازی به تقسیمبندی صریح ندارد؛ بنابراین، برای ردهبندی الگوی زمانی (به انگلیسی: temporal pattern) (مانند گفتار)، TDNN از تعیین نقاط شروع و پایان صداها قبل از ردهبندی آنها اجتناب میکند.
برای مدلسازی بافتی در یک TDNN، هر واحد عصبی در هر لایه نه تنها از فعالسازی ها/ویژگیها در لایه زیر، بلکه از یک الگوی خروجی واحد و بافت آن ورودی دریافت میکند. برای سیگنالهای زمانی هر واحد به عنوان ورودی الگوهای فعالسازی را در طول زمان از واحدهای زیر دریافت میکند. با استفاده از ردهبندی دو-بُعدی (تصاویر، الگوهای بسامد-زمانی)، TDNN را میتوان با جابهجایی-ناوردا در فضای مختصات آموزش داد و از تقسیمبندی پَرسون (دقیق) (به انگلیسی: precise) در فضای مختصات جلوگیری میکند.
پیشینه
[ویرایش]TDNN در اواخر دهه ۱۹۸۰ معرفی شد و برای ردهبندی واجها برای تشخیص گفتار خودکار در سیگنالهای گفتاری که تعیین خودکار بخشهای پَرسون یا محدوده ویژگیها دشوار یا غیرممکن بود، اعمال شد. از آنجا که TDNN واجها و ویژگیهای آکوستیک/آوایی زیرین آنها را تشخیص میدهد، مستقل از موقعیت در زمان، کارایی را نسبت به ردهبندی ایستایی بهبود میبخشد.[۱][۲] همچنین برای سیگنالهای دو-بُعدی (الگوهای بسامد-زمان در گفتار،[۳] و الگوی فضای مختصات در OCR[۴]) استفاده شد.
حداکثر جمعآوری
[ویرایش]در سال ۱۹۹۰، یاماگوچی و همکاران. مفهوم حداکثر جمعآوری را معرفی کرد. آنها این کار را با ترکیب TDNNها با حداکثر جمعآوری به منظور تحقق بخشیدن به یک سیستم تشخیص کلمه مجزاشده مستقل از گوینده انجام دادند.[۵]
کاربردها
[ویرایش]- تشخیص گفتار
- واژگان بزرگ تشخیص گفتار
- مستقل از گوینده
- بازآوایش
- گفتار دیداری-شنیداری لب-خوانی
- تشخیص دستخط
- تجزیه و تحلیل ویدئو
- تشخیص تصویر
جستارهای وابسته
[ویرایش]- شبکه عصبی پیچشی – یک شبکه عصبی کانولوشن که در آن کانولوشن در امتداد محور زمان از داده انجام میشود بسیار شبیه به یک TDNN است.
- شبکه عصبی بازگشتی – یک شبکه عصبی بازگشتی همچنین دادهٔ زمانی را مدیریت میکند، البته به شیوهای متفاوت. به جای ورودی متغیر با زمان، RNNها لایههای پنهان داخلی را برای ردیابی ورودیهای گذشته (و در مورد RNNهای دو-جهته، آینده) نگهداری میکنند.
منابع
[ویرایش]- ↑ ۱٫۰ ۱٫۱ Alexander Waibel, Tashiyuki Hanazawa, Geoffrey Hinton, Kiyohito Shikano, Kevin J. Lang, Phoneme Recognition Using Time-Delay Neural Networks, IEEE Transactions on Acoustics, Speech, and Signal Processing, Volume 37, No. 3, pp. 328. - 339 March 1989.
- ↑ Alexander Waibel, Phoneme Recognition Using Time-Delay Neural Networks, SP87-100, Meeting of the Institute of Electrical, Information and Communication Engineers (IEICE), December, 1987,Tokyo, Japan.
- ↑ John B. Hampshire and Alexander Waibel, Connectionist Architectures for Multi-Speaker Phoneme Recognition بایگانیشده در ۱۱ آوریل ۲۰۱۶ توسط Wayback Machine, Advances in Neural Information Processing Systems, 1990, Morgan Kaufmann.
- ↑ Stefan Jaeger, Stefan Manke, Juergen Reichert, Alexander Waibel, Online handwriting recognition: the NPen++recognizer, International Journal on Document Analysis and Recognition Vol. 3, Issue 3, March 2001
- ↑ Yamaguchi, Kouichi; Sakamoto, Kenji; Akabane, Toshio; Fujimoto, Yoshiji (November 1990). A Neural Network for Speaker-Independent Isolated Word Recognition. First International Conference on Spoken Language Processing (ICSLP 90). Kobe, Japan. Archived from the original on 7 March 2021. Retrieved 22 August 2021.