شبکه عصبی با تاخیر زمانی

از ویکی‌پدیا، دانشنامهٔ آزاد
نمودار TDNN

شبکه عصبی با تأخیر زمانی (TDNN)[۱] یک معماری شبکه عصبی مصنوعی چندلایه است که هدف آن ۱) رده‌بندی الگوها با جابه‌جایی-ناوردا (به انگلیسی: shift-invariance) و ۲) بافت مدل (به انگلیسی: model context) در هر لایه از شبکه است.

رده‌بندی جابه‌جایی-ناوردا به این معنی است که رده‌بند (به انگلیسی: classification) قبل از رده‌بندی نیازی به تقسیم‌بندی صریح ندارد؛ بنابراین، برای رده‌بندی الگوی زمانی (به انگلیسی: temporal pattern) (مانند گفتار)، TDNN از تعیین نقاط شروع و پایان صداها قبل از رده‌بندی آنها اجتناب می‌کند.

برای مدل‌سازی بافتی در یک TDNN، هر واحد عصبی در هر لایه نه تنها از فعالسازی ها/ویژگی‌ها در لایه زیر، بلکه از یک الگوی خروجی واحد و بافت آن ورودی دریافت می‌کند. برای سیگنال‌های زمانی هر واحد به عنوان ورودی الگوهای فعال‌سازی را در طول زمان از واحدهای زیر دریافت می‌کند. با استفاده از رده‌بندی دو-بُعدی (تصاویر، الگوهای بسامد-زمانی)، TDNN را می‌توان با جابه‌جایی-ناوردا در فضای مختصات آموزش داد و از تقسیم‌بندی پَرسون (دقیق) (به انگلیسی: precise) در فضای مختصات جلوگیری می‌کند.

پیشینه[ویرایش]

TDNN در اواخر دهه ۱۹۸۰ معرفی شد و برای رده‌بندی واج‌ها برای تشخیص گفتار خودکار در سیگنال‌های گفتاری که تعیین خودکار بخش‌های پَرسون یا محدوده ویژگی‌ها دشوار یا غیرممکن بود، اعمال شد. از آنجا که TDNN واج‌ها و ویژگی‌های آکوستیک/آوایی زیرین آنها را تشخیص می‌دهد، مستقل از موقعیت در زمان، کارایی را نسبت به رده‌بندی ایستایی بهبود می‌بخشد.[۱][۲] همچنین برای سیگنال‌های دو-بُعدی (الگوهای بسامد-زمان در گفتار،[۳] و الگوی فضای مختصات در OCR[۴]) استفاده شد.

حداکثر جمع‌آوری[ویرایش]

در سال ۱۹۹۰، یاماگوچی و همکاران. مفهوم حداکثر جمع‌آوری را معرفی کرد. آنها این کار را با ترکیب TDNNها با حداکثر جمع‌آوری به منظور تحقق بخشیدن به یک سیستم تشخیص کلمه مجزاشده مستقل از گوینده انجام دادند.[۵]

کاربردها[ویرایش]

  • تشخیص گفتار
  • واژگان بزرگ تشخیص گفتار
  • مستقل از گوینده
  • بازآوایش
  • گفتار دیداری-شنیداری لب-خوانی
  • تشخیص دست‌خط
  • تجزیه و تحلیل ویدئو
  • تشخیص تصویر

جستارهای وابسته[ویرایش]

  • شبکه عصبی پیچشی – یک شبکه عصبی کانولوشن که در آن کانولوشن در امتداد محور زمان از داده انجام می‌شود بسیار شبیه به یک TDNN است.
  • شبکه عصبی بازگشتی – یک شبکه عصبی بازگشتی همچنین دادهٔ زمانی را مدیریت می‌کند، البته به شیوه‌ای متفاوت. به جای ورودی متغیر با زمان، RNNها لایه‌های پنهان داخلی را برای ردیابی ورودی‌های گذشته (و در مورد RNNهای دو-جهته، آینده) نگهداری می‌کنند.

منابع[ویرایش]

  1. ۱٫۰ ۱٫۱ Alexander Waibel, Tashiyuki Hanazawa, Geoffrey Hinton, Kiyohito Shikano, Kevin J. Lang, Phoneme Recognition Using Time-Delay Neural Networks, IEEE Transactions on Acoustics, Speech, and Signal Processing, Volume 37, No. 3, pp. 328. - 339 March 1989.
  2. Alexander Waibel, Phoneme Recognition Using Time-Delay Neural Networks, SP87-100, Meeting of the Institute of Electrical, Information and Communication Engineers (IEICE), December, 1987,Tokyo, Japan.
  3. John B. Hampshire and Alexander Waibel, Connectionist Architectures for Multi-Speaker Phoneme Recognition بایگانی‌شده در ۱۱ آوریل ۲۰۱۶ توسط Wayback Machine, Advances in Neural Information Processing Systems, 1990, Morgan Kaufmann.
  4. Stefan Jaeger, Stefan Manke, Juergen Reichert, Alexander Waibel, Online handwriting recognition: the NPen++recognizer, International Journal on Document Analysis and Recognition Vol. 3, Issue 3, March 2001
  5. Yamaguchi, Kouichi; Sakamoto, Kenji; Akabane, Toshio; Fujimoto, Yoshiji (November 1990). A Neural Network for Speaker-Independent Isolated Word Recognition. First International Conference on Spoken Language Processing (ICSLP 90). Kobe, Japan. Archived from the original on 7 March 2021. Retrieved 22 August 2021.