ویونت
یادگیری ماشین و دادهکاوی |
---|
WaveNet یک شبکه عصبی عمیق برای تولید صدای خام است. WaveNet توسط محققان شرکت هوش مصنوعی مستقر در لندن DeepMind ایجاد شدهاست. این تکنیک که در مقالهای در سپتامبر ۲۰۱۶ بیان شد،[۱] میتواند با مدلسازی مستقیم شکل موجها با استفاده از روش شبکه عصبی آموزشدیده با ضبط گفتار واقعی، صداهایی شبیه به انسان با صدای نسبتاً واقعی ایجاد کند. طبق گزارشها، آزمایشها با انگلیسی US و مَندرین نشان داد که این سیستم از بهترین سیستمهای تبدیل متن به گفتار (TTS) گوگل بهتر عمل میکند، اگرچه تا سال ۲۰۱۶ ترکیب متن به گفتار آن هنوز کمتر از گفتار واقعی انسان قانعکننده بود.[۲] توانایی WaveNet برای تولید شکلهای موج خام به این معنی است که میتواند هر نوع صوتی از جمله موسیقی را مدلسازی کند.[۳]
تاریخچه
[ویرایش]به لطف محبوبیت نرمافزارهایی مانند سیری اپل، کورتانای مایکروسافت، آمازون الکسا و دستیار گوگل، تولید گفتار از متن بهطور فزاینده ای در حال گسترش است.[۴]
اکثر این سیستمها از تکنیکی استفاده میکنند که شامل قطعات صوتی به هم پیوسته برای ایجاد صداها و کلمات قابل تشخیص است.[۵] رایجترین آنها TTS پیوسته نامیده میشود. این شامل کتابخانه بزرگی از قطعات گفتاری است که از یک بلندگو ضبط شده و سپس برای تولید کلمات و صداهای کامل به هم متصل میشوند. نتیجه غیرطبیعی به نظر میرسد، با آهنگ و آهنگ عجیب و غریب.[۶] اتکا به کتابخانه ضبط شده نیز تغییر یا تغییر صدا را دشوار میکند.[۷]
تکنیک دیگری که به عنوان TTS پارامتریک[۸] میشود، از مدلهای ریاضی برای بازآفرینی صداها استفاده میکند که سپس در کلمات و جملات جمع میشوند. اطلاعات مورد نیاز برای تولید صداها در پارامترهای مدل ذخیره میشود. ویژگیهای گفتار خروجی از طریق ورودیهای مدل کنترل میشود، در حالی که گفتار معمولاً با استفاده از یک ترکیبکننده صدا به نام Vocoder ایجاد میشود. این همچنین میتواند منجر به صدای غیرطبیعی شود.
طراحی و تحقیقات در حال انجام
[ویرایش]زمینه
[ویرایش]WaveNet نوعی شبکه عصبی پیشخور است که به عنوان یک شبکه عصبی پیچشی عمیق (CNN) شناخته میشود. در WaveNet, CNN یک سیگنال خام را به عنوان ورودی میگیرد و یک نمونه خروجی را در یک زمان ترکیب میکند. این کار را با نمونهبرداری از یک توزیع softmax (یعنی طبقهای) از یک مقدار سیگنال انجام میدهد که با استفاده از تبدیل ترکیبی μ-قانون کدگذاری شده و به ۲۵۶ مقدار ممکن کوانتیزه میشود.[۱۰]
مفهوم اولیه و نتایج
[ویرایش]طبق مقاله اولیه سپتامبر 2016 DeepMind WaveNet: A Generative Model for Raw Audio،[۱۱] شبکه با شکل موجهای واقعی گفتار به زبان انگلیسی و مندرین تغذیه شد. همانطور که اینها از طریق شبکه عبور میکنند، مجموعه ای از قوانین را میآموزد که چگونه شکل موج صوتی در طول زمان تکامل مییابد. سپس میتوان از شبکه آموزش دیده برای ایجاد شکل موجهای گفتاری جدید با سرعت ۱۶۰۰۰ نمونه در ثانیه استفاده کرد. این شکل موجها شامل نفسهای واقع گرایانه و لبها میشود - اما با هیچ زبانی مطابقت ندارد.[۱۲]
WaveNet قادر به مدلسازی دقیق صداهای مختلف است، با لهجه و لحن ورودی که با خروجی ارتباط دارد؛ مثلاً اگر با زبان آلمانی آموزش داده شود، گفتار آلمانی تولید میکند.[۱۳] این قابلیت همچنین به این معنی است که اگر WaveNet از ورودیهای دیگر تغذیه شود - مانند موسیقی – خروجی آن موزیکال خواهد بود. در زمان انتشار، DeepMind نشان داد که WaveNet میتواند شکل موجهایی تولید کند که شبیه موسیقی کلاسیک باشد.[۱۴]
مبادله محتوا (صدا).
[ویرایش]بر اساس مقاله ژوئن 2018 Disentangled Sequential Autoencoder ,[۱۵] DeepMind با موفقیت از WaveNet برای "تبادل محتواً صدا و صدا استفاده کردهاست: شبکه میتواند صدا را در یک ضبط صوتی با صدای دیگری که از قبل موجود است تعویض کند در حالی که متن و سایر موارد را حفظ میکند. ویژگیهای ضبط اصلی ما همچنین روی دادههای توالی صوتی آزمایش میکنیم. بازنمایی از هم گسیخته ما به ما این امکان را میدهد که هویتهای گوینده را به یکدیگر تبدیل کنیم، در حالی که به محتوای گفتار مشروط میشویم." (ص. ۵) "برای صدا، این به ما امکان میدهد یک بلندگوی مرد را به یک بلندگوی زن تبدیل کنیم و بالعکس [...] ." (پ. ۱) طبق این مقاله، حداقل دو رقمی ساعت (حدود ۵۰ ساعت) از ضبطهای گفتاری از قبل موجود هم از صدای منبع و هم صدای هدف باید به WaveNet وارد شود تا برنامه ویژگیهای فردی خود را قبل از آن یاد بگیرد. میتواند تبدیل از یک صدا به صدای دیگر را با کیفیت رضایت بخشی انجام دهد. نویسندگان تأکید میکنند که «[a] n مزیت مدل این است که ویژگیهای دینامیکی را از استاتیک جدا میکند [...]». (پ. ۸) یعنی WaveNet قادر است بین متن گفتاری و حالتهای ارسال (مدولاسیون، سرعت، زیر و بم، حالت و غیره) برای حفظ در حین تبدیل از یک صدا به صدای دیگر از یک طرف، و ویژگیهای اساسی صداهای منبع و هدف تمایز قائل شود. که لازم است با دیگری مبادله شود.
مقاله بعدی ژانویه ۲۰۱۹، یادگیری بازنمایی گفتار بدون نظارت با استفاده از رمزگذارهای خودکار WaveNet[۱۶] روشی را برای افزایش موفقیتآمیز تشخیص خودکار مناسب و تمایز بین ویژگیهای پویا و ایستا برای «تبادل محتوا»، به ویژه از جمله تعویض صداها در ضبطهای صوتی موجود، شرح میدهد. به منظور قابل اعتمادتر کردن آن مقاله بعدی دیگر، Sample Efficient Adaptive Text-to-Speech[۱۷] مورخ سپتامبر ۲۰۱۸ (آخرین ویرایش ژانویه ۲۰۱۹)، بیان میکند که DeepMind با موفقیت حداقل میزان ضبط واقعی مورد نیاز برای نمونه صدای موجود را از طریق WaveNet کاهش دادهاست. به «فقط چند دقیقه داده صوتی» در حالی که نتایج با کیفیت بالا حفظ میشود.
توانایی آن در شبیهسازی صداها نگرانیهای اخلاقی را در مورد توانایی WaveNet در تقلید صدای افراد زنده و مرده ایجاد کردهاست. طبق مقالهای در سال ۲۰۱۶ بیبیسی، شرکتهایی که روی فناوریهای شبیهسازی صدای مشابه (مانند Adobe Voco) کار میکنند، قصد دارند برای جلوگیری از جعل، واترمارکی غیرقابل شنیدن برای انسان درج کنند، در حالی که شبیهسازی صدا، برای مثال، نیازهای صنعت سرگرمی را برآورده میکند. پیچیدگی بسیار کمتری داشته باشد و از روشهای متفاوتی نسبت به روشهای مورد نیاز برای فریب دادن روشهای شواهد پزشکی قانونی و دستگاههای شناسایی الکترونیکی استفاده کند، به طوری که صداها و صداهای طبیعی شبیهسازی شده برای اهداف سرگرمی-صنعتی هنوز هم میتوانند به راحتی با تجزیه و تحلیل فنآوری از هم جدا شوند.
برنامههای کاربردی
[ویرایش]در زمان انتشار، DeepMind گفت که WaveNet به قدرت پردازش محاسباتی زیادی برای استفاده در برنامههای کاربردی دنیای واقعی نیاز دارد.[۱۸] از اکتبر ۲۰۱۷، گوگل بهبود عملکرد ۱۰۰۰ برابری همراه با کیفیت صدای بهتر را اعلام کرد. سپس WaveNet برای تولید صداهای دستیار Google برای انگلیسی و ژاپنی ایالات متحده در تمام پلتفرمهای Google استفاده شد.[۱۹] در نوامبر ۲۰۱۷، محققان DeepMind یک مقاله تحقیقاتی منتشر کردند که در آن روش پیشنهادی «تولید نمونههای گفتاری با وفاداری بالا با بیش از ۲۰ برابر سریعتر از زمان واقعی» به نام «تقطیر چگالی احتمال» را شرح میداد.[۲۰] در کنفرانس سالانه توسعهدهندگان I/O در ماه می ۲۰۱۸، اعلام شد که صداهای جدید دستیار Google در دسترس بوده و توسط WaveNet امکانپذیر شدهاست. WaveNet تعداد ضبطهای صوتی مورد نیاز برای ایجاد یک مدل صوتی را با مدلسازی صدای خام نمونههای صداپیشه، بسیار کاهش داد.[۲۱]
جستارهای وابسته
[ویرایش]منابع
[ویرایش]- ↑ van den Oord, Aaron; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew; Kavukcuoglu, Koray (2016-09-12). "WaveNet: A Generative Model for Raw Audio". 1609. arXiv:1609.03499. Bibcode:2016arXiv160903499V.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Kahn, Jeremy (2016-09-09). "Google's DeepMind Achieves Speech-Generation Breakthrough". Bloomberg.com. Retrieved 2017-07-06.
- ↑ Meyer, David (2016-09-09). "Google's DeepMind Claims Massive Progress in Synthesized Speech". Fortune. Retrieved 2017-07-06.
- ↑ Kahn, Jeremy (2016-09-09). "Google's DeepMind Achieves Speech-Generation Breakthrough". Bloomberg.com. Retrieved 2017-07-06.
- ↑ Condliffe, Jamie (2016-09-09). "When this computer talks, you may actually want to listen". MIT Technology Review (به انگلیسی). Retrieved 2017-07-06.
- ↑ Coldewey, Devin (2016-09-09). "Google's WaveNet uses neural nets to generate eerily convincing speech and music". TechCrunch. Retrieved 2017-07-06.
- ↑ van den Oord, Aäron; Dieleman, Sander; Zen, Heiga (2016-09-08). "WaveNet: A Generative Model for Raw Audio". DeepMind. Archived from the original on 27 May 2017. Retrieved 2017-07-06.
- ↑ Zen, Heiga; Tokuda, Keiichi; Black, Alan W. (2009). "Statistical parametric speech synthesis". Speech Communication. 51 (11): 1039–1064. CiteSeerX 10.1.1.154.9874. doi:10.1016/j.specom.2009.04.004.
- ↑ van den Oord, Aäron (2017-11-12). "High-fidelity speech synthesis with WaveNet". DeepMind. Retrieved 2022-06-05.
- ↑ Oord, Aaron van den; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew; Kavukcuoglu, Koray (2016-09-12). "WaveNet: A Generative Model for Raw Audio". 1609. arXiv:1609.03499. Bibcode:2016arXiv160903499V.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Oord et al. (2016). WaveNet: A Generative Model for Raw Audio, Cornell University, 19 September 2016
- ↑ Gershgorn, Dave (2016-09-09). "Are you sure you're talking to a human? Robots are starting to sounding eerily lifelike". Quartz (به انگلیسی). Retrieved 2017-07-06.
- ↑ Coldewey, Devin (2016-09-09). "Google's WaveNet uses neural nets to generate eerily convincing speech and music". TechCrunch. Retrieved 2017-07-06.
- ↑ van den Oord, Aäron; Dieleman, Sander; Zen, Heiga (2016-09-08). "WaveNet: A Generative Model for Raw Audio". DeepMind. Archived from the original on 27 May 2017. Retrieved 2017-07-06.
- ↑ Li & Mand (2016). Disentangled Sequential Autoencoder, 12 June 2018, Cornell University
- ↑ Chorowsky et al. (2019). Unsupervised speech representation learning using WaveNet autoencoders, 25 January 2019, Cornell University
- ↑ Chen et al. (2018). Sample Efficient Adaptive Text-to-Speech, 27 September 2018, Cornell University. Also see this paper's latest January 2019 revision.
- ↑ "Adobe Voco 'Photoshop-for-voice' causes concern". BBC News (به انگلیسی). 2016-11-07. Retrieved 2017-07-06.
- ↑ «WaveNet launches in the Google Assistant». بایگانیشده از اصلی در ۲ اوت ۲۰۱۹. دریافتشده در ۳۱ اكتبر ۲۰۲۲. تاریخ وارد شده در
|بازبینی=
را بررسی کنید (کمک) - ↑ Oord et al. (2017): Parallel WaveNet: Fast High-Fidelity Speech Synthesis, Cornell University, 28 November 2017
- ↑ Martin, Taylor (May 9, 2018). "Try the all-new Google Assistant voices right now". CNET (به انگلیسی). Retrieved May 10, 2018.