ویونت

WaveNet یک شبکه عصبی عمیق برای تولید صدای خام است. WaveNet توسط محققان شرکت هوش مصنوعی مستقر در لندن DeepMind ایجاد شده‌است. این تکنیک که در مقاله‌ای در سپتامبر ۲۰۱۶ بیان شد،^[۱] می‌تواند با مدل‌سازی مستقیم شکل موج‌ها با استفاده از روش شبکه عصبی آموزش‌دیده با ضبط گفتار واقعی، صداهایی شبیه به انسان با صدای نسبتاً واقعی ایجاد کند. طبق گزارش‌ها، آزمایش‌ها با انگلیسی US و مَندرین نشان داد که این سیستم از بهترین سیستم‌های تبدیل متن به گفتار (TTS) گوگل بهتر عمل می‌کند، اگرچه تا سال ۲۰۱۶ ترکیب متن به گفتار آن هنوز کمتر از گفتار واقعی انسان قانع‌کننده بود.^[۲] توانایی WaveNet برای تولید شکل‌های موج خام به این معنی است که می‌تواند هر نوع صوتی از جمله موسیقی را مدل‌سازی کند.^[۳]

تاریخچه

به لطف محبوبیت نرم‌افزارهایی مانند سیری اپل، کورتانای مایکروسافت، آمازون الکسا و دستیار گوگل، تولید گفتار از متن به‌طور فزاینده ای در حال گسترش است.^[۴]

اکثر این سیستم‌ها از تکنیکی استفاده می‌کنند که شامل قطعات صوتی به هم پیوسته برای ایجاد صداها و کلمات قابل تشخیص است.^[۵] رایج‌ترین آنها TTS پیوسته نامیده می‌شود. این شامل کتابخانه بزرگی از قطعات گفتاری است که از یک بلندگو ضبط شده و سپس برای تولید کلمات و صداهای کامل به هم متصل می‌شوند. نتیجه غیرطبیعی به نظر می‌رسد، با آهنگ و آهنگ عجیب و غریب.^[۶] اتکا به کتابخانه ضبط شده نیز تغییر یا تغییر صدا را دشوار می‌کند.^[۷]

تکنیک دیگری که به عنوان TTS پارامتریک^[۸] می‌شود، از مدل‌های ریاضی برای بازآفرینی صداها استفاده می‌کند که سپس در کلمات و جملات جمع می‌شوند. اطلاعات مورد نیاز برای تولید صداها در پارامترهای مدل ذخیره می‌شود. ویژگی‌های گفتار خروجی از طریق ورودی‌های مدل کنترل می‌شود، در حالی که گفتار معمولاً با استفاده از یک ترکیب‌کننده صدا به نام Vocoder ایجاد می‌شود. این همچنین می‌تواند منجر به صدای غیرطبیعی شود.

طراحی و تحقیقات در حال انجام

زمینه

پرونده:WaveNet animation.gif

پشته ای از لایه‌های کانولوشن معمولی گشاد شده^[۹]

WaveNet نوعی شبکه عصبی پیشخور است که به عنوان یک شبکه عصبی پیچشی عمیق (CNN) شناخته می‌شود. در WaveNet, CNN یک سیگنال خام را به عنوان ورودی می‌گیرد و یک نمونه خروجی را در یک زمان ترکیب می‌کند. این کار را با نمونه‌برداری از یک توزیع softmax (یعنی طبقه‌ای) از یک مقدار سیگنال انجام می‌دهد که با استفاده از تبدیل ترکیبی μ-قانون کدگذاری شده و به ۲۵۶ مقدار ممکن کوانتیزه می‌شود.^[۱۰]

مفهوم اولیه و نتایج

طبق مقاله اولیه سپتامبر 2016 DeepMind WaveNet: A Generative Model for Raw Audio،^[۱۱] شبکه با شکل موج‌های واقعی گفتار به زبان انگلیسی و مندرین تغذیه شد. همان‌طور که اینها از طریق شبکه عبور می‌کنند، مجموعه ای از قوانین را می‌آموزد که چگونه شکل موج صوتی در طول زمان تکامل می‌یابد. سپس می‌توان از شبکه آموزش دیده برای ایجاد شکل موج‌های گفتاری جدید با سرعت ۱۶۰۰۰ نمونه در ثانیه استفاده کرد. این شکل موج‌ها شامل نفس‌های واقع گرایانه و لب‌ها می‌شود - اما با هیچ زبانی مطابقت ندارد.^[۱۲]

WaveNet قادر به مدل‌سازی دقیق صداهای مختلف است، با لهجه و لحن ورودی که با خروجی ارتباط دارد؛ مثلاً اگر با زبان آلمانی آموزش داده شود، گفتار آلمانی تولید می‌کند.^[۱۳] این قابلیت همچنین به این معنی است که اگر WaveNet از ورودی‌های دیگر تغذیه شود - مانند موسیقی – خروجی آن موزیکال خواهد بود. در زمان انتشار، DeepMind نشان داد که WaveNet می‌تواند شکل موج‌هایی تولید کند که شبیه موسیقی کلاسیک باشد.^[۱۴]

مبادله محتوا (صدا).

بر اساس مقاله ژوئن 2018 Disentangled Sequential Autoencoder ,^[۱۵] DeepMind با موفقیت از WaveNet برای "تبادل محتواً صدا و صدا استفاده کرده‌است: شبکه می‌تواند صدا را در یک ضبط صوتی با صدای دیگری که از قبل موجود است تعویض کند در حالی که متن و سایر موارد را حفظ می‌کند. ویژگی‌های ضبط اصلی ما همچنین روی داده‌های توالی صوتی آزمایش می‌کنیم. بازنمایی از هم گسیخته ما به ما این امکان را می‌دهد که هویت‌های گوینده را به یکدیگر تبدیل کنیم، در حالی که به محتوای گفتار مشروط می‌شویم." (ص. ۵) "برای صدا، این به ما امکان می‌دهد یک بلندگوی مرد را به یک بلندگوی زن تبدیل کنیم و بالعکس [...] ." (پ. ۱) طبق این مقاله، حداقل دو رقمی ساعت (حدود ۵۰ ساعت) از ضبط‌های گفتاری از قبل موجود هم از صدای منبع و هم صدای هدف باید به WaveNet وارد شود تا برنامه ویژگی‌های فردی خود را قبل از آن یاد بگیرد. می‌تواند تبدیل از یک صدا به صدای دیگر را با کیفیت رضایت بخشی انجام دهد. نویسندگان تأکید می‌کنند که «[a] n مزیت مدل این است که ویژگی‌های دینامیکی را از استاتیک جدا می‌کند [...]». (پ. ۸) یعنی WaveNet قادر است بین متن گفتاری و حالت‌های ارسال (مدولاسیون، سرعت، زیر و بم، حالت و غیره) برای حفظ در حین تبدیل از یک صدا به صدای دیگر از یک طرف، و ویژگی‌های اساسی صداهای منبع و هدف تمایز قائل شود. که لازم است با دیگری مبادله شود.

مقاله بعدی ژانویه ۲۰۱۹، یادگیری بازنمایی گفتار بدون نظارت با استفاده از رمزگذارهای خودکار WaveNet^[۱۶] روشی را برای افزایش موفقیت‌آمیز تشخیص خودکار مناسب و تمایز بین ویژگی‌های پویا و ایستا برای «تبادل محتوا»، به ویژه از جمله تعویض صداها در ضبط‌های صوتی موجود، شرح می‌دهد. به منظور قابل اعتمادتر کردن آن مقاله بعدی دیگر، Sample Efficient Adaptive Text-to-Speech^[۱۷] مورخ سپتامبر ۲۰۱۸ (آخرین ویرایش ژانویه ۲۰۱۹)، بیان می‌کند که DeepMind با موفقیت حداقل میزان ضبط واقعی مورد نیاز برای نمونه صدای موجود را از طریق WaveNet کاهش داده‌است. به «فقط چند دقیقه داده صوتی» در حالی که نتایج با کیفیت بالا حفظ می‌شود.

توانایی آن در شبیه‌سازی صداها نگرانی‌های اخلاقی را در مورد توانایی WaveNet در تقلید صدای افراد زنده و مرده ایجاد کرده‌است. طبق مقاله‌ای در سال ۲۰۱۶ بی‌بی‌سی، شرکت‌هایی که روی فناوری‌های شبیه‌سازی صدای مشابه (مانند Adobe Voco) کار می‌کنند، قصد دارند برای جلوگیری از جعل، واترمارکی غیرقابل شنیدن برای انسان درج کنند، در حالی که شبیه‌سازی صدا، برای مثال، نیازهای صنعت سرگرمی را برآورده می‌کند. پیچیدگی بسیار کمتری داشته باشد و از روش‌های متفاوتی نسبت به روش‌های مورد نیاز برای فریب دادن روش‌های شواهد پزشکی قانونی و دستگاه‌های شناسایی الکترونیکی استفاده کند، به طوری که صداها و صداهای طبیعی شبیه‌سازی شده برای اهداف سرگرمی-صنعتی هنوز هم می‌توانند به راحتی با تجزیه و تحلیل فن‌آوری از هم جدا شوند.

برنامه‌های کاربردی

در زمان انتشار، DeepMind گفت که WaveNet به قدرت پردازش محاسباتی زیادی برای استفاده در برنامه‌های کاربردی دنیای واقعی نیاز دارد.^[۱۸] از اکتبر ۲۰۱۷، گوگل بهبود عملکرد ۱۰۰۰ برابری همراه با کیفیت صدای بهتر را اعلام کرد. سپس WaveNet برای تولید صداهای دستیار Google برای انگلیسی و ژاپنی ایالات متحده در تمام پلتفرم‌های Google استفاده شد.^[۱۹] در نوامبر ۲۰۱۷، محققان DeepMind یک مقاله تحقیقاتی منتشر کردند که در آن روش پیشنهادی «تولید نمونه‌های گفتاری با وفاداری بالا با بیش از ۲۰ برابر سریع‌تر از زمان واقعی» به نام «تقطیر چگالی احتمال» را شرح می‌داد.^[۲۰] در کنفرانس سالانه توسعه‌دهندگان I/O در ماه می ۲۰۱۸، اعلام شد که صداهای جدید دستیار Google در دسترس بوده و توسط WaveNet امکان‌پذیر شده‌است. WaveNet تعداد ضبط‌های صوتی مورد نیاز برای ایجاد یک مدل صوتی را با مدل‌سازی صدای خام نمونه‌های صداپیشه، بسیار کاهش داد.^[۲۱]

جستارهای وابسته

15.ai
Deep learning speech synthesis

منابع

↑ van den Oord, Aaron; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew; Kavukcuoglu, Koray (2016-09-12). "WaveNet: A Generative Model for Raw Audio". 1609. arXiv:1609.03499. Bibcode:2016arXiv160903499V. {{cite journal}}: Cite journal requires |journal= (help)
↑ Kahn, Jeremy (2016-09-09). "Google's DeepMind Achieves Speech-Generation Breakthrough". Bloomberg.com. Retrieved 2017-07-06.
↑ Meyer, David (2016-09-09). "Google's DeepMind Claims Massive Progress in Synthesized Speech". Fortune. Retrieved 2017-07-06.
↑ Kahn, Jeremy (2016-09-09). "Google's DeepMind Achieves Speech-Generation Breakthrough". Bloomberg.com. Retrieved 2017-07-06.
↑ Condliffe, Jamie (2016-09-09). "When this computer talks, you may actually want to listen". MIT Technology Review (به انگلیسی). Retrieved 2017-07-06.
↑ Coldewey, Devin (2016-09-09). "Google's WaveNet uses neural nets to generate eerily convincing speech and music". TechCrunch. Retrieved 2017-07-06.
↑ van den Oord, Aäron; Dieleman, Sander; Zen, Heiga (2016-09-08). "WaveNet: A Generative Model for Raw Audio". DeepMind. Archived from the original on 27 May 2017. Retrieved 2017-07-06.
↑ Zen, Heiga; Tokuda, Keiichi; Black, Alan W. (2009). "Statistical parametric speech synthesis". Speech Communication. 51 (11): 1039–1064. CiteSeerX 10.1.1.154.9874. doi:10.1016/j.specom.2009.04.004.
↑ van den Oord, Aäron (2017-11-12). "High-fidelity speech synthesis with WaveNet". DeepMind. Retrieved 2022-06-05.
↑ Oord, Aaron van den; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew; Kavukcuoglu, Koray (2016-09-12). "WaveNet: A Generative Model for Raw Audio". 1609. arXiv:1609.03499. Bibcode:2016arXiv160903499V. {{cite journal}}: Cite journal requires |journal= (help)
↑ Oord et al. (2016). WaveNet: A Generative Model for Raw Audio, Cornell University, 19 September 2016
↑ Gershgorn, Dave (2016-09-09). "Are you sure you're talking to a human? Robots are starting to sounding eerily lifelike". Quartz (به انگلیسی). Retrieved 2017-07-06.
↑ Coldewey, Devin (2016-09-09). "Google's WaveNet uses neural nets to generate eerily convincing speech and music". TechCrunch. Retrieved 2017-07-06.
↑ van den Oord, Aäron; Dieleman, Sander; Zen, Heiga (2016-09-08). "WaveNet: A Generative Model for Raw Audio". DeepMind. Archived from the original on 27 May 2017. Retrieved 2017-07-06.
↑ Li & Mand (2016). Disentangled Sequential Autoencoder, 12 June 2018, Cornell University
↑ Chorowsky et al. (2019). Unsupervised speech representation learning using WaveNet autoencoders, 25 January 2019, Cornell University
↑ Chen et al. (2018). Sample Efficient Adaptive Text-to-Speech, 27 September 2018, Cornell University. Also see this paper's latest January 2019 revision.
↑ "Adobe Voco 'Photoshop-for-voice' causes concern". BBC News (به انگلیسی). 2016-11-07. Retrieved 2017-07-06.
↑ «WaveNet launches in the Google Assistant». بایگانی‌شده از اصلی در ۲ اوت ۲۰۱۹. دریافت‌شده در ۳۱ اكتبر ۲۰۲۲. تاریخ وارد شده در |بازبینی= را بررسی کنید (کمک)
↑ Oord et al. (2017): Parallel WaveNet: Fast High-Fidelity Speech Synthesis, Cornell University, 28 November 2017
↑ Martin, Taylor (May 9, 2018). "Try the all-new Google Assistant voices right now". CNET (به انگلیسی). Retrieved May 10, 2018.

پیوند به بیرون

WaveNet: A Generative Model for Raw Audio

[1] van den Oord, Aaron; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew; Kavukcuoglu, Koray (2016-09-12). "WaveNet: A Generative Model for Raw Audio". 1609. arXiv:1609.03499. Bibcode:2016arXiv160903499V. {{cite journal}}: Cite journal requires |journal= (help)

[2] Kahn, Jeremy (2016-09-09). "Google's DeepMind Achieves Speech-Generation Breakthrough". Bloomberg.com. Retrieved 2017-07-06.

[3] Meyer, David (2016-09-09). "Google's DeepMind Claims Massive Progress in Synthesized Speech". Fortune. Retrieved 2017-07-06.

[4] Kahn, Jeremy (2016-09-09). "Google's DeepMind Achieves Speech-Generation Breakthrough". Bloomberg.com. Retrieved 2017-07-06.

[5] Condliffe, Jamie (2016-09-09). "When this computer talks, you may actually want to listen". MIT Technology Review (به انگلیسی). Retrieved 2017-07-06.

[6] Coldewey, Devin (2016-09-09). "Google's WaveNet uses neural nets to generate eerily convincing speech and music". TechCrunch. Retrieved 2017-07-06.

[7] van den Oord, Aäron; Dieleman, Sander; Zen, Heiga (2016-09-08). "WaveNet: A Generative Model for Raw Audio". DeepMind. Archived from the original on 27 May 2017. Retrieved 2017-07-06.

[8] Zen, Heiga; Tokuda, Keiichi; Black, Alan W. (2009). "Statistical parametric speech synthesis". Speech Communication. 51 (11): 1039–1064. CiteSeerX 10.1.1.154.9874. doi:10.1016/j.specom.2009.04.004.

[9] van den Oord, Aäron (2017-11-12). "High-fidelity speech synthesis with WaveNet". DeepMind. Retrieved 2022-06-05.

[10] Oord, Aaron van den; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew; Kavukcuoglu, Koray (2016-09-12). "WaveNet: A Generative Model for Raw Audio". 1609. arXiv:1609.03499. Bibcode:2016arXiv160903499V. {{cite journal}}: Cite journal requires |journal= (help)

[11] Oord et al. (2016). WaveNet: A Generative Model for Raw Audio, Cornell University, 19 September 2016

[12] Gershgorn, Dave (2016-09-09). "Are you sure you're talking to a human? Robots are starting to sounding eerily lifelike". Quartz (به انگلیسی). Retrieved 2017-07-06.

[13] Coldewey, Devin (2016-09-09). "Google's WaveNet uses neural nets to generate eerily convincing speech and music". TechCrunch. Retrieved 2017-07-06.

[14] van den Oord, Aäron; Dieleman, Sander; Zen, Heiga (2016-09-08). "WaveNet: A Generative Model for Raw Audio". DeepMind. Archived from the original on 27 May 2017. Retrieved 2017-07-06.

[15] Li & Mand (2016). Disentangled Sequential Autoencoder, 12 June 2018, Cornell University

[16] Chorowsky et al. (2019). Unsupervised speech representation learning using WaveNet autoencoders, 25 January 2019, Cornell University

[17] Chen et al. (2018). Sample Efficient Adaptive Text-to-Speech, 27 September 2018, Cornell University. Also see this paper's latest January 2019 revision.

[18] "Adobe Voco 'Photoshop-for-voice' causes concern". BBC News (به انگلیسی). 2016-11-07. Retrieved 2017-07-06.

[19] «WaveNet launches in the Google Assistant». بایگانی‌شده از اصلی در ۲ اوت ۲۰۱۹. دریافت‌شده در ۳۱ اكتبر ۲۰۲۲. تاریخ وارد شده در |بازبینی= را بررسی کنید (کمک)

[20] Oord et al. (2017): Parallel WaveNet: Fast High-Fidelity Speech Synthesis, Cornell University, 28 November 2017

[21] Martin, Taylor (May 9, 2018). "Try the all-new Google Assistant voices right now". CNET (به انگلیسی). Retrieved May 10, 2018.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]

[۱۴]

[۱۵]

[۱۶]

[۱۷]

[۱۸]

[۱۹]

[۲۰]

[۲۱]