تولید زبان طبیعی

تولید زبان طبیعی (انگلیسی: Natural language generation) که به‌طور مخفف NLG خوانده می‌شود، یک فرایند نرم‌افزاری است که خروجی زبان طبیعی را تولید می‌کند. در یکی از پراستنادترین بررسی‌های روش‌های NLG, NLG به‌عنوان «زیرشاخه‌ای از هوش مصنوعی و زبان‌شناسی محاسباتی توصیف می‌شود که با ساختن سیستم‌های رایانه‌ای سروکار دارد که می‌تواند متون قابل فهمی را به زبان انگلیسی یا سایر زبان‌های انسانی از برخی بازنمایی زیربنایی غیرزبانی اطلاعات تولید کند».^[۱]

در حالی که به‌طور گسترده توافق شده‌است که خروجی هر فرایند NLG متن است، در مورد اینکه آیا ورودی‌های یک سیستم NLG باید غیرزبانی باشند یا خیر، اختلاف نظر وجود دارد.^[۲] کاربردهای متداول روش‌های NLG شامل تولید گزارش‌های مختلف، به عنوان مثال آب و هوا^[۳] و گزارش‌های بیمار،^[۴] شرح تصاویر. و بات مکالمه است.

NLG خودکار را می‌توان با فرایندی مقایسه کرد که انسان‌ها هنگام تبدیل ایده‌ها به نوشتار یا گفتار از آن استفاده می‌کنند. روانشناسان زبان اصطلاح تولید زبان را برای این فرایند ترجیح می‌دهند، که می‌تواند در اصطلاحات ریاضی نیز توصیف شود یا در رایانه برای تحقیقات روانشناختی مدل شود. سیستم‌های NLG را همچنین می‌توان با مترجم‌های زبان‌های رایانه‌ای مصنوعی، مانند دیکامپایلرها یا ترانسپایلرها مقایسه کرد، که کدهای قابل خواندن توسط انسان تولید شده از یک نمایش میانی را نیز تولید می‌کنند. زبان‌های انسانی به‌طور قابل توجهی پیچیده‌تر هستند و امکان ابهام و تنوع بیان بسیار بیشتری را نسبت به زبان‌های برنامه‌نویسی می‌دهند، که NLG را چالش برانگیزتر می‌کند.

NLG ممکن است به عنوان مکمل درک زبان طبیعی (NLU) در نظر گرفته شود: در حالی که در درک زبان طبیعی، سیستم باید جمله ورودی را برای تولید زبان نمایش ماشینی ابهام‌زدایی کند، در NLG سیستم نیاز به تصمیم‌گیری در مورد نحوه نمایش یک زبان به کلمات دارد. ملاحظات عملی در ساخت NLU در مقابل سیستم‌های NLG باید با ورودی مبهم یا اشتباه کاربر مقابله کند، در حالی که ایده‌هایی که سیستم می‌خواهد از طریق NLG بیان کند، عموماً دقیقا شناخته شده‌اند. NLG باید یک نمایش متنی خاص و خودسازگار را از میان بسیاری از نمایش‌های بالقوه انتخاب کند، در حالی که NLU معمولاً سعی می‌کند یک نمایش واحد و نرمال شده از ایده بیان شده تولید کند.

NLG از زمان توسعه ELIZA در اواسط دهه ۱۹۶۰ وجود داشته‌است، اما این روش‌ها برای اولین بار در دهه ۱۹۹۰ به صورت تجاری مورد استفاده قرار گرفتند. تکنیک‌های NLG از سیستم‌های مبتنی بر الگوی ساده مانند ادغام ایمیل که نامه قالبی تولید می‌کند تا سیستم‌هایی که درک پیچیده‌ای از دستور زبان انسانی دارند، متغیر است. NLG همچنین می‌تواند با آموزش یک مدل آماری با استفاده از یادگیری ماشین، معمولاً بر روی مجموعه بزرگی از متون نوشته شده توسط انسان انجام شود.^[۵]

مثال[ویرایش]

سیستم پیش‌بینی گرده برای اسکاتلند^[۶] یک مثال ساده از یک سیستم ساده NLG است که اساساً می‌تواند یک الگو باشد. این سیستم به عنوان ورودی شش عدد را می‌گیرد که سطوح گرده پیش‌بینی شده را در مناطق مختلف اسکاتلند نشان می‌دهد. از این اعداد، سیستم یک خلاصه متنی کوتاه از سطوح گرده را به عنوان خروجی تولید می‌کند.

به عنوان مثال، با استفاده از داده‌های تاریخی برای ۱ ژوئیه ۲۰۰۵، نرم‌افزار تولید می‌کند:

در اکثر نقاط کشور، میزان گرده چمن برای روز جمعه از متوسط به بالا در روز گذشته افزایش یافته با مقادیر حدود ۶ تا ۷ افزایش یافته‌است. با این حال، در مناطق شمالی، سطح گرده متوسط با مقادیر ۴ خواهد بود.

در مقابل، پیش‌بینی واقعی (نوشته شده توسط یک هواشناس انسانی) از این داده‌ها به این صورت بود:

انتظار می‌رود که تعداد گرده‌ها در سطح ۶ در بیشتر مناطق اسکاتلند و حتی سطح ۷ در جنوب شرق باقی بماند. تنها آسایش در جزایر شمالی و شمال شرقی سرزمین اصلی اسکاتلند با سطوح متوسط گرده است.

مقایسه این دو، برخی از انتخاب‌هایی را که سیستم‌های NLG باید انجام دهند را نشان می‌دهد. این مقایسه‌ها در زیر بیشتر مورد بحث قرار می‌گیرند.

مراحل[ویرایش]

فریند تولید متن می‌تواند به سادگی نگه‌داشتن فهرستی از متن‌های از پیش ساخته شده آماده کپی و چسبانده شدن باشد، که احتمالاً با مقداری متن چسب پیوند داده شده‌است. نتایج ممکن است در حوزه‌های ساده مانند ماشین‌های فال یا تولیدکننده نامه‌های تجاری شخصی‌سازی شده رضایت‌بخش باشد. با این حال، یک سیستم پیچیده NLG باید شامل مراحل برنامه‌ریزی و ادغام اطلاعات باشد تا امکان تولید متنی را فراهم کند که طبیعی به نظر می‌رسد و تکراری نمی‌شود. مراحل معمول تولید زبان طبیعی، همان‌طور که توسط دیل و رایتر پیشنهاد شده‌است، عبارتند از:

تعیین محتوا: تصمیم‌گیری برای آنکه چه اطلاعاتی در متن ذکر شودبه عنوان مثال، در مثال بالا، تصمیم‌گیری در مورد اینکه آیا سطح گرده در جنوب شرقی ۷ است یا خیر.

ساختار اسناد: سازماندهی کلی اطلاعات برای انتقال. به عنوان مثال، تصمیم به توصیف مناطق با سطح گرده بالا، به جای مناطق با سطح گرده پایین.

تجمیع: ادغام جملات مشابه برای بهبود خوانایی و طبیعی بودن. به عنوان مثال، ادغام دو جمله زیر:

میزان گرده چمن برای روز جمعه در روز گذشته از متوسط به بالا افزایش یافته‌است.
میزان گرده چمن در بیشتر نقاط کشور حدود ۶ تا ۷ خواهد بود.

به جمله واحد زیر:

میزان گرده چمن در روز جمعه و در اکثر نقاط کشور در روز گذشته از متوسط به بالابه حدود ۶ تا ۷ عدد افزایش یافته‌است.

انتخاب لغوی: به‌کار بردن کلمات برای مفاهیم. به عنوان مثال، تصمیم‌گیری در مورد استفاده از متوسط یا معتدل هنگام توصیف سطح گرده ۴.

تولید عبارت ارجاعی: ایجاد عبارات ارجاعی که اشیا و مناطق را شناسایی می‌کند. به عنوان مثال، تصمیم برای استفاده در جزایر شمالی و شمال شرقی سرزمین اصلی اسکاتلند برای اشاره به منطقه خاصی در اسکاتلند. این وظیفه همچنین شامل تصمیم‌گیری در مورد ضمایر و انواع دیگر ارجاع است.

ادراک: ایجاد متن واقعی که باید بر اساس قواعد نحو، صرف شناسی و املای صحیح باشد. به عنوان مثال، استفاده از برای زمان آینده to be خواهد بود.

یک رویکرد جایگزین برای NLG استفاده از یادگیری ماشینی «انتها به انتها» برای ساختن یک سیستم است، بدون اینکه مراحل جداگانه‌ای مانند بالا داشته باشید.^[۷] به عبارت دیگر، ما یک سیستم NLG را با آموزش یک الگوریتم یادگیری ماشین (اغلب یک LSTM) روی یک مجموعه داده بزرگ از داده‌های ورودی و متن‌های خروجی متناظر (نوشته شده توسط انسان) می‌سازیم. رویکرد انتها به انتها شاید در نوشتن شرح تصویر موفق‌ترین بوده‌است،^[۸] که به‌طور خودکار یک عنوان متنی برای یک تصویر ایجاد می‌کند.

کاربردها[ویرایش]

تولید گزارش خودکار[ویرایش]

از دیدگاه تجاری، موفق‌ترین برنامه‌های کاربردی NLG سیستم‌های داده به متن بوده‌اند که خلاصه‌های متنی پایگاه‌های داده و مجموعه داده‌ها را تولید می‌کنند. این سیستم‌ها معمولاً تجزیه و تحلیل‌داده‌ها و همچنین تولید متن را انجام می‌دهند. تحقیقات نشان داده‌است که خلاصه‌های متنی می‌توانند مؤثرتر از نمودارها و دیگر تصاویر بصری برای پشتیبانی تصمیم باشند،^[۹]^[۱۰]^[۱۱] و متون تولید شده توسط رایانه می‌توانند (از دیدگاه خواننده) نسبت به متون نوشته شده توسط انسان برتری داشته باشند.^[۱۲]

اولین سیستم‌های تجاری داده به متن، پیش‌بینی آب و هوا را از داده‌های آب و هوا تولید می‌کردند. اولین چنین سیستمی که به کار گرفته شد FoG بود^[۳] که توسط Environment Canada برای ایجاد پیش‌بینی آب و هوا به زبان‌های فرانسوی و انگلیسی در اوایل دهه ۱۹۹۰ استفاده شد. موفقیت FoG باعث ایجاد کارهای دیگر، هم تحقیقاتی و هم تجاری شد. برنامه‌های کاربردی اخیر شامل پیش‌بینی متن پیشرفته اداره Met Office است.^[۱۳]

سیستم‌های داده به متن از آن زمان در طیف وسیعی از تنظیمات اعمال شده‌اند. پس از زمین لرزه جزئی در نزدیکی بورلی هیلز، کالیفرنیا در ۱۷ مارس ۲۰۱۴، لس آنجلس تایمز جزئیاتی را در مورد زمان، مکان و قدرت زمین لرزه در عرض ۳ دقیقه پس از رویداد گزارش داد. این گزارش به‌طور خودکار توسط یک «روزنامه‌نگار روبو» تولید می‌شود که داده‌های دریافتی را از طریق یک الگوی از پیش تعیین شده به متن تبدیل می‌کند.^[۱۴]^[۱۵] در حال حاضر علاقه تجاری قابل توجهی به استفاده از NLG برای خلاصه کردن داده‌های مالی و تجاری وجود دارد. در واقع، گارتنر گفته‌است که NLG به یک ویژگی استاندارد ۹۰ درصد از پلتفرم‌های مدرن BI و تجزیه و تحلیل تبدیل خواهد شد.^[۱۶] NLG همچنین به صورت تجاری در روزنامه‌نگاری خودکار، بات مکالمه، تولید توضیحات محصول برای سایت‌های تجارت الکترونیک، خلاصه کردن سوابق پزشکی،^[۴] و افزایش دسترسی (به عنوان مثال با توصیف نمودارها و مجموعه داده‌ها برای افراد نابینا^[۱۷]) استفاده می‌شود. .

نمونه ای از استفاده تعاملی NLG چارچوب WYSIWYM، مخفف عبارت What you see is what you meant است و به کاربران اجازه می‌دهد تا نمای پیوسته نمایان شده (خروجی NLG) یک سند زبان رسمی اصلی (ورودی NLG) را ببینند و دستکاری کنند، در نتیجه زبان رسمی را بدون یادگیری آن ویرایش کنند.

با نگاهی به آینده، پیشرفت فعلی در تولید داده به متن، راه را برای تطبیق متون برای مخاطبان خاص هموار می‌کند. برای مثال، بسته به گیرنده متن (پزشک، پرستار، بیمار) داده‌های نوزادان در مراقبت‌های نوزادان را می‌توان در یک محیط بالینی، با سطوح مختلف جزئیات فنی و زبان توضیحی، به متن متفاوتی تبدیل کرد. همین ایده را می‌توان در یک محیط ورزشی با گزارش‌های مختلف برای طرفداران تیم‌های خاص به کار برد.^[۱۸]

شرح تصویر[ویرایش]

در طول چند سال گذشته، به عنوان بخشی از تلاش گسترده‌تر برای بررسی رابط بین بینایی و زبان، علاقه‌ای به تولید خودکار زیرنویس‌ها برای تصاویر افزایش یافته‌است. نمونه‌ای از تولید داده به متن، الگوریتم زیرنویس تصویر (یا توصیف خودکار تصویر) شامل گرفتن یک تصویر، تجزیه و تحلیل محتوای بصری آن، و تولید یک توصیف متنی (معمولا یک جمله) است که برجسته‌ترین جنبه‌های تصویر را به صورت کلامی بیان می‌کند. .

یک سیستم زیرنویس تصویر شامل دو کار فرعی است. در تجزیه و تحلیل تصویر، قبل از نگاشت این خروجی‌ها به ساختارهای زبانی، ویژگی‌ها و خصوصیات یک تصویر شناسایی و برچسب گذاری می‌شوند. تحقیقات اخیر از رویکردهای یادگیری عمیق از طریق ویژگی‌های یک شبکه عصبی کانولوشنال از پیش آموزش‌دیده مانند AlexNet, VGG یا Caffe استفاده می‌کند، جایی که تولیدکنندگان عنوان از یک لایه فعال‌سازی از شبکه از پیش آموزش‌دیده به عنوان ویژگی‌های ورودی خود استفاده می‌کنند. وظیفه دوم، تولید متن، با استفاده از طیف گسترده‌ای از تکنیک‌ها انجام می‌شود. به عنوان مثال، در سیستم Midge، تصاویر ورودی به صورت سه‌گانه نشان داده می‌شوند که شامل تشخیص شی/مواد، تشخیص عمل/پوست و روابط فضایی است. اینها متعاقباً به سه‌گانه «اسم، فعل، حرف اضافه» نگاشت می‌شوند و با استفاده از گرامر جایگزینی درخت درک می‌شوند.

با وجود پیشرفت‌ها، چالش‌ها و فرصت‌ها در تحقیقات ثبت تصویر باقی مانده‌است. علی‌رغم معرفی Flickr30K, MS COCO و سایر مجموعه‌های داده بزرگ که آموزش مدل‌های پیچیده‌تر مانند شبکه‌های عصبی را امکان‌پذیر کرده‌است، استدلال شده‌است که تحقیقات در زیرنویس تصویر می‌تواند از مجموعه داده‌های بزرگتر و متنوع‌تر سود ببرد. طراحی اقدامات خودکار که بتواند قضاوت انسان را در ارزیابی مناسب بودن توصیفات تصویر تقلید کند، یکی دیگر از نیازهای این منطقه است. سایر چالش‌های باز شامل پاسخ‌گویی به پرسش بصری (VQA)، و همچنین ساخت و ارزیابی مخازن چند زبانه برای توصیف تصویر است.^[۱۸]

بات مکالمه[ویرایش]

حوزه دیگری که NLG به‌طور گسترده در آن به کار گرفته شده‌است، سیستم‌های گفتگوی خودکار است که اغلب به شکل بات مکالمه می‌باشد. چت بات یا یک برنامه نرم‌افزاری است که برای انجام یک مکالمه چت آنلاین از طریق متن یا متن به گفتار، به جای برقراری ارتباط مستقیم با یک عامل انسانی زنده استفاده‌می‌شود. در حالی که تکنیک‌های پردازش زبان طبیعی (NLP) در رمزگشایی ورودی انسان استفاده می‌شود، NLG بخش خروجی الگوریتم‌های چت بات را در تسهیل گفتگوهای بی‌درنگ اطلاع می‌دهد.

سیستم‌های چت بات اولیه، از جمله CleverBot که توسط رولو کارپنتر در سال ۱۹۸۸ ایجاد شد و در سال ۱۹۹۷ منتشر شد، با شناسایی نحوه پاسخ یک انسان به همان سؤال در پایگاه داده مکالمه از طریق رویکرد بازیابی اطلاعاتی (IR) به سؤالات پاسخ می‌دهند. سیستم‌های ربات‌های گفتگوی مدرن عمدتاً به مدل‌های یادگیری ماشین(ML) متکی هستند، مانند یادگیری توالی به توالی و یادگیری تقویتی در تولید خروجی زبان انسانی. مدل‌های هیبریدی نیز مورد بررسی قرار گرفته‌اند. به عنوان مثال، دستیار خرید علی بابا از یک رویکرد IR برای بازیابی بهترین نامزدها از پایگاه دانش استفاده می‌کند، قبل از اینکه از مدل seq2seq مبتنی بر ML برای رتبه‌بندی مجدد نامزدها و ایجاد پاسخ استفاده شود.^[۱۹]

نوشتن خلاق و طنز محاسباتی[ویرایش]

تولید زبان خلاق توسط NLG از زمان پیدایش این رشته فرضیه شده‌است. یکی از پیشگامان اخیر در این منطقه فیلیپ پارکر است که مجموعه‌ای از الگوریتم‌ها را توسعه داده‌است که قادر به تولید خودکار کتاب‌های درسی، جدول کلمات متقاطع، شعرها و کتاب‌هایی با موضوعات مختلف از صحافی تا آب مروارید هستند.^[۲۰] ظهور مدل‌های بزرگ زبان مبتنی بر ترانسفورماتور از پیش آموزش دیده مانند GPT-3 نیز پیشرفت‌هایی را ممکن کرده‌است، چنین مدل‌هایی توانایی قابل تشخیصی را برای کارهای ایجاد-نوشتن نشان می‌دهند.^[۲۱]

حوزه مرتبط با کاربرد NLG تولید طنز محاسباتی است. JAPE (موتور تولید و تجزیه و تحلیل جوک) یکی از اولین سیستم‌های تولید طنز بزرگ و خودکار است که از یک رویکرد مبتنی بر الگوی کدگذاری شده دستی برای ایجاد معماهای حماسی برای کودکان استفاده می‌کند. HAHAcronym تفسیرهای طنزآمیزی از هر نام اختصاری داده شده ایجاد می‌کند، و همچنین کلمات اختصاری مناسب جدیدی را با توجه به برخی کلمات کلیدی پیشنهاد می‌کند.^[۲۲]

علیرغم پیشرفت‌ها، چالش‌های زیادی در تولید محتوای خلاقانه و طنز خودکار که با خروجی انسان رقابت می‌کند، باقی مانده‌است. در آزمایشی برای تولید سرفصل‌های طنز، خروجی‌های بهترین مدل مبتنی بر BERT در ۹٫۴٪ مواقع خنده‌دار تلقی می‌شد (در حالی که عنوان‌های واقعی Onion 38.4%) و مدل GPT-2 که بر روی سرفصل‌های طنز تنظیم شده بود به ۶٫۹٪ رسید.^[۲۳] اشاره شده‌است که دو مسئله اصلی در سیستم‌های تولید طنز، فقدان مجموعه داده‌های مشروح و فقدان روش‌های ارزیابی رسمی^[۲۲] که می‌تواند برای تولید محتوای خلاقانه دیگر قابل اجرا باشد. برخی نسبت به کاربردهای دیگر، عدم توجه به جنبه‌های خلاقانه تولید زبان در NLG استدلال کرده‌اند. محققان NLG از بینش‌هایی در مورد آنچه که تولید زبان خلاق را تشکیل می‌دهد، و همچنین ویژگی‌های ساختاری روایت که پتانسیل بهبود خروجی NLG را حتی در سیستم‌های داده به متن دارند، بهره‌مند خواهند شد.^[۱۸]

ارزیابی[ویرایش]

همانند سایر زمینه‌های علمی، محققان NLG باید میزان عملکرد سیستم‌ها، ماژول‌ها و الگوریتم‌هایشان را آزمایش کنند که به آن ارزیابی می‌گویند. سه تکنیک اساسی برای ارزیابی سیستم‌های NLG وجود دارد:

ارزیابی مبتنی بر وظیفه (بیرونی): متن تولید شده را به یک فرد بدهید و ارزیابی کنید که چقدر به او کمک می‌کند تا یک کار را انجام دهد (یا در غیر این صورت به هدف ارتباطی خود دست یابد). به عنوان مثال، سیستمی که خلاصه‌ای از داده‌های پزشکی را تولید می‌کند، می‌تواند با دادن این خلاصه‌ها به پزشکان، و ارزیابی اینکه آیا خلاصه‌ها به پزشکان در تصمیم‌گیری بهتر کمک می‌کنند، ارزیابی شود.^[۴]
رتبه‌بندی انسانی: متن تولید شده را به شخصی بدهید و از آنها بخواهید که کیفیت و مفید بودن متن را ارزیابی کنند.
معیارها: متون تولید شده را با استفاده از یک متریک خودکار مانند BLEU , METEOR , ROUGE و LEPOR با متون نوشته شده توسط افراد از همان داده‌های ورودی مقایسه کنید.

هدف نهایی این است که سیستم‌های NLG چقدر در کمک به افراد مفید هستند، که اولین تکنیک فوق است. با این حال، ارزیابی‌های مبتنی بر کار زمان‌بر و پرهزینه هستند و انجام آن‌ها می‌تواند دشوار باشد (مخصوصا اگر به موضوعاتی با مهارت تخصصی مانند پزشکان نیاز داشته باشد). از این رو (مانند سایر حوزه‌های NLP) ارزیابی‌های مبتنی بر وظیفه استثنا هستند، نه هنجار.

اخیراً محققان در حال ارزیابی میزان همبستگی رتبه‌بندی‌ها و معیارهای انسانی با ارزیابی‌های مبتنی بر وظیفه (پیش‌بینی) هستند. کار در زمینه چالش‌های نسل^[۲۴] رویدادهای وظیفه مشترک انجام می‌شود. نتایج اولیه نشان می‌دهد که رتبه‌بندی‌های انسانی در این زمینه بسیار بهتر از معیارها است. به عبارت دیگر، رتبه‌بندی‌های انسانی معمولاً حداقل تا حدی اثربخشی کار را پیش‌بینی می‌کنند (اگرچه استثنائاتی وجود دارد)، در حالی که رتبه‌بندی‌های تولید شده توسط معیارها اغلب اثربخشی کار را به خوبی پیش‌بینی نمی‌کنند. این نتایج اولیه هستند. در هر صورت، رتبه‌بندی انسانی محبوب‌ترین تکنیک ارزیابی در NLG است. این در تضاد با ترجمه ماشینی است که در آن معیارها به‌طور گسترده استفاده می‌شود.

یک هوش مصنوعی را می‌توان بر اساس وفاداری به داده‌های آموزشی خود یا در عوض، بر اساس واقعیت درجه‌بندی کرد. پاسخی که داده‌های آموزشی را منعکس می‌کند اما واقعیت ندارد، وفادار است اما واقعی نیست. یک پاسخ مطمئن اما غیر وفادار یک توهم است. در پردازش زبان طبیعی، توهم اغلب به عنوان «محتوای تولید شده که به محتوای منبع ارائه شده غیرمعنا یا بی‌وفا است» تعریف می‌شود.^[۲۵]

جستارهای وابسته[ویرایش]

منابع[ویرایش]

↑ Reiter, Ehud; Dale, Robert (March 1997). "Building applied natural language generation systems". Natural Language Engineering (به انگلیسی). 3 (1): 57–87. doi:10.1017/S1351324997001502. ISSN 1469-8110.
↑ Gatt A, Krahmer E (2018). "Survey of the state of the art in natural language generation: Core tasks, applications and evaluation". Journal of Artificial Intelligence Research. 61 (61): 65–170. arXiv:1703.09902. doi:10.1613/jair.5477.
↑ ^۳٫۰ ^۳٫۱ Goldberg E, Driedger N, Kittredge R (1994). "Using Natural-Language Processing to Produce Weather Forecasts". IEEE Expert. 9 (2): 45–53. doi:10.1109/64.294135.
↑ ^۴٫۰ ^۴٫۱ ^۴٫۲ Portet F, Reiter E, Gatt A, Hunter J, Sripada S, Freer Y, Sykes C (2009). "Automatic Generation of Textual Summaries from Neonatal Intensive Care Data" (PDF). Artificial Intelligence. 173 (7–8): 789–816. doi:10.1016/j.artint.2008.12.002.
↑ Perera R, Nand P (2017). "Recent Advances in Natural Language Generation: A Survey and Classification of the Empirical Literature". Computing and Informatics. 36 (1): 1–32. doi:10.4149/cai_2017_1_1. {{cite journal}}: |hdl-access= requires |hdl= (help)
↑ R Turner, S Sripada, E Reiter, I Davy (2006). Generating Spatio-Temporal Descriptions in Pollen Forecasts. Proceedings of EACL06
↑ "E2E NLG Challenge". Archived from the original on 4 December 2022. Retrieved 30 December 2022.
↑ "DataLabCup: Image Caption".
↑ Law A, Freer Y, Hunter J, Logie R, McIntosh N, Quinn J (2005). "A Comparison of Graphical and Textual Presentations of Time Series Data to Support Medical Decision Making in the Neonatal Intensive Care Unit". Journal of Clinical Monitoring and Computing. 19 (3): 183–94. doi:10.1007/s10877-005-0879-3. PMID 16244840.
↑ Gkatzia D, Lemon O, Reiser V (2017). "Data-to-Text Generation Improves Decision-Making Under Uncertainty" (PDF). IEEE Computational Intelligence Magazine. 12 (3): 10–17. doi:10.1109/MCI.2017.2708998.
↑ "Text or Graphics?". 2016-12-26.
↑ Reiter E, Sripada S, Hunter J, Yu J, Davy I (2005). "Choosing Words in Computer-Generated Weather Forecasts". Artificial Intelligence. 167 (1–2): 137–69. doi:10.1016/j.artint.2005.06.006.
↑ S Sripada, N Burnett, R Turner, J Mastin, D Evans(2014). Generating A Case Study: NLG meeting Weather Industry Demand for Quality and Quantity of Textual Weather Forecasts. Proceedings of INLG 2014
↑ Schwencke, Ken Schwencke Ken; Journalist, A.; Programmer, Computer; in 2014, left the Los Angeles Times (2014-03-17). "Earthquake aftershock: 2.7 quake strikes near Westwood". Los Angeles Times (به انگلیسی). Retrieved 2022-06-03.
↑ Levenson, Eric (2014-03-17). "L.A. Times Journalist Explains How a Bot Wrote His Earthquake Story for Him". The Atlantic (به انگلیسی). Retrieved 2022-06-03.
↑ "Neural Networks and Modern BI Platforms Will Evolve Data and Analytics".
↑ "Welcome to the iGraph-Lite page". www.inf.udec.cl. Archived from the original on 2010-03-16.
↑ ^۱۸٫۰ ^۱۸٫۱ ^۱۸٫۲ A bot will complete this citation soon. Click here to jump the queue arXiv:[۱].
↑ Mnasri. "Recent advances in conversational NLP: Towards the standardization of Chatbot building". arXiv:1903.09025.
↑ "How To Author Over 1 Million Books". HuffPost (به انگلیسی). 2013-02-11. Retrieved 2022-06-03.
↑ "Exploring GPT-3: A New Breakthrough in Language Generation". KDnuggets (به انگلیسی). Retrieved 2022-06-03.^{^{[پیوند مرده]}}
↑ ^۲۲٫۰ ^۲۲٫۱ Winters, Thomas (2021-04-30). "Computers Learning Humor Is No Joke". Harvard Data Science Review (به انگلیسی). 3 (2). doi:10.1162/99608f92.f13a2337.
↑ Horvitz, Zachary; Do, Nam; Littman, Michael L. (July 2020). "Context-Driven Satirical News Generation". Proceedings of the Second Workshop on Figurative Language Processing. Online: Association for Computational Linguistics: 40–50. doi:10.18653/v1/2020.figlang-1.5.
↑ «Generation Challenges 2009». بایگانی‌شده از اصلی در ۲۳ فوریه ۲۰۲۱. دریافت‌شده در ۳۰ دسامبر ۲۰۲۲.
↑ Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Madotto, Andrea (17 November 2022). "Survey of Hallucination in Natural Language Generation". ACM Computing Surveys: 3571730. doi:10.1145/3571730.

پیوند به بیرون[ویرایش]

گروه علاقه ویژه ACL در نسل (SIGGEN)
SIGGEN بخشی از ACL Anthology (شامل مقالات تحقیقاتی NLG)
پورتال ACL NLG (شامل فهرستی از منابع NLG)
لیست «تقریباً کامل» سیستم‌های NLG Bateman و Zock اکنون به‌عنوان یک ویکی با انواع تجسم‌ها و جداول نمای کلی موجود در صورت تقاضا نگهداری می‌شود.
وبلاگ ایهود رایتر در مورد نسل زبان طبیعی
توضیح چند رسانه ای تعاملی برای تعمیر و نگهداری تجهیزات - مقاله تشریح کننده بستر آزمایشی توضیح چند رسانه ای هماهنگ (COMET)

[1] Reiter, Ehud; Dale, Robert (March 1997). "Building applied natural language generation systems". Natural Language Engineering (به انگلیسی). 3 (1): 57–87. doi:10.1017/S1351324997001502. ISSN 1469-8110.

[Gatt-2] Gatt A, Krahmer E (2018). "Survey of the state of the art in natural language generation: Core tasks, applications and evaluation". Journal of Artificial Intelligence Research. 61 (61): 65–170. arXiv:1703.09902. doi:10.1613/jair.5477.

[fog-3] ۳٫۰ ^۳٫۱ Goldberg E, Driedger N, Kittredge R (1994). "Using Natural-Language Processing to Produce Weather Forecasts". IEEE Expert. 9 (2): 45–53. doi:10.1109/64.294135.

[portet-4] ۴٫۰ ^۴٫۱ ^۴٫۲ Portet F, Reiter E, Gatt A, Hunter J, Sripada S, Freer Y, Sykes C (2009). "Automatic Generation of Textual Summaries from Neonatal Intensive Care Data" (PDF). Artificial Intelligence. 173 (7–8): 789–816. doi:10.1016/j.artint.2008.12.002.

[5] Perera R, Nand P (2017). "Recent Advances in Natural Language Generation: A Survey and Classification of the Empirical Literature". Computing and Informatics. 36 (1): 1–32. doi:10.4149/cai_2017_1_1. {{cite journal}}: |hdl-access= requires |hdl= (help)

[6] R Turner, S Sripada, E Reiter, I Davy (2006). Generating Spatio-Temporal Descriptions in Pollen Forecasts. Proceedings of EACL06

[7] "E2E NLG Challenge". Archived from the original on 4 December 2022. Retrieved 30 December 2022.

[8] "DataLabCup: Image Caption".

[9] Law A, Freer Y, Hunter J, Logie R, McIntosh N, Quinn J (2005). "A Comparison of Graphical and Textual Presentations of Time Series Data to Support Medical Decision Making in the Neonatal Intensive Care Unit". Journal of Clinical Monitoring and Computing. 19 (3): 183–94. doi:10.1007/s10877-005-0879-3. PMID 16244840.

[10] Gkatzia D, Lemon O, Reiser V (2017). "Data-to-Text Generation Improves Decision-Making Under Uncertainty" (PDF). IEEE Computational Intelligence Magazine. 12 (3): 10–17. doi:10.1109/MCI.2017.2708998.

[11] "Text or Graphics?". 2016-12-26.

[12] Reiter E, Sripada S, Hunter J, Yu J, Davy I (2005). "Choosing Words in Computer-Generated Weather Forecasts". Artificial Intelligence. 167 (1–2): 137–69. doi:10.1016/j.artint.2005.06.006.

[13] S Sripada, N Burnett, R Turner, J Mastin, D Evans(2014). Generating A Case Study: NLG meeting Weather Industry Demand for Quality and Quantity of Textual Weather Forecasts. Proceedings of INLG 2014

[14] Schwencke, Ken Schwencke Ken; Journalist, A.; Programmer, Computer; in 2014, left the Los Angeles Times (2014-03-17). "Earthquake aftershock: 2.7 quake strikes near Westwood". Los Angeles Times (به انگلیسی). Retrieved 2022-06-03.

[15] Levenson, Eric (2014-03-17). "L.A. Times Journalist Explains How a Bot Wrote His Earthquake Story for Him". The Atlantic (به انگلیسی). Retrieved 2022-06-03.

[16] "Neural Networks and Modern BI Platforms Will Evolve Data and Analytics".

[17] "Welcome to the iGraph-Lite page". www.inf.udec.cl. Archived from the original on 2010-03-16.

[:0-18] ۱۸٫۰ ^۱۸٫۱ ^۱۸٫۲ A bot will complete this citation soon. Click here to jump the queue arXiv:[۱].

[19] Mnasri. "Recent advances in conversational NLP: Towards the standardization of Chatbot building". arXiv:1903.09025.

[20] "How To Author Over 1 Million Books". HuffPost (به انگلیسی). 2013-02-11. Retrieved 2022-06-03.

[21] "Exploring GPT-3: A New Breakthrough in Language Generation". KDnuggets (به انگلیسی). Retrieved 2022-06-03.^{^{[پیوند مرده]}}

[:1-22] ۲۲٫۰ ^۲۲٫۱ Winters, Thomas (2021-04-30). "Computers Learning Humor Is No Joke". Harvard Data Science Review (به انگلیسی). 3 (2). doi:10.1162/99608f92.f13a2337.

[23] Horvitz, Zachary; Do, Nam; Littman, Michael L. (July 2020). "Context-Driven Satirical News Generation". Proceedings of the Second Workshop on Figurative Language Processing. Online: Association for Computational Linguistics: 40–50. doi:10.18653/v1/2020.figlang-1.5.

[24] «Generation Challenges 2009». بایگانی‌شده از اصلی در ۲۳ فوریه ۲۰۲۱. دریافت‌شده در ۳۰ دسامبر ۲۰۲۲.

[25] Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Madotto, Andrea (17 November 2022). "Survey of Hallucination in Natural Language Generation". ACM Computing Surveys: 3571730. doi:10.1145/3571730.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]

[۱۴]

[۱۵]

[۱۶]

[۱۷]

[۱۸]

[۱۹]

[۲۰]

[۲۱]

[۲۲]

[۲۳]

[۲۴]

[۲۵]