مدل متن به تصویر
مدل متن به تصویر یک مدل یادگیری ماشینی است که یک توصیف زبان طبیعی را به عنوان ورودی میگیرد و تصویری مطابق با آن توصیف تولید میکند. این مدلها در اواسط دهه ۲۰۱۰ در نتیجه پیشرفت در شبکههای عصبی عمیق شروع به توسعه کردند. در سال ۲۰۲۲، خروجی به روزترین مدلهای تبدیل متن به تصویر، مانند مدل دال ئی ۲ از اوپنایآی و استیبل دیفیوژن از استبیلیتی ایآی به کیفیت عکسهای واقعی و نقاشیهای انسانی نزدیک تر شدند.
مدلهای متن به تصویر عموماً یک مدل زبان ، که متن ورودی را به یک نمایش پنهان تبدیل میکند، و یک مدل تصویر تولیدی که یک تصویر براساس آن نمایش تولید میکند را ترکیب میکنند. مؤثرترین مدلها عموماً بر روی مقادیر انبوهی از دادههای تصویر و متن استخراج شده از وب آموزش داده شدهاند.[۲]
تاریخچه
[ویرایش]قبل از ظهور یادگیری عمیق، تلاشها برای ساخت مدلهای متن به تصویر به ساخت کلاژ با کنار هم قرار دادن تصاویر تشکیل دهندهٔ موجود، مانند پایگاه دادههای کلیپ آرت محدود میشد.[۳][۴]
برعکس این عمل که نوشتن شرح تصویر نام دارد، قابل انجامتر بود و تعدادی از مدلهای یادگیری عمیق شرح تصویر، قبل از اولین مدلهای متن به تصویر وجود داشتند.[۵]
اولین مدل مدرن متن به تصویر، alignDRAW، در سال ۲۰۱۵ توسط محققان دانشگاه تورنتو معرفی شد. alignDRAW معماری DRAW را که قبلاً معرفی شده بود (که از رمزگذار خودکار متغیر تکراری با مکانیزم توجه استفاده میکرد) گسترش داد تا به دنبالههای متنی مشروط شود. تصاویر تولید شده توسط alignDRAW تار و غیر واقعی بودند، اما مدل قادر بود به اشیایی که در دادههای آموزشی نشان داده نشدهاند تعمیم یابد (مانند اتوبوس مدرسهٔ قرمز رنگ)، و بهطور مناسب از پس ورودیهای جدید مانند "تابلوی علامت توقف که در حال پرواز در آسمان آبی است " برآمد. این موضوع نشان میدهد که مدل صرفاً دادههای مجموعه آموزشی را «به خاطر» نمیسپرده است.
در سال ۲۰۱۶، رید، آکاتا، یان و همکاران. اولین کسانی بودند که از شبکههای متخاصم مولد برای کار متن به تصویر استفاده کردند. آنها با مدلهایی که بر روی مجموعهدادههای محدود و مخصوص به حوزههای خاص آموزش دیده بودند، توانستند تصاویر «قابل قبول بصری» از پرندگان و گلها را از زیرنویسهایی مانند «پرندهای تماماً سیاه با یک منقار ضخیم و گرد متمایز» تولید کنند. یک مدل آموزش دیده بر روی مجموعه دادههای متنوع تر COCO، تصاویری را تولید کرد که «از دور… دلگرم کننده»، اما فاقد انسجام در جزئیات بودند. سیستمهایی که بعدا به وجود آمدند عبارتند از VQGAN+CLIP, XMC-GAN , و GauGAN2.
یکی از اولین مدلهای تبدیل متن به تصویر که توجه عموم را به خود جلب کرد، دال-ئی از شرکت اوپنایآی بود، یک سیستم ترانسفورماتور که در ژانویه ۲۰۲۱ معرفی شد. یک مدل جانشین که قادر به تولید تصاویر پیچیدهتر و واقعیتر بود با نام DALL-E 2، در آوریل ۲۰۲۲ رونمایی شد، و پس از آن استیبل دیفیوژن به طور عمومی در اوت ۲۰۲۲ منتشر شد
دیگر مدلهای تبدیل متن به تصویرعبارت اند ازپلتفرمهای متن به ویدیوی مبتنی بر مدل زبان مانند Runway, Make-A-Video, Imagen Video,[۶]Midjourney و Phenaki که میتوانند از ورودیهای متن و/یا متن/تصویر، ویدیو تولید کنند.[۷]
معماری و آموزش
[ویرایش]مدلهای متن به تصویر با استفاده از معماریهای مختلف ساخته شدهاند. مرحله رمزگذاری متن ممکن است با یک شبکه عصبی تکراری مانند شبکه حافظه کوتاه مدت (LSTM) انجام شود، اگرچه مدلهای ترانسفورماتور از آن زمان به گزینه محبوبتری تبدیل شدهاند. برای مرحله تولید تصویر، شبکههای متخاصم مولد مشروط معمولاً مورد استفاده قرار میگیرند و مدلهای انتشار نیز در سالهای اخیر به یک گزینه محبوب تبدیل شدهاند. به جای آموزش مستقیم یک مدل برای خروجی یک تصویر با وضوح بالا مشروط به جاسازی متن، یک تکنیک رایج این است که یک مدل را برای تولید تصاویر با وضوح پایین آموزش داده، و از یک یا چند مدل یادگیری عمیق کمکی برای ارتقاء آن استفاده شود، تا به آن جزئیات اضافه کند.
مدلهای متن به تصویر بر روی مجموعه دادههای بزرگ به صورت جفت (متن، تصویر) آموزش داده میشوند که اغلب از وب جمع آوریمیشوند. Google Brain با مدل Imagen 2022 خود نتایج مثبتی را از استفاده از یک مدل زبان بزرگ که به طور جداگانه بر روی یک مجموعه فقط متنی آموزش داده شده بود (که وزنهای آن متعاقباً منجمد شده بود) گزارش کرد، که از رویکرد استاندارد قبلی فاصله گرفت.[۸]
مجموعه دادهها
[ویرایش]آموزش یک مدل متن به تصویر نیاز به مجموعه دادهای از تصاویر همراه با زیرنویس متن دارد. یکی از مجموعه دادههایی که معمولاً برای این منظور استفاده میشود COCO (Common Objects in Context) است. COCO که توسط مایکروسافت در سال ۲۰۱۴ منتشر شد، شامل حدود ۱۲۳۰۰۰ تصویر است که انواع مختلفی از اشیاء را با پنج عنوان در هر تصویر، که توسط حاشیهنویسهای انسانی ایجاد شدهاند، به تصویر میکشد، Oxford-120 Flowers و CUB-200 Birds مجموعه دادههای کوچکتری از هر کدام حدود ۱۰۰۰۰ تصویر هستند که به ترتیب به گلها و پرندگان محدود میشوند. آموزش یک مدل متن به تصویر با کیفیت بالا با این مجموعه دادهها، به دلیل دامنه محدود موضوع آنها، کمتر دشوار تلقی میشود.[۹]
ارزیابی
[ویرایش]ارزیابی و مقایسه کیفیت مدلهای متن به تصویر یک مشکل چالشبرانگیز است و شامل ارزیابی چندین ویژگی مطلوب میباشد. برای هر مدل تصویر تولیدی، مطلوب است که تصاویر تولید شده واقع گرایانه باشند (به این معنا که به نظر میرسد تا حد قابل قبولی متعلق به مجموعه آموزشی باشند) و در سبک خود متنوع باشند. یک نیازمندی خاص برای مدلهای متن به تصویر این است که تصاویر تولید شده از نظر معنایی با زیرنویسهای متنی که برای تولید آنها استفاده میشوند همخوانی داشته باشند. تعدادی روش برای ارزیابی این کیفیتها ابداع شده است، برخی خودکار و برخی دیگر بر اساس قضاوت انسان.
یک معیار الگوریتمی رایج برای ارزیابی کیفیت و تنوع تصویر، امتیاز اولیه (IS) است، که بر اساس توزیع برچسبهای پیشبینیشده توسط یک مدل طبقهبندی تصویر Inceptionv3 از پیش آموزشدیده و اعمال شده بر بر نمونهای از تصاویر تولید شده توسط مدل متن به تصویر میباشد. امتیاز زمانی افزایش مییابد که مدل طبقهبندی تصویر یک برچسب واحد را با احتمال زیاد پیشبینی کند، طرحی که به نفع تصاویر تولید شدهٔ «متمایز» است. یکی دیگر از معیارهای محبوب، فاصله اولیه فریشت مربوطه است که توزیع تصاویر تولید شده و تصاویر آموزشی واقعی را با توجه به ویژگیهای استخراج شده توسط یکی از لایههای نهایی یک مدل طبقهبندی تصویر از پیش آموزش دیده مقایسه میکند.[۱۰]
تأثیر و کاربردها
[ویرایش]در اوت ۲۰۲۲ هوش مصنوعی متن به تصویر جایزهٔ مقام اول را در یک مسابقهٔ هنر دیجیتالی از آن خود کرد (بهطور خاص در دستهبندی نوظهور هنرمند دیجیتالی مسابقهٔ سالانهٔ هنر کلورادو استیت فیر با ۳۰۰ دلار جایزه)
در همان زمان یک متخصص نتیجه گرفت که هنر هوش مصنوعی درحال حاضر همه جا هست. در حالی که متخصصین هم نمیدانستند این به چه معناست. یک منبع خبری تعیین کرد که هنر هوش مصنوعی بسیار فراگیر میشود و گزارشی در مورد مشکلات کپی رایت و اتوماتیک سازی هنرمندان حرفه ای ارایه داد. یک منبع خبری دیگر در مورد دیپ فیکها ابراز نگرانی کرد. یک مجله احتمال ایجاد انواع جدید ابراز هنر را بیان کرد و یک سرمقاله تأکید کرد که این موضوع میتواند به عنوان یک افزایش توانایی انسان دیده شود.
مثالهای این افزایشها میتواند شامل امکان افزایش ژانرهای خاص غیرتجاری (مانند انواع مختلف سایبر پانک مثل سولار پانک) توسط تازهکارها، سرگرمی جدید، بازیهای نوین و خلاقانهٔ کودکی، ساخت سریع نمونههای آزمایشی افزایش دسترسی به ایجاد هنر و خروجی هنر به ازای تلاش یا هزینه یا زمان باشد یعنی توسط ایجاد پیش نویسها، منابع الهام، اصلاح پیش نویسها و اجزای تصاویر.
رسانه مصنوعی که شامل هنر هوش مصنوعی است، در ۲۰۲۲ به عنوان یک روند بزرگ تکنولوژی که کسب و کار را تحت تأثیر قرار میدهد، معرفی شده است.[۱۱]
جستارهای وابسته
[ویرایش]منابع
[ویرایش]- ↑ Mansimov, Elman; Parisotto, Emilio; Ba, Jimmy Lei; Salakhutdinov, Ruslan (February 29, 2016). "Generating Images from Captions with Attention" (PDF). International Conference on Learning Representations.
- ↑ Vincent، James (۲۰۲۲-۰۵-۲۴). «All these images were generated by Google's latest text-to-image AI». The Verge (به انگلیسی). دریافتشده در ۲۰۲۳-۰۲-۰۲.
- ↑ «Adversarial Neural Network» (PDF).
- ↑ «Text-to-picture synthesis» (PDF).
- ↑ «Generating Images from Captions with Attention».
- ↑ insiyak (۲۰۲۴-۰۱-۰۵). «How to Use Midjourney on Discord: (Tutorial 1) step-by-step Guide». Almoco (به انگلیسی). بایگانیشده از اصلی در ۶ فوریه ۲۰۲۴. دریافتشده در ۲۰۲۴-۰۲-۰۹.
- ↑ Elgan, Mike (2022-11-01). "How 'synthetic media' will transform business forever". Computerworld (به انگلیسی). Retrieved 2023-02-02.
- ↑ Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Ghasemipour, Seyed Kamyar Seyed; Ayan, Burcu Karagol; Mahdavi, S. Sara (2022-05-23). "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding". arXiv:2205.11487 [cs].
- ↑ Frolov, Stanislav; Hinz, Tobias; Raue, Federico; Hees, Jörn; Dengel, Andreas (2021-12-01). "Adversarial text-to-image synthesis: A review". Neural Networks (به انگلیسی). 144: 187–209. doi:10.1016/j.neunet.2021.07.019. ISSN 0893-6080.
- ↑ Frolov, Stanislav; Hinz, Tobias; Raue, Federico; Hees, Jörn; Dengel, Andreas (2021-12-01). "Adversarial text-to-image synthesis: A review". Neural Networks (به انگلیسی). 144: 187–209. doi:10.1016/j.neunet.2021.07.019. ISSN 0893-6080.
- ↑ Elgan, Mike (2022-11-01). "How 'synthetic media' will transform business forever". Computerworld (به انگلیسی). Retrieved 2023-02-02.