مدل سازنده

در یادگیری ماشین، به طور کلی دو نوع اصلی از مدل‌ها وجود دارند: روش جداکننده و روش سازنده. روش جداکننده به حل مسائل طبقه‌بندی می‌پردازد اما روش سازنده به حل مسئله تولید یه نمونه جدید و تصادفی از یکی از طبقه‌ها می‌پردازد. به صورت آماری تمایز این دو روش به صورت زیر است:

روش جداکننده: با استفاده از احتمال شرطی $P(Y\mid X=x)$ و با توجه به مشاهدات انجام شده از $X$ که همان ویژگی‌هاست، کلاس مربوطه $Y$ را می‌یابد. به عبارت ساده تر، رسیدن از ویژگی‌ها به کلاس است.^[۱]^[۲]
روش سازنده:‌ با استفاده از احتمال شرطی $P(X\mid Y=y)$ و یک سری نویز به تولید مجموعه ای تصادفی از ویژگی‌ها می‌پردازد و به عبارتی یک نمونه تصادفی از کلاس دلخواه را تولید می‌کند.^[۳]

درواقع، مدل‌های سازنده نسبت به مدل‌های جداکننده، کار دشوارتری را انجام می‌دهند. مدل های مولد باید بیشتر مدل کنند.

یک مدل سازنده برای تصاویر ممکن است همبستگی‌هایی مانند "چیزهایی که شبیه قایق هستند احتمالاً در نزدیکی چیزهایی که شبیه آب هستند ظاهر می‌شوند" و "چشم‌ها بعید است روی پیشانی ظاهر شوند" را ثبت کند که هر کدام توزیع‌های بسیار پیچیده‌ای دارند. در مقابل، یک مدل جداکننده ممکن است تفاوت بین "قایق بادبانی" یا "چیزی غیر از قایق بادبانی" را فقط با جستجوی چند الگوی گویا بیاموزد. این می‌تواند بسیاری از همبستگی‌هایی را که مدل سازنده باید درست انجام دهد نادیده بگیرد. مدل‌های جداکننده سعی می‌کنند مرزهایی را در فضای داده ترسیم کنند، در حالی که مدل‌های سازنده سعی می‌کنند نحوه قرارگیری داده‌ها در فضا را مدل کنند. به عنوان مثال، نمودار زیر مدل های متمایز و مولد ارقام دست نویس را نشان می دهد:

مدل جداکننده سعی می‌کند با کشیدن خطی در فضای داده تفاوت بین 0 و 1 های دست نویس را تشخیص دهد. اگر خط را به درستی پیدا کند، می‌تواند 0ها را از 1 تشخیص دهد بدون اینکه نیازی به دانستن دقیق محل نمونه‌ها در فضا باشد.

در مقابل، مدل سازنده سعی می‌کند با تولید ارقامی که نزدیک به همتایان واقعی خود در فضای داده قرار می‌گیرند، 1 و 0 قانع کننده تولید کند و در عمل، باید توزیع را در سراسر فضای داده مدل کند.^[۴]

انواع مدل‌های سازنده[ویرایش]

انواع متفاوتی از مدل‌های سازنده وجود دارد. دو دسته مهم و بزرگ از این مدل‌ها عبارتند از:

خودرمزگذارهای متغیر: این دسته شامل یک رمزگذار و یک رمزگشا هستند. در مرحله آموزش یک نمونه از کلاس‌های موجود به رمزگذار داده می‌شود و این رمزگذار معادل این نمونه را در فضای ویژگی می‌یابد (بردار ویژگی مربوط به این نمونه را می‌یابد). سپس این بردار به رمزگشا داده می‌شود و رمزگشا سعی می‌کند تا بتواند نمونه اولیه را تولید کند. بعد از مرحله آموزش رمزگشا قادر است با گرفتن هر ورودی تصادفی از فضای ویژگی یک نمونه تولید کند.^[۵]
شبکه های مولد تخاصمی: این دسته شامل یک قسمت تولید کننده و یک قسمت جداکننده است. قسمت تولیدکننده به عنوان ورودی یک بردار تصادفی از فضای ویژگی می‌گیرد و نمونه را تولید می‌کند. سپس جداکننده خروجی را بررسی می‌کنند و کلاس مربوطه را مشخص می‌کند. این دو بخش در مقابل یکدیگر رقابت می‌کنند و در نهایت به درجه‌ای می‌رسند که نیازی به وجود جداکننده نیست و تولیدکننده به تنهایی می‌تواند خروجی موردنظر را تولید کند.^[۶]

مدل‌های سازنده عمیق[ویرایش]

با ظهور یادگیری عمیق، خانواده جدیدی از روش‌ها به نام مدل‌های سازنده عمیق (DGMs)^[۷] ^[۸] از طریق ترکیب مدل‌های سازنده و شبکه‌های عصبی عمیق شکل می‌گیرد. افزایش مقیاس شبکه های عصبی معمولاً با افزایش مقیاس داده‌های آموزشی همراه است که هر دوی آنها برای عملکرد خوب مورد نیاز هستند.^[۹]

DGM های محبوب شامل رمزگذارهای خودکار متغیر (VAEs)، شبکه های سازنده متخاصمی (GAN) و مدل‌های رگرسیون خودکار هستند. اخیراً گرایشی برای ساخت مدل‌های سازنده عمیق بسیار بزرگ به وجود آمده است. به عنوان مثال، GPT-3، و پیش از آن GPT-2، مدل‌های عصبی هستند که حاوی میلیاردها پارامتر هستند.^[۱۰] BigGAN ^[۱۱]و VQ-VAE^[۱۲] شامل صدها میلیون پارامتر هستند که برای تولید تصویر استفاده می‌شوند و جوک باکس یک مدل سازنده بسیار بزرگ برای صدای موسیقی است که حاوی میلیاردها پارامتر است.^[۱۳]

جستارهای وابسته[ویرایش]

منابع[ویرایش]

↑ «Figure 13. The per gene probability of Arboretum module assignments». dx.doi.org. دریافت‌شده در ۲۰۲۲-۱۲-۳۰.
↑ (Mitchell 2015): "Logistic Regression is a function approximation algorithm that uses training data to directly estimate $P(Y\mid X)$ , in contrast to Naive Bayes. In this sense, Logistic Regression is often referred to as a discriminative classifier because we can view the distribution $P(Y\mid X)$ as directly discriminating the value of the target value Y for any given instance X
↑ (Mitchell 2015): "We can use Bayes rule as the basis for designing learning algorithms (function approximators), as follows: Given that we wish to learn some target function $f\colon X\to Y$ , or equivalently, $P(Y\mid X)$ , we use the training data to learn estimates of $P(X\mid Y)$ and $P(Y)$ . New X examples can then be classified using these estimated probability distributions, plus Bayes rule. This type of classifier is called a generative classifier, because we can view the distribution $P(X\mid Y)$ as describing how to generate random instances X conditioned on the target attribute Y.
↑ «زمینه: مدل مولد چیست؟ | Machine Learning». Google Developers. دریافت‌شده در ۲۰۲۲-۱۲-۳۰.
↑ «زمینه: مدل مولد چیست؟ | Machine Learning». Google Developers. دریافت‌شده در ۲۰۲۲-۱۲-۳۰.
↑ «زمینه: مدل مولد چیست؟ | Machine Learning». Google Developers. دریافت‌شده در ۲۰۲۲-۱۲-۳۰.
↑ Hagen، Alexis (۲۰۲۰-۰۴-۰۹). «Scaling up—researchers advance large-scale deep generative models». Microsoft Research (به انگلیسی). دریافت‌شده در ۲۰۲۲-۱۲-۳۰.
↑ "Generative Models". OpenAI (به انگلیسی). 2016-06-16. Retrieved 2022-12-30.
↑ Ganguli, Deep; Hernandez, Danny; Lovitt, Liane; Askell, Amanda; Bai, Yuntao; Chen, Anna; Conerly, Tom; Dassarma, Nova; Drain, Dawn (2022-06-20). "Predictability and Surprise in Large Generative Models". 2022 ACM Conference on Fairness, Accountability, and Transparency. New York, NY, USA: ACM. doi:10.1145/3531146.3533229.
↑ "Better Language Models and Their Implications". OpenAI (به انگلیسی). 2019-02-14. Retrieved 2022-12-30.
↑ Guo, Hongwei; Jiang, Feng; Liu, Shaohui; Zhao, Debin (2013-11). "Natural images scale invariance and high-fidelity image restoration". 2013 Visual Communications and Image Processing (VCIP). IEEE. doi:10.1109/vcip.2013.6706407. {{cite journal}}: Check date values in: |date= (help)
↑ Garbacea, Cristina; den Oord, Aaron van; Li, Yazhe; Lim, Felicia S C; Luebs, Alejandro; Vinyals, Oriol; Walters, Thomas C (2019-05). "Low Bit-rate Speech Coding with VQ-VAE and a WaveNet Decoder". ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE. doi:10.1109/icassp.2019.8683277. {{cite journal}}: Check date values in: |date= (help)
↑ "Jukebox". OpenAI (به انگلیسی). 2020-04-30. Retrieved 2022-12-30.

[1] «Figure 13. The per gene probability of Arboretum module assignments». dx.doi.org. دریافت‌شده در ۲۰۲۲-۱۲-۳۰.

[2] (Mitchell 2015): "Logistic Regression is a function approximation algorithm that uses training data to directly estimate $P(Y\mid X)$ , in contrast to Naive Bayes. In this sense, Logistic Regression is often referred to as a discriminative classifier because we can view the distribution $P(Y\mid X)$ as directly discriminating the value of the target value Y for any given instance X

[3] (Mitchell 2015): "We can use Bayes rule as the basis for designing learning algorithms (function approximators), as follows: Given that we wish to learn some target function $f\colon X\to Y$ , or equivalently, $P(Y\mid X)$ , we use the training data to learn estimates of $P(X\mid Y)$ and $P(Y)$ . New X examples can then be classified using these estimated probability distributions, plus Bayes rule. This type of classifier is called a generative classifier, because we can view the distribution $P(X\mid Y)$ as describing how to generate random instances X conditioned on the target attribute Y.

[4] «زمینه: مدل مولد چیست؟ | Machine Learning». Google Developers. دریافت‌شده در ۲۰۲۲-۱۲-۳۰.

[5] «زمینه: مدل مولد چیست؟ | Machine Learning». Google Developers. دریافت‌شده در ۲۰۲۲-۱۲-۳۰.

[6] «زمینه: مدل مولد چیست؟ | Machine Learning». Google Developers. دریافت‌شده در ۲۰۲۲-۱۲-۳۰.

[7] Hagen، Alexis (۲۰۲۰-۰۴-۰۹). «Scaling up—researchers advance large-scale deep generative models». Microsoft Research (به انگلیسی). دریافت‌شده در ۲۰۲۲-۱۲-۳۰.

[8] "Generative Models". OpenAI (به انگلیسی). 2016-06-16. Retrieved 2022-12-30.

[9] Ganguli, Deep; Hernandez, Danny; Lovitt, Liane; Askell, Amanda; Bai, Yuntao; Chen, Anna; Conerly, Tom; Dassarma, Nova; Drain, Dawn (2022-06-20). "Predictability and Surprise in Large Generative Models". 2022 ACM Conference on Fairness, Accountability, and Transparency. New York, NY, USA: ACM. doi:10.1145/3531146.3533229.

[10] "Better Language Models and Their Implications". OpenAI (به انگلیسی). 2019-02-14. Retrieved 2022-12-30.

[11] Guo, Hongwei; Jiang, Feng; Liu, Shaohui; Zhao, Debin (2013-11). "Natural images scale invariance and high-fidelity image restoration". 2013 Visual Communications and Image Processing (VCIP). IEEE. doi:10.1109/vcip.2013.6706407. {{cite journal}}: Check date values in: |date= (help)

[12] Garbacea, Cristina; den Oord, Aaron van; Li, Yazhe; Lim, Felicia S C; Luebs, Alejandro; Vinyals, Oriol; Walters, Thomas C (2019-05). "Low Bit-rate Speech Coding with VQ-VAE and a WaveNet Decoder". ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE. doi:10.1109/icassp.2019.8683277. {{cite journal}}: Check date values in: |date= (help)

[13] "Jukebox". OpenAI (به انگلیسی). 2020-04-30. Retrieved 2022-12-30.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]