پیش‌نویس:شبکه مولد تخاصمی (Wasserstein GAN)

شبکه مولد تخاصمی (Wasserstein GAN)[ویرایش]

شبکه متخاصم مولد Wasserstein Generative Adversarial Network (WGAN) نوعی از شبکه متخاصم مولد (GAN) است که در سال 2017 پیشنهاد شد و هدف آن بهبود پایداری در یادگیری، خلاص شدن از مشکلاتی مانند فروپاشی حالت (به انگلیسی: Mode Collapse) و ارائه منحنی‌های یادگیری معنادار است که برای اشکال زدایی و جستجو فراپارامترها (به انگلیسی: Hyperparameters) مفید هستند. ".^[۱]^[۲]

در مقایسه با شبکه‌های تخاصمی اولیه، WGAN سیگنال‌های راهنمای بهتری برای یادگیری مولد (generator) فراهم میکند و این باعث میشود زمانی که مولد در حال یادگیری توزیع هایی با ابعاد بالاست یادگیری پایدارتر باشد.

انگیزه[ویرایش]

بازی GAN[ویرایش]

شبکه های تخاصمی اولیه بر پایه بازی GAN هستند، یک بازی جمع صفر (zero sum) با دو بازیکن: مولد و تفکیک کننده (discriminator). این بازی بر روی یک فضای احتمال به صورت $(\Omega ,{\mathcal {B}},\mu _{ref})$ تعریف میشود. مجموعه استراتژی های مولد، مجموعه تمام احتمالات $\mu _{G}$ بر روی $(\Omega ,{\mathcal {B}})$ است و مجموعه استراتژی های تفکیک کننده به صورت تابع $D:\Omega \to [0,1]$ است. تابع هدف این بازی به صورت زیر است:

L(\mu _{G},D):=\mathbb {E} _{x\sim \mu _{ref}}[\ln D(x)]+\mathbb {E} _{x\sim \mu _{G}}[\ln(1-D(x))]

مولد در تلاش برای کمینه کردن تابع فوق و تفکیک کننده به دنبال بیشینه کردن آن است. در بازی GAN یک نظریه پایه می گوید:

نظریه (تفکیک کننده بهینه، واگرایی جیسون-شنون را محاسبه میکند) — برای هر استراتژی ثابت تولیدکننده $\mu _{G}$ , بهترین پاسخ را $D^{*}=\arg \max _{D}L(\mu _{G},D)$ در نظر میگیریم, در این صورت

{\begin{aligned}D^{*}(x)&={\frac {d\mu _{ref}}{d(\mu _{ref}+\mu _{G})}}\\L(\mu _{G},D^{*})&=2D_{JS}(\mu _{ref};\mu _{G})-2\ln 2,\end{aligned}}

که مشتق برابر با Radon–Nikodym derivative, و $D_{JS}$ همان Jensen–Shannon divergence است.

اگر بازی GAN را به تعداد زیاد تکرار کنیم که هربار مولد حرکت اول و تفکیک کننده حرکت دوم را انجام دهد، هربار استراتژی مولد $\mu _{G}$ تغییر می‌کند و تفکیک کننده مجبور است برای دادن پاسخ بهینه به مقدار ایده آل نزدیک شود.

D^{*}(x)={\frac {d\mu _{ref}}{d(\mu _{ref}+\mu _{G})}}.

از آنجایی که ما به $\mu _{ref}$ نیاز داریم، تابع تفکیک کننده $D$ به تنهایی برایمان ارزشی نداشته و فقط نسبت احتمال بین توزیع مولد و توزیع مرجع (Reference) را محاسبه میکند. در حالت تعادل، خروجی تفکیک کننده همواره برابر با ${\frac {1}{2}}$ است که در واقع انگار تفکیک کننده تسلیم شده است.

در بازی GAN اگر استراتژی مولد $\mu _{G}$ را ثابت نگه داریم و مرحله به مرحله تفکیک کننده را بهبود ببخشیم، با داشتن $\mu _{D,t}$ بعنوان حرکت تفکیک کننده در زمان $t$ ، آنگاه در حالت ایده آل خواهیم داشت:

L(\mu _{G},\mu _{D,1})\leq L(\mu _{G},\mu _{D,2})\leq \cdots \leq \max _{\mu _{D}}L(\mu _{G},\mu _{D})=2D_{JS}(\mu _{ref}\|\mu _{G})-2\ln 2,

که یعنی تفکیک کننده به دنبال حد پایین $D_{JS}(\mu _{ref}\|\mu _{G})$ است.

فاصله واسرستاین (Wasserstein distance)[ویرایش]

همانطور که دیدیم، تفکیک کننده نقش یک منتقد را دارد و به مولد اعلام می‌کند "چقدر از حقیقت دور است" که تعریف "دور" همان واگرایی جیسون-شنون است.

طبیعتا، امکان تعریف معیارهای دیگری از دور بودن مطرح می شود. امروزه معیارهای زیادی برای انتخاب وجود دارد مانند خانواده f-divergence، که به ما f-GAN را می دهد.^[۳]

به همین صورت WGAN با استفاده از معیار واسرستاین (Wasserstein metric)، که در قضیه نمایش دوگانه صدق می کند، به دست می آید.

نظریه (دوگانگی کانتوروویچ-روبنشتاین (Kantorovich-Rubenstein duality)) — زمانی که فضای احتمالی $\Omega$ یک فضای متریک باشد، آنگاه برای هر $K>0$ ثابت,

W_{1}(\mu ,\nu )={\frac {1}{K}}\sup _{\|f\|_{L}\leq K}\mathbb {E} _{x\sim \mu }[f(x)]-\mathbb {E} _{y\sim \nu }[f(y)]

که

\|\cdot \|_{L}

همان Lipschitz norm است.

اثبات این نظریه را می توانید در صفحه اصلی Wasserstein metric مشاهده کنید.

تعریف[ویرایش]

باتوجه به دوگانگی کانتوروویچ-روبنشتاین، تعریف WGAN به صورت زیر است:

یک WGAN به صورت یک فضای احتمال $(\Omega ,{\mathcal {B}},\mu _{ref})$ تعریف میشود, که $\Omega$ یک فضای متریک است,و $K>0$ یک ثابت.
دو بازیکن به نام های تولید کننده و تفکیک کننده (منتقد) داریم.
مجموعه استراتژی های تولید کننده، مجموعه تمام احتمالات $\mu _{G}$ روی $(\Omega ,{\mathcal {B}})$ است.
مجموعه استراتژی های تفکیک کننده برابر مجموعه توابع قابل اندازه گیری از نوع $D:\Omega \to \mathbb {R}$ با Lipschitz-norm محدود شده : $\|D\|_{L}\leq K$ .
بازی WGAN یک بازی جمع صفر با تابع هدف:
$L_{WGAN}(\mu _{G},D):=\mathbb {E} _{x\sim \mu _{G}}[D(x)]-\mathbb {E} _{x\sim \mu _{ref}}[D(x)].$
ابتدا تولیدکننده حرکت خود را انجام میدهد، سپس تفکیک کننده پاسخ میدهد. تولیدکننده سعی میکند تابع هدف را کمینه و در مقابل تفکیک کننده تلاش میکند تابع را بیشینه کند:
$\min _{\mu _{G}}\max _{D}L_{WGAN}(\mu _{G},D).$

برای هر استراتژی مولد $\mu _{G}$ ، جواب بهینه از طرف تفکیک کننده برابر است با $D^{*}$ بطوری که:

L_{WGAN}(\mu _{G},D^{*})=K\cdot W_{1}(\mu _{G},\mu _{ref}).

در نتیجه، اگر تفکیک کننده خوب عمل کند، مولد همواره به کمینه کردن $W_{1}(\mu _{G},\mu _{ref})$ ترغیب می شود و همانطور که باید، استراتژی بهینه برای آن $\mu _{G}=\mu _{ref}$ است.

مقایسه با GAN[ویرایش]

در WGAN تفکیک کننده گرادیان بهتری نسبت به GAN فراهم می کند.

به طور مثال یک بازی بر روی خط اعداد حقیقی داریم، که $\mu _{G}$ و $\mu _{ref}$ توزیع نرمال هستند. در نمودار زیر مولد بهینه $D$ و تفکیک کننده بهینه واسرستاین $D_{WGAN}$ نشان داده شده اند.

برای یک تفکیک کننده ثابت، مولد باید توابع هدف زیر را کمینه کند.

برای بازی GAN: $\mathbb {E} _{x\sim \mu _{G}}[\ln(1-D(x))]$
برای بازی WGAN: $\mathbb {E} _{x\sim \mu _{G}}[D_{WGAN}(x)]$

فرض کنید $\mu _{G}$ از پارامترهای $\theta$ تشکیل شده است، این گونه می توانیم با استفاده از تخمین گر نااریب (unbiased estimator) گرادیان، یک گرادیان کاهشی تصادفی اجرا کنیم:

\nabla _{\theta }\mathbb {E} _{x\sim \mu _{G}}[\ln(1-D(x))]=\mathbb {E} _{x\sim \mu _{G}}[\ln(1-D(x))\cdot \nabla _{\theta }\ln \rho _{\mu _{G}}(x)]

\nabla _{\theta }\mathbb {E} _{x\sim \mu _{G}}[D_{WGAN}(x)]=\mathbb {E} _{x\sim \mu _{G}}[D_{WGAN}(x)\cdot \nabla _{\theta }\ln \rho _{\mu _{G}}(x)]

برای به دست آوردن فرمول های بالا از تغییر متغیر (reparameterization trick)

همانطور که مشاهده می شود، در GAN، مولد ترغیب می شود از قله $\ln(1-D(x))$ به سمت پایین سقوط کند. مولد WGAN نیز به همین صورت است.

در WGAN، $D_{WGAN}$ تقریبا همواره گرادیان برابر یک دارد، این در حالیست که در GAN، $\ln(1-D)$ در میانه گرادیان برابر صفر و سایر نقاط گرادیانی بزرگ دارد. این باعث می شود واریانس تخمین گر در GAN معمولا بسیار بیشتر از WGAN باشد.

مشکل $D_{JS}$ در موارد واقعی یادگیری ماشین بسیار بزرگتر است. فرض کنید می خواهیم یک GAN را برای ImageNet ، یک مجموعه از عکس های 256 در 256 ، آموزش دهیم. فضای تمام این عکس ها $\mathbb {R} ^{256^{2}}$ است، در حالیکه عکس های داخل ImageNet، $\mu _{ref}$ ، بر روی یک فراوانی با ابعاد بسیار پایین تر تمرکز دارد. در نتیجه هر استراتژی $\mu _{G}$ برای مولد تقریبا بطور کامل از $\mu _{ref}$ مجزاست که باعث می شود $D_{JS}(\mu _{G}\|\mu _{ref})=+\infty$ . بنابراین یک تفکیک کننده خوب تقریبا همواره می تواند $\mu _{ref}$ و حتی هر $\mu _{G}'$ نزدیک به $\mu _{G}$ را از $\mu _{G}$ تشخیص دهد. این باعث می شود گرادیان تقریبا صفر باشد $\nabla _{\mu _{G}}L(\mu _{G},D)\approx 0$ ، و هیچ گونه سیگنالی برای بهبود مولد تولید نشود.

جزئیات این نظریه را می توانید در اینجا مشاهده کنید.^[۴]

آموزش Wasserstein GAN[ویرایش]

آموزش مولد در WGAN و GAN صرفا براساس گرادیان کاهشی است، اما آموزش تفکیک کننده متفاوت است به این دلیل که در WGAN تفکیک کننده یک محدودیت جدید دارد که همان حد Lipschitz norm است. برای انجام این کار روش های مختلفی وجود دارد.

قراردادن حد بالا برای Lipschitz norm[ویرایش]

تابع تفکیک کننده $D$ را به صورت یک پرستپترون چندلایه (multilayer perceptron) پیاده سازی میکنیم.

D=D_{n}\circ D_{n-1}\circ \cdots \circ D_{1}

که در آن $D_{i}(x)=h(W_{i}x)$ و $h:\mathbb {R} \to \mathbb {R}$ یک تابع فعالساز ثابت با $\sup _{x}|h'(x)|\leq 1$ است. برای مثال، تابع تانژانت هایپربولیک $h=\tanh$ در شرط گفته شده صدق می کند. برای هر $x$ ، قرار می دهیم $x_{i}=(D_{i}\circ D_{i-1}\circ \cdots \circ D_{1})(x)$ و با استفاده از قانون زنجیره ای خواهیم داشت:

dD(x)=diag(h'(W_{n}x_{n-1}))\cdot W_{n}\cdot diag(h'(W_{n-1}x_{n-2}))\cdot W_{n-1}\cdots diag(h'(W_{1}x))\cdot W_{1}\cdot dx

اینگونه Lipschitz norm تفکیک کننده حد بالای زیر را دارد:

\|D\|_{L}\leq \sup _{x}\|diag(h'(W_{n}x_{n-1}))\cdot W_{n}\cdot diag(h'(W_{n-1}x_{n-2}))\cdot W_{n-1}\cdots diag(h'(W_{1}x))\cdot W_{1}\|_{F}

که $\|\cdot \|_{s}$ همان operator norm یا spectral radius یا بزرگترین مقدار ویژه ماتریس است (این سه مفهوم در ماتریس ها یک معنی را می دهند اما برای دیگر عملگرهای خطی می توانند متفاوت باشند).

از آنجایی که $\sup _{x}|h'(x)|\leq 1$ داریم $\|diag(h'(W_{i}x_{i-1}))\|_{s}=\max _{j}|h'(W_{i}x_{i-1,j})|\leq 1$ و به همین دلیل حد بالا برابر است با:

\|D\|_{L}\leq \prod _{i=1}^{n}\|W_{i}\|_{s}

بنابراین، اگر بتوانیم بر روی $\|W_{i}\|_{s}$ تمام ماتریس ها حد بالایی تعریف کنیم در واقع حد بالایی برای Lipschitz norm تفکیک کننده تعیین کرده ایم.

برش وزن (Weight clipping)[ویرایش]

برای هر ماتریس $W$ با ابعاد ${\ce {m\times l}}$ قرار می دهیم $c=\max _{i,j}|W_{i,j}|$ ، آنگاه خواهیم داشت:

\|W\|_{s}^{2}=\sup _{\|x\|_{2}=1}\|Wx\|_{2}^{2}=\sup _{\|x\|_{2}=1}\sum _{i}\left(\sum _{j}W_{i,j}x_{j}\right)^{2}=\sup _{\|x\|_{2}=1}\sum _{i,j,k}W_{ij}W_{ik}x_{j}x_{k}\leq c^{2}ml^{2}

با محدود کردن تمام درایه های $W$ به بازه $[-c,c]$ ، در واقع $\|W_{i}\|_{s}$ را محدود کرده ایم.

این روش برش وزن را می توانید در مقاله اصلی مطالعه کنید.

جریمه بر روی گرادیان (Gradient penalty)[ویرایش]

به جای گذاشتن حد بر روی $\|D\|_{L}$ ، می توانیم برای گرادیان یک جریمه به فرم زیر تعریف کنیم:

\mathbb {E} _{x\sim {\hat {\mu }}}[(\|\nabla D(x)\|_{2}-a)^{2}]

ه ${\hat {\mu }}$ یک توزیع ثابت برای تخمین زدن مقداری است که تفکیک کننده از حد Lipschitz norm تجاوز کرده است.

تفکیک کننده برای کمینه کردن تابع هزینه جدید، تلاش میکند $\nabla D(x)$ را به $a$ نزدیک کند، این باعث می شود $\|D\|_{L}\approx a$

این روش برش وزن را می توانید در مقاله اصلی مطالعه کنید.^[۵]

منابع[ویرایش]

↑ Arjovsky، Martin؛ Chintala، Soumith؛ Bottou، Léon. «Wasserstein Generative Adversarial Networks». International Conference on Machine Learning: ۲۱۴–۲۲۳.
↑ Weng, Lilian (2019-04-18). "From GAN to WGAN". arXiv:1904.08994 [cs.LG].
↑ Nowozin، Sebastian؛ Cseke، Botond؛ Tomioka، Ryota. «f-GAN: Training Generative Neural Samplers using Variational Divergence Minimization». Advances in Neural Information Processing Systems. ۲۹.
↑ Arjovsky، Martin؛ Bottou، Léon. «Towards Principled Methods for Training Generative Adversarial Networks».
↑ Gulrajani، Ishaan؛ Ahmed، Faruk؛ Arjovsky، Martin؛ Dumoulin، Vincent؛ Courville، Aaron C. «Improved Training of Wasserstein GANs». Advances in Neural Information Processing Systems. ۳۰.

[1] Arjovsky، Martin؛ Chintala، Soumith؛ Bottou، Léon. «Wasserstein Generative Adversarial Networks». International Conference on Machine Learning: ۲۱۴–۲۲۳.

[2] Weng, Lilian (2019-04-18). "From GAN to WGAN". arXiv:1904.08994 [cs.LG].

[3] Nowozin، Sebastian؛ Cseke، Botond؛ Tomioka، Ryota. «f-GAN: Training Generative Neural Samplers using Variational Divergence Minimization». Advances in Neural Information Processing Systems. ۲۹.

[4] Arjovsky، Martin؛ Bottou، Léon. «Towards Principled Methods for Training Generative Adversarial Networks».

[5] Gulrajani، Ishaan؛ Ahmed، Faruk؛ Arjovsky، Martin؛ Dumoulin، Vincent؛ Courville، Aaron C. «Improved Training of Wasserstein GANs». Advances in Neural Information Processing Systems. ۳۰.

[۱]

[۲]

[۳]

[۴]

[۵]