پس‌انتشار

پس‌انتشار^[۱] (انگلیسی: Backpropagation) یا انتشار معکوس، روشی در یادگیری عمیق برای آموزش شبکه‌های عصبی پیشخور است (روش‌های مشابهی برای آموزش سایر شبکه‌های عصبی مصنوعی به وجود آمده‌است). در این روش با استفاده از قاعده زنجیره‌ای، گرادیان تابع هزینه برای تک‌تک وزن‌ها محاسبه می‌شود. برای این کار برای محاسبه گرادیان هر لایه نسبت به تابع هزینه، از مشتق جزئی تابع هزینه نسبت به لایه بعدی استفاده می‌شود. در واقع از آخرین لایه (نزدیک‌ترین لایه به خروجی) محاسبه مشتق‌ها شروع می‌شود و تا ابتدای شبکه (نزدیک‌ترین لایه به ورودی‌ها) ادامه پیدا می‌کند.

روش معمول محاسبه گرادیان (محاسبه اثر هر وزن در خروجی هر نمونه) برای شبکه‌های عصبی پیشخور و به خصوص شبکه‌های عمیق بسیار زمان‌بر و در عمل غیرممکن است. با استفاده از روش پس‌انتشار و با کمک قاعده زنجیره‌ای و مشتق جزئی، در محاسبه گرادیان هر لایه از مشتقات لایه‌های جلوتر استفاده می‌شود و زمان اجرا تا حد زیادی کاهش پیدا می‌کند.^[۲] استفاده از روش پس‌انتشار در کنار روش گرادیان کاهشی تصادفی، امکان اضافه کردن لایه‌های بیش‌تر به مدل به دلیل صرفه‌جویی زمانی به وجود می‌آید. این افزایش تعداد لایه‌ها از سوی دیگر باعث امکان یادگیری الگوهای پیچیده‌تر می‌شود.

ساختار ریاضی الگوریتم

برای سلول عصبی $c$ ورودیی که از سلول عصبی $p$ به این سلول وارد می‌شود را با $b_{pc}$ نشان می‌دهیم. وزن این ورودی $w_{pc}$ است و مجموع ضرب ورودی‌ها با وزنهایشان را با $a_{c}$ نمایش می‌دهیم، یعنی $a_{c}=\sum w_{pc}\times b_{pc}$ . حال باید بر روی $a_{c}$ یک تابع غیر خطی اعمال کنیم، این تابع را $\theta _{c}$ می‌نامیم و خروجی آن را با $b_{c}$ نمایش می‌دهیم به این معنی که $b_{c}=\theta _{c}(a_{c})$ . به همین شکل خروجی‌هایی که از سلول عصبی $c$ خارج شده و به سلول $n$ وارد می‌شوند را با $b_{cn}$ نمایش می‌دهیم و وزن آن را با $w_{cn}$ . اگر تمام وزنهای این شبکه عصبی را در مجموعه‌ای به اسم $W$ بگنجانیم، هدف در واقع یادگیری این وزنهاست.^[۳] اگر ورودی ما $x$ باشد و خروجی $y$ و خروجی شبکه عصبی ما $h_{W}(x)$ ، هدف ما پیدا کردن $W$ است به قسمی که برای همه داده‌ها $y$ و $h_{W}(x)$ به هم خیلی نزدیک شوند. به عبارت دیگر هدف کوچک کردن یک تابع ضرر بر روی تمام داده هاست، اگر داده‌ها را با $(x_{1},y_{1}),\cdots ,(x_{n},y_{n})$ و تابع ضرر را با $l$ نشان دهیم هدف کمینه کردن تابع پایین بر حسب $W$ است:^[۴]

$Q(W)=\sum _{i=1}^{n}l\left(h_{W}(x_{i}),\,\,y_{i}\right)$

به عنوان مثال اگر مسئله رگرسیون است برای $l$ می‌توانیم خطای مربعات را در نظر بگیریم و اگر مسئله دسته‌بندی است برای $l$ می‌شود منفی لگاریتم بازنمایی را استفاده کرد.

برای به‌دست آوردن کمینه $Q(W)$ می‌توان از روش گرادیان کاهشی استفاده کرد، به این معنی که گرادیان تابع را در حساب کرد و کمی در خلاف جهت آن حرکت کرد و این کار را آنقدر ادامه داد تا تابع ضرر خیلی کوچک شود. روش بازگشت به عقب در واقع روشی برای پیدا کردن گرادیان تابع است.

حال فرض کنیم می‌خواهیم گرادیان تابع $Q(W)$ را نسبت به وزن $w_{pc}$ به‌دست بیاوریم. برای این کار نیاز به قاعده زنجیری در مشتق‌گیری داریم. قاعده زنجیری به این شکل کار می‌کند: اگر تابعی داشته باشیم به اسم $f$ که وابسته به سه ورودی $u$ ، $v$ و $w$ باشد و هرکدام از این سه ورودی به نوبه خود وابسته به $t$ باشند، مشتق $f$ به $t$ به این شکل محاسبه می‌شود:

${\frac {\partial f\left(u(t),v(t),w(t)\right)}{\partial t}}={\frac {\partial f}{\partial u}}{\frac {\partial u}{\partial t}}+{\frac {\partial f}{\partial v}}{\frac {\partial v}{\partial t}}+{\frac {\partial f}{\partial w}}{\frac {\partial w}{\partial t}}$

با استفاده از این قاعده زنجیری روش بازگشت به عقب را به این شکل دنبال می‌کنیم:

$\delta _{c}={\frac {\partial Q}{\partial a_{c}}}$

$a_{c}=\sum _{p}w_{pc}\times b_{pc}$

$b_{c}=\theta _{c}(a_{c})$

$\delta _{c}={\frac {\partial Q}{\partial a_{c}}}={\frac {\partial Q}{\partial b_{c}}}{\frac {\partial b_{c}}{\partial a_{c}}}={\frac {\partial Q}{\partial b_{c}}}\times {\acute {\theta }}_{c}(a_{c})=\left(\sum _{n}{\frac {\partial Q}{\partial a_{n}}}{\frac {\partial a_{n}}{\partial b_{c}}}\right)\times {\acute {\theta }}_{c}(a_{c})=\left(\sum _{n}w_{cn}\delta _{n}\right)\times {\acute {\theta }}_{c}(a_{c})$

${\frac {\partial Q}{\partial w_{pc}}}={\frac {\partial Q}{\partial a_{c}}}{\frac {\partial a_{c}}{\partial w_{pc}}}=\delta _{c}b_{p}$

همان‌طور که در خط پیشین دیدیم برای به‌دست آوردن گرادیان نسبت به $w_{pc}$ به دو مقدار نیاز داریم ورودی به سلول عصبی $c$ از سلول عصبی $p$ که همان $b_{p}$ است و راحت به‌دست می‌آید و $\delta _{c}$ که از روش بازگشتی به‌دست می‌آید و بستگی به آن $\delta$ ‌هایی لابه بعد دارد که سلول $c$ به آن‌ها وصل است، به‌طور دقیقتر $\delta _{c}=\left(\sum _{n}w_{cn}\delta _{n}\right)\times {\acute {\theta }}_{c}(a_{c})$ .

روش بازگشتی برای به‌دست آوردن $\delta$ ‌ها به این شکل کار می‌کند که ابتدا $\delta$ را برای سلول‌های لایه خروجی حساب می‌کنیم، و بعد لایه‌ها را به نوبت پایین می‌روم و برای هر سلول $\delta$ آن را با ترکیت $\delta$ ‌های لایه‌های بالایی آن طبق فرمول حساب می‌کنیم. محاسبه کردن $\delta$ برای لایه خروجی آسان است و مستقیماً با مشتق گرفتن از $Q$ به‌دست می‌آید.^[۵]

شهود

می‌دانیم هدف هر یادگیری با نظارت پیدا کردن تابعی است که از ورودی‌های مشاهده شده به خروجی‌های واقعی برسد. استفاده از ایده کاهش گرادیان در شبکه‌های عصبی منجر به تلاش برای پیدا کردن پارامترها در لایه‌های پنهان مدل به کمک پس‌انتشار می‌شود.

پیدا کردن مشتق وزن‌ها نسبت به تابع هزینه

به کمک قاعده زنجیره‌ای می‌توانیم مشتق تابع هزینه را نسبت به هر یک از وزن‌های شبکه عصبی ( $w_{ij}$ ) به‌دست بیاوریم:

${\frac {\partial E}{\partial w_{ij}}}={\frac {\partial E}{\partial o_{j}}}{\frac {\partial o_{j}}{\partial w_{ij}}}={\frac {\partial E}{\partial o_{j}}}{\frac {\partial o_{j}}{\partial {\text{net}}_{j}}}{\frac {\partial {\text{net}}_{j}}{\partial w_{ij}}}$

(معادله ۱)

حال سعی می‌کنیم آخرین کسر سمت راست را ساده کنیم (در ${\text{net}}_{j}$ فقط همان ترکیب خطی خروجی نورون فعلی به $w_{ij}$ وابسته است) :

${\frac {\partial {\text{net}}_{j}}{\partial w_{ij}}}={\frac {\partial }{\partial w_{ij}}}\left(\sum _{k=1}^{n}w_{kj}o_{k}\right)={\frac {\partial }{\partial w_{ij}}}w_{ij}o_{i}=o_{i}.$

(معادله ۲)

می‌دانیم مشتق خروجی نورون $j$ نسبت به ورودی‌های آن همان مشتق جزئی نسبت به تابع فعال‌سازی است. در واقع دلیل اصلی این‌که تابع فعال‌سازی باید مشتق‌پذیر باشد، محاسبه همین مشتق است:

${\frac {\partial o_{j}}{\partial {\text{net}}_{j}}}={\frac {\partial \varphi ({\text{net}}_{j})}{\partial {\text{net}}_{j}}}$

(معادله ۳)

برای مثال در حالتی که تابع فعال سازی، تابع لجستیک باشد:

${\frac {\partial o_{j}}{\partial {\text{net}}_{j}}}={\frac {\partial }{\partial {\text{net}}_{j}}}\varphi ({\text{net}}_{j})=\varphi ({\text{net}}_{j})(1-\varphi ({\text{net}}_{j}))=o_{j}(1-o_{j})$

حال طبق معادله ۱ یکی یکی بخش‌های مختلف را محاسبه می‌کنیم. کسر اول (مانند آنچه در زیر آمده‌است) با مشخص بودن خروجی و تابع هزینه به راحتی قابل محاسبه است.

${\frac {\partial E}{\partial o_{j}}}={\frac {\partial E}{\partial y}}$

(معادله ۴)

برای مثال اگر تابع هزینه همان مربعات خطاها باشد،

${\frac {\partial E}{\partial o_{j}}}={\frac {\partial E}{\partial y}}={\frac {\partial }{\partial y}}{\frac {1}{2}}(t-y)^{2}=y-t$

با فرض اینکه $E$ تابعی از همه نورون‌هایی است که از نورون $j$ ام به آن‌ها یال دارد ( $L=\{u,v,\dots ,w\}$ ):

${\frac {\partial E(o_{j})}{\partial o_{j}}}={\frac {\partial E(\mathrm {net} _{u},{\text{net}}_{v},\dots ,\mathrm {net} _{w})}{\partial o_{j}}}$

حال با گرفتن مشتق نسبت به $o_{j}$ فرم بازگشتی زیر به‌دست می‌آید که همان شکل کلی پس‌انتشار است.

${\frac {\partial E}{\partial o_{j}}}=\sum _{\ell \in L}\left({\frac {\partial E}{\partial {\text{net}}_{\ell }}}{\frac {\partial {\text{net}}_{\ell }}{\partial o_{j}}}\right)=\sum _{\ell \in L}\left({\frac {\partial E}{\partial o_{\ell }}}{\frac {\partial o_{\ell }}{\partial {\text{net}}_{\ell }}}{\frac {\partial {\text{net}}_{\ell }}{\partial o_{j}}}\right)=\sum _{\ell \in L}\left({\frac {\partial E}{\partial o_{\ell }}}{\frac {\partial o_{\ell }}{\partial {\text{net}}_{\ell }}}w_{j\ell }\right)$

(معادله ۵)

با استفاده از معادله ۱ تا ۵ و حذف بخش‌های مشترک، می‌توانیم مشتق $E$ را نسبت به وزن دلخواه $w_{ij}$ محاسبه کنیم.

{\frac {\partial E}{\partial w_{ij}}}={\frac {\partial E}{\partial o_{j}}}{\frac {\partial o_{j}}{\partial {\text{net}}_{j}}}{\frac {\partial {\text{net}}_{j}}{\partial w_{ij}}}={\frac {\partial E}{\partial o_{j}}}{\frac {\partial o_{j}}{\partial {\text{net}}_{j}}}o_{i}

{\frac {\partial E}{\partial w_{ij}}}=o_{i}\delta _{j}

که در آن تابع دلتا به صورت زیر است:

$\delta _{j}={\frac {\partial E}{\partial o_{j}}}{\frac {\partial o_{j}}{\partial {\text{net}}_{j}}}={\begin{cases}{\frac {\partial L(o_{j},t)}{\partial o_{j}}}{\frac {d\varphi ({\text{net}}_{j})}{d{\text{net}}_{j}}}&{\text{if }}j{\text{ is an output neuron,}}\\(\sum _{\ell \in L}w_{j\ell }\delta _{\ell }){\frac {d\varphi ({\text{net}}_{j})}{d{\text{net}}_{j}}}&{\text{if }}j{\text{ is an inner neuron.}}\end{cases}}$

برای مثال اگر $\varphi$ تابع لجستیک باشد:

$\delta _{j}={\frac {\partial E}{\partial o_{j}}}{\frac {\partial o_{j}}{\partial {\text{net}}_{j}}}={\begin{cases}(o_{j}-t_{j})o_{j}(1-o_{j})&{\text{if }}j{\text{ is an output neuron,}}\\(\sum _{\ell \in L}w_{j\ell }\delta _{\ell })o_{j}(1-o_{j})&{\text{if }}j{\text{ is an inner neuron.}}\end{cases}}$ در نهایت فرم تغییرات وزن به صورت زیر است:

$\Delta w_{ij}=-\eta {\frac {\partial E}{\partial w_{ij}}}=-\eta o_{i}\delta _{j}$

جستارهای وابسته

منابع

↑ مقایسه دو الگوریتم پس انتشار خطا و ژنتیک در یادگیری شبکه عصبی برای پیش‌بینی سری زمانی آشوبگونه. زهرا عربسرخی، محمدرضا اصغری اسکویی
↑ «Build with AI | DeepAI». DeepAI. بایگانی‌شده از اصلی در ۱۷ اکتبر ۲۰۱۸. دریافت‌شده در ۲۰۱۸-۱۰-۲۴.
↑ A., Nielsen, Michael (2015). "Neural Networks and Deep Learning" (به انگلیسی). Archived from the original on 22 October 2018. Retrieved 23 October 2018. {{cite journal}}: Cite journal requires |journal= (help)
↑ A., Nielsen, Michael (2015). "Neural Networks and Deep Learning" (به انگلیسی). Archived from the original on 22 October 2018. Retrieved 23 October 2018. {{cite journal}}: Cite journal requires |journal= (help)
↑ Russell, Stuart; results, search (2009-12-11). Artificial Intelligence: A Modern Approach (به انگلیسی) (3 ed.). Boston Columbus Indianapolis New York San Francisco Upper Saddle River Amsterdam, Cape Town Dubai London Madrid Milan Munich Paris Montreal Toronto Delhi Mexico City Sao Paulo Sydney Hong Kong Seoul Singapore Taipei Tokyo: Pearson. p. 578.

[1] مقایسه دو الگوریتم پس انتشار خطا و ژنتیک در یادگیری شبکه عصبی برای پیش‌بینی سری زمانی آشوبگونه. زهرا عربسرخی، محمدرضا اصغری اسکویی

[2] «Build with AI | DeepAI». DeepAI. بایگانی‌شده از اصلی در ۱۷ اکتبر ۲۰۱۸. دریافت‌شده در ۲۰۱۸-۱۰-۲۴.

[3] A., Nielsen, Michael (2015). "Neural Networks and Deep Learning" (به انگلیسی). Archived from the original on 22 October 2018. Retrieved 23 October 2018. {{cite journal}}: Cite journal requires |journal= (help)

[4] A., Nielsen, Michael (2015). "Neural Networks and Deep Learning" (به انگلیسی). Archived from the original on 22 October 2018. Retrieved 23 October 2018. {{cite journal}}: Cite journal requires |journal= (help)

[5] Russell, Stuart; results, search (2009-12-11). Artificial Intelligence: A Modern Approach (به انگلیسی) (3 ed.). Boston Columbus Indianapolis New York San Francisco Upper Saddle River Amsterdam, Cape Town Dubai London Madrid Milan Munich Paris Montreal Toronto Delhi Mexico City Sao Paulo Sydney Hong Kong Seoul Singapore Taipei Tokyo: Pearson. p. 578.

[۱]

[۲]

[۳]

[۴]

[۵]