تابع فعالسازی

در هوش مصنوعی، تابع فعالسازی یک گره، خروجی آن گره را با یک ورودی یا مجموعه ای از ورودی‌ها تعریف می‌کند. یک مدار مجتمع استاندارد می‌تواند به عنوان یک الکترونیک دیجیتال از توابع فعال سازی دیده شود که بسته به ورودی می‌تواند «روشن» (۱) یا «خاموش» (۰) باشد. این مشابه پرسپترون خطی در شبکه‌های عصبی است. با این حال، تنها توابع فعال‌سازی غیرخطی به چنین شبکه‌هایی اجازه می‌دهند تا مسائل غیر ضروری را تنها با استفاده از تعداد کمی از گره‌ها محاسبه کنند و چنین توابع فعال‌سازی غیرخطی نامیده می‌شوند.^[۱]

طبقه‌بندی توابع فعالسازی در شبکه‌های عصبی[ویرایش]

رایج‌ترین توابع فعالسازی را در شبکه عصبی می‌توان می‌توان به سه دسته تقسیم کرد: توابع فعالسازی پله‌ای، توابع فعالسازی خطی، توابع فعالسازی غیر خطی.^[۲]

توابع فعالسازی پله دودویی[ویرایش]

در این نوع توابع، ابتدا یک آستانه‌ای در نظر گرفته می‌شود و با توجه به آن تعیین می‌شود که آیا گره فعال می‌شود یا خیر. این نوع توابع در دامنه‌ای که مشتق پذیر هستند، مشتقی برابر صفر دارند و به همین دلیل استفاده از روند پس‌انتشار برای آن‌ها با مشکل همراه است.

توابع فعالسازی خطی[ویرایش]

این نوع توابع، جمع ورودی‌های هر گره را در خروجی قرار می‌دهد. این توابع مقادیر ورودی را در بازه خاصی قرار نمی‌دهند. در این نوع توابع نیز به این دلیل که مشتق برابر یک عدد ثابت است نمی‌توان از روند پس‌انتشار استفاده کرد. در زمان‌هایی که پارامترها و داده‌های مسئله زیاد و پیچیده می‌شوند استفاده از این نوع توابع فعالسازی توصیه نمی‌شود.

توابع فعالسازی غیر خطی[ویرایش]

این نوع توابع بیشتر از سایر توابع فعالسازی در شبکه‌های عصبی مورد استفاده قرار می‌گیرند و وفق پذیری بالایی با داده‌های پیچیده ورودی دارند. در این نوع توابع استفاده از روند پس‌انتشار به راحتی امکان‌پذیر است.

مقایسهٔ بین توابع فعالسازی[ویرایش]

توابع فعال سازی متعددی وجود دارد. مقاله اصلی هینتون و همکاران در سال ۲۰۱۲ در مورد تشخیص خودکار گفتار از یک تابع فعال سازی لجستیک سیگموئید استفاده می‌کند.^[۳] معماری چشم‌انداز کامپیوتر AlexNet 2012 از تابع فعال سازی یکسوساز استفاده می‌کند، همان‌طور که ResNet معماری بینایی کامپیوتری Seminal 2015 نیز استفاده می‌کند. مدل پردازش زبان اولیه 2018 BERT از نسخه روان ReLU، یعنی GELU استفاده می‌کند.^[۴]

علاوه بر عملکرد تجربی، توابع فعالسازی دارای ویژگی‌های ریاضی مختلفی نیز هستند:

غیرخطی

وقتی تابع فعال‌سازی غیرخطی است، می‌توان ثابت کرد که یک شبکه عصبی دو لایه یک تقریب‌کننده تابع جهانی است.^[۵] این به عنوان قضیه تقریب جهانی شناخته می‌شود. تابع فعال سازی هویت این ویژگی را برآورده نمی‌کند. وقتی چندین لایه از تابع فعال سازی هویت استفاده می‌کنند، کل شبکه معادل یک مدل تک لایه است.

دامنه

هنگامی که محدوده تابع فعال سازی محدود است، روش‌های تمرینی مبتنی بر گرادیان پایدارتر هستند، زیرا ارائه الگو به‌طور قابل توجهی تنها بر وزن‌های محدود تأثیر می‌گذارد. زمانی که دامنه بی‌نهایت باشد، تمرین عموماً کارآمدتر است زیرا ارائه الگو به‌طور قابل توجهی بر بیشتر وزنه‌ها تأثیر می‌گذارد. در مورد دوم، نرخ‌های یادگیری کمتری معمولاً ضروری است.

مشتق‌پذیری پیوسته

این ویژگی برای فعال کردن روش‌های بهینه‌سازی مبتنی بر گرادیان مطلوب است (تابع فعالسازی یکسوساز به‌طور پیوسته قابل تمایز نیست و مشکلاتی با بهینه‌سازی مبتنی بر گرادیان دارد، اما همچنان امکان‌پذیر است). تابع فعال‌سازی مرحله باینری در ۰ قابل تمایز نیست و برای تمام مقادیر دیگر به ۰ متمایز می‌شود، بنابراین روش‌های مبتنی بر گرادیان نمی‌توانند با آن پیشرفتی داشته باشند.^[۶]

این خصوصیات به‌طور قاطع بر عملکرد تأثیر نمی‌گذارند و تنها ویژگی‌هایی نیستند که ممکن است مفید باشند.

جدول توابع فعالسازی[ویرایش]

جدول زیر ویژگی‌های چندین تابع فعال سازی را مقایسه می‌کند:


نام	تابع	مشتق	بازه	همواری
همانی	$x$	۱	$(-\infty ,\infty )$	$C^{\infty }$
پله	${\begin{cases}0&{\text{if }}x<0\\1&{\text{if }}x\geq 0\end{cases}}$	$0$	$\{0,1\}$	$C^{-1}$
لجستیک، سیگموید	$\sigma (x)\doteq {\frac {1}{1+e^{-x}}}$	$\sigma (x)(1-\sigma (x))$	$(0,1)$	$C^{\infty }$
هذلولوی	$\tanh(x)\doteq {\frac {e^{x}-e^{-x}}{e^{x}+e^{-x}}}$	$1-g(x)^{2}$	$(-1,1)$	$C^{\infty }$
یکسوساز^[۷]	${\begin{aligned}(x)^{+}\doteq {}&{\begin{cases}0&{\text{if }}x\leq 0\\x&{\text{if }}x>0\end{cases}}\\={}&\max(0,x)=x{\textbf {1}}_{x>0}\end{aligned}}$	${\begin{cases}0&{\text{if }}x<0\\1&{\text{if }}x>0\\{\text{undefined}}&{\text{if }}x=0\end{cases}}$	$[0,\infty )$	$C^{0}$
GELU^[۴]	${\begin{aligned}&{\frac {1}{2}}x\left(1+{\text{erf}}\left({\frac {x}{\sqrt {2}}}\right)\right)\\{}={}&x\Phi (x)\end{aligned}}$	$\Phi (x)+x\phi (x)$	$(-0.17\ldots ,\infty )$	$C^{\infty }$
Softplus^[۸]	$\ln \left(1+e^{x}\right)$	${\frac {1}{1+e^{-x}}}$	$(0,\infty )$	$C^{\infty }$
ELU^[۹]	${\begin{cases}\alpha \left(e^{x}-1\right)&{\text{if }}x\leq 0\\x&{\text{if }}x>0\end{cases}}$ with parameter $\alpha$	${\begin{cases}\alpha e^{x}&{\text{if }}x<0\\1&{\text{if }}x>0\\1&{\text{if }}x=0{\text{ and }}\alpha =1\end{cases}}$	$(-\alpha ,\infty )$	${\begin{cases}C^{1}&{\text{if }}\alpha =1\\C^{0}&{\text{otherwise}}\end{cases}}$
SELU^[۱۰]	$\lambda {\begin{cases}\alpha (e^{x}-1)&{\text{if }}x<0\\x&{\text{if }}x\geq 0\end{cases}}$ $\lambda =1.0507$ $\alpha =1.67326$	$\lambda {\begin{cases}\alpha e^{x}&{\text{if }}x<0\\1&{\text{if }}x\geq 0\end{cases}}$	$(-\lambda \alpha ,\infty )$	$C^{0}$
Leaky ReLU^[۱۱]	${\begin{cases}0.01x&{\text{if }}x<0\\x&{\text{if }}x\geq 0\end{cases}}$	${\begin{cases}0.01&{\text{if }}x<0\\1&{\text{if }}x\geq 0\\{\text{undefined}}&{\text{if }}x=0\end{cases}}$	$(-\infty ,\infty )$	$C^{0}$
PReLU^[۱۲]	${\begin{cases}\alpha x&{\text{if }}x<0\\x&{\text{if }}x\geq 0\end{cases}}$	${\begin{cases}\alpha &{\text{if }}x<0\\1&{\text{if }}x\geq 0\end{cases}}$	$(-\infty ,\infty )$	$C^{0}$
Sigmoid linear unit^[۱۳]	${\frac {x}{1+e^{-x}}}$	${\frac {1+e^{-x}+xe^{-x}}{\left(1+e^{-x}\right)^{2}}}$	$[-0.278\ldots ,\infty )$	$C^{\infty }$
گاوسی	$e^{-x^{2}}$	$-2xe^{-x^{2}}$	$(0,1]$	$C^{\infty }$

جدول زیر توابع فعال‌سازی را فهرست می‌کند که توابع یک برابر x از لایه یا لایه‌های قبلی نیستند:

نام	تابع	مشتق	بازه	همواری
بیشینه هموار	${\frac {e^{x_{i}}}{\sum _{j=1}^{J}e^{x_{j}}}}$	$g_{i}\left({\vec {x}}\right)\left(\delta _{ij}-g_{j}\left({\vec {x}}\right)\right)$	$(0,1)$	$C^{\infty }$
Maxout^[۱۴]	$\max _{i}x_{i}$	${\begin{cases}1&{\text{if }}j={\underset {i}{\operatorname {argmax} }}\,x_{i}\\0&{\text{if }}j\neq {\underset {i}{\operatorname {argmax} }}\,x_{i}\end{cases}}$	$(-\infty ,\infty )$	$C^{0}$

جستارهای وابسته[ویرایش]

منابع[ویرایش]

↑ Hinkelmann, Knut. "Neural Networks, p. 7" (PDF). University of Applied Sciences Northwestern Switzerland. Archived from the original (PDF) on 2018-10-06. Retrieved 2018-10-06.
↑ Samson, Hasara (2020-06-24). "Getting to know Activation Functions in Neural Networks". Medium (به انگلیسی). Retrieved 2022-12-30.
↑ Hinton, Geoffrey; Deng, Li; Deng, Li; Yu, Dong; Dahl, George; Mohamed, Abdel-rahman; Jaitly, Navdeep; Senior, Andrew; Vanhoucke, Vincent; Nguyen, Patrick; Sainath, Tara; Kingsbury, Brian (2012). "Deep Neural Networks for Acoustic Modeling in Speech Recognition". IEEE Signal Processing Magazine. 29 (6): 82–97. doi:10.1109/MSP.2012.2205597. S2CID 206485943.
↑ ^۴٫۰ ^۴٫۱ Hendrycks, Dan; Gimpel, Kevin (2016). "Gaussian Error Linear Units (GELUs)". arXiv:1606.08415 [cs.LG].
↑ Cybenko, G. (December 1989). "Approximation by superpositions of a sigmoidal function". Mathematics of Control, Signals, and Systems (به انگلیسی). 2 (4): 303–314. doi:10.1007/BF02551274. ISSN 0932-4194. S2CID 3958369.
↑ Snyman, Jan (3 March 2005). Practical Mathematical Optimization: An Introduction to Basic Optimization Theory and Classical and New Gradient-Based Algorithms. Springer Science & Business Media. ISBN 978-0-387-24348-1.
↑ Nair, Vinod; Hinton, Geoffrey E. (2010), "Rectified Linear Units Improve Restricted Boltzmann Machines", 27th International Conference on International Conference on Machine Learning, ICML'10, USA: Omnipress, pp. 807–814, ISBN 978-1-60558-907-7
↑ Glorot, Xavier; Bordes, Antoine; Bengio, Yoshua (2011). "Deep sparse rectifier neural networks" (PDF). International Conference on Artificial Intelligence and Statistics.
↑ Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (2015-11-23). "Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)". arXiv:1511.07289 [cs.LG].
↑ Klambauer, Günter; Unterthiner, Thomas; Mayr, Andreas; Hochreiter, Sepp (2017-06-08). "Self-Normalizing Neural Networks". Advances in Neural Information Processing Systems. 30 (2017). arXiv:1706.02515. Bibcode:2017arXiv170602515K.
↑ Maas, Andrew L.; Hannun, Awni Y.; Ng, Andrew Y. (June 2013). "Rectifier nonlinearities improve neural network acoustic models". Proc. ICML. 30 (1). S2CID 16489696.
↑ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015-02-06). "Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification". arXiv:1502.01852 [cs.CV].
↑ Atto, Abdourrahmane M.; Pastor, Dominique; Mercier, Grégoire (2008), "Smooth sigmoid wavelet shrinkage for non-parametric estimation" (PDF), 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, doi:10.1109/ICASSP.2008.4518347, S2CID 9959057
↑ Goodfellow, Ian J.; Warde-Farley, David; Mirza, Mehdi; Courville, Aaron; Bengio, Yoshua (2013). "Maxout Networks". JMLR Workshop and Conference Proceedings. 28 (3): 1319–1327. arXiv:1302.4389. Bibcode:2013arXiv1302.4389G.

[1] Hinkelmann, Knut. "Neural Networks, p. 7" (PDF). University of Applied Sciences Northwestern Switzerland. Archived from the original (PDF) on 2018-10-06. Retrieved 2018-10-06.

[2] Samson, Hasara (2020-06-24). "Getting to know Activation Functions in Neural Networks". Medium (به انگلیسی). Retrieved 2022-12-30.

[3] Hinton, Geoffrey; Deng, Li; Deng, Li; Yu, Dong; Dahl, George; Mohamed, Abdel-rahman; Jaitly, Navdeep; Senior, Andrew; Vanhoucke, Vincent; Nguyen, Patrick; Sainath, Tara; Kingsbury, Brian (2012). "Deep Neural Networks for Acoustic Modeling in Speech Recognition". IEEE Signal Processing Magazine. 29 (6): 82–97. doi:10.1109/MSP.2012.2205597. S2CID 206485943.

[ReferenceA-4] ۴٫۰ ^۴٫۱ Hendrycks, Dan; Gimpel, Kevin (2016). "Gaussian Error Linear Units (GELUs)". arXiv:1606.08415 [cs.LG].

[5] Cybenko, G. (December 1989). "Approximation by superpositions of a sigmoidal function". Mathematics of Control, Signals, and Systems (به انگلیسی). 2 (4): 303–314. doi:10.1007/BF02551274. ISSN 0932-4194. S2CID 3958369.

[6] Snyman, Jan (3 March 2005). Practical Mathematical Optimization: An Introduction to Basic Optimization Theory and Classical and New Gradient-Based Algorithms. Springer Science & Business Media. ISBN 978-0-387-24348-1.

[7] Nair, Vinod; Hinton, Geoffrey E. (2010), "Rectified Linear Units Improve Restricted Boltzmann Machines", 27th International Conference on International Conference on Machine Learning, ICML'10, USA: Omnipress, pp. 807–814, ISBN 978-1-60558-907-7

[8] Glorot, Xavier; Bordes, Antoine; Bengio, Yoshua (2011). "Deep sparse rectifier neural networks" (PDF). International Conference on Artificial Intelligence and Statistics.

[9] Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (2015-11-23). "Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)". arXiv:1511.07289 [cs.LG].

[10] Klambauer, Günter; Unterthiner, Thomas; Mayr, Andreas; Hochreiter, Sepp (2017-06-08). "Self-Normalizing Neural Networks". Advances in Neural Information Processing Systems. 30 (2017). arXiv:1706.02515. Bibcode:2017arXiv170602515K.

[11] Maas, Andrew L.; Hannun, Awni Y.; Ng, Andrew Y. (June 2013). "Rectifier nonlinearities improve neural network acoustic models". Proc. ICML. 30 (1). S2CID 16489696.

[12] He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015-02-06). "Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification". arXiv:1502.01852 [cs.CV].

[refssbs1-13] Atto, Abdourrahmane M.; Pastor, Dominique; Mercier, Grégoire (2008), "Smooth sigmoid wavelet shrinkage for non-parametric estimation" (PDF), 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, doi:10.1109/ICASSP.2008.4518347, S2CID 9959057

[14] Goodfellow, Ian J.; Warde-Farley, David; Mirza, Mehdi; Courville, Aaron; Bengio, Yoshua (2013). "Maxout Networks". JMLR Workshop and Conference Proceedings. 28 (3): 1319–1327. arXiv:1302.4389. Bibcode:2013arXiv1302.4389G.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]

[۱۴]