تابع فعالسازی
در هوش مصنوعی، تابع فعالسازی یک گره، خروجی آن گره را با یک ورودی یا مجموعه ای از ورودیها تعریف میکند. یک مدار مجتمع استاندارد میتواند به عنوان یک الکترونیک دیجیتال از توابع فعال سازی دیده شود که بسته به ورودی میتواند «روشن» (۱) یا «خاموش» (۰) باشد. این مشابه پرسپترون خطی در شبکههای عصبی است. با این حال، تنها توابع فعالسازی غیرخطی به چنین شبکههایی اجازه میدهند تا مسائل غیر ضروری را تنها با استفاده از تعداد کمی از گرهها محاسبه کنند و چنین توابع فعالسازی غیرخطی نامیده میشوند.[۱]
طبقهبندی توابع فعالسازی در شبکههای عصبی
[ویرایش]رایجترین توابع فعالسازی را در شبکه عصبی میتوان میتوان به سه دسته تقسیم کرد: توابع فعالسازی پلهای، توابع فعالسازی خطی، توابع فعالسازی غیر خطی.[۲]
توابع فعالسازی پله دودویی
[ویرایش]در این نوع توابع، ابتدا یک آستانهای در نظر گرفته میشود و با توجه به آن تعیین میشود که آیا گره فعال میشود یا خیر. این نوع توابع در دامنهای که مشتق پذیر هستند، مشتقی برابر صفر دارند و به همین دلیل استفاده از روند پسانتشار برای آنها با مشکل همراه است.
توابع فعالسازی خطی
[ویرایش]این نوع توابع، جمع ورودیهای هر گره را در خروجی قرار میدهد. این توابع مقادیر ورودی را در بازه خاصی قرار نمیدهند. در این نوع توابع نیز به این دلیل که مشتق برابر یک عدد ثابت است نمیتوان از روند پسانتشار استفاده کرد. در زمانهایی که پارامترها و دادههای مسئله زیاد و پیچیده میشوند استفاده از این نوع توابع فعالسازی توصیه نمیشود.
توابع فعالسازی غیر خطی
[ویرایش]این نوع توابع بیشتر از سایر توابع فعالسازی در شبکههای عصبی مورد استفاده قرار میگیرند و وفق پذیری بالایی با دادههای پیچیده ورودی دارند. در این نوع توابع استفاده از روند پسانتشار به راحتی امکانپذیر است.
مقایسهٔ بین توابع فعالسازی
[ویرایش]توابع فعال سازی متعددی وجود دارد. مقاله اصلی هینتون و همکاران در سال ۲۰۱۲ در مورد تشخیص خودکار گفتار از یک تابع فعال سازی لجستیک سیگموئید استفاده میکند.[۳] معماری چشمانداز کامپیوتر AlexNet 2012 از تابع فعال سازی یکسوساز استفاده میکند، همانطور که ResNet معماری بینایی کامپیوتری Seminal 2015 نیز استفاده میکند. مدل پردازش زبان اولیه 2018 BERT از نسخه روان ReLU، یعنی GELU استفاده میکند.[۴]
علاوه بر عملکرد تجربی، توابع فعالسازی دارای ویژگیهای ریاضی مختلفی نیز هستند:
غیرخطی
وقتی تابع فعالسازی غیرخطی است، میتوان ثابت کرد که یک شبکه عصبی دو لایه یک تقریبکننده تابع جهانی است.[۵] این به عنوان قضیه تقریب جهانی شناخته میشود. تابع فعال سازی هویت این ویژگی را برآورده نمیکند. وقتی چندین لایه از تابع فعال سازی هویت استفاده میکنند، کل شبکه معادل یک مدل تک لایه است.
دامنه
هنگامی که محدوده تابع فعال سازی محدود است، روشهای تمرینی مبتنی بر گرادیان پایدارتر هستند، زیرا ارائه الگو بهطور قابل توجهی تنها بر وزنهای محدود تأثیر میگذارد. زمانی که دامنه بینهایت باشد، تمرین عموماً کارآمدتر است زیرا ارائه الگو بهطور قابل توجهی بر بیشتر وزنهها تأثیر میگذارد. در مورد دوم، نرخهای یادگیری کمتری معمولاً ضروری است.
مشتقپذیری پیوسته
این ویژگی برای فعال کردن روشهای بهینهسازی مبتنی بر گرادیان مطلوب است (تابع فعالسازی یکسوساز بهطور پیوسته قابل تمایز نیست و مشکلاتی با بهینهسازی مبتنی بر گرادیان دارد، اما همچنان امکانپذیر است). تابع فعالسازی مرحله باینری در ۰ قابل تمایز نیست و برای تمام مقادیر دیگر به ۰ متمایز میشود، بنابراین روشهای مبتنی بر گرادیان نمیتوانند با آن پیشرفتی داشته باشند.[۶]
این خصوصیات بهطور قاطع بر عملکرد تأثیر نمیگذارند و تنها ویژگیهایی نیستند که ممکن است مفید باشند.
جدول توابع فعالسازی
[ویرایش]جدول زیر ویژگیهای چندین تابع فعال سازی را مقایسه میکند:
نام | طرح | تابع | مشتق | بازه | همواری |
---|---|---|---|---|---|
همانی | ۱ | ||||
پله | |||||
لجستیک، سیگموید | |||||
هذلولوی | |||||
یکسوساز[۷] | |||||
GELU[۴] | |||||
Softplus[۸] | |||||
ELU[۹] |
|
||||
SELU[۱۰] |
|
||||
Leaky ReLU[۱۱] | |||||
PReLU[۱۲] | |||||
Sigmoid linear unit[۱۳] | |||||
گاوسی |
جدول زیر توابع فعالسازی را فهرست میکند که توابع یک برابر x از لایه یا لایههای قبلی نیستند:
نام | تابع | مشتق | بازه | همواری |
---|---|---|---|---|
بیشینه هموار | ||||
Maxout[۱۴] |
جستارهای وابسته
[ویرایش]منابع
[ویرایش]- ↑ Hinkelmann, Knut. "Neural Networks, p. 7" (PDF). University of Applied Sciences Northwestern Switzerland. Archived from the original (PDF) on 2018-10-06. Retrieved 2018-10-06.
- ↑ Samson, Hasara (2020-06-24). "Getting to know Activation Functions in Neural Networks". Medium (به انگلیسی). Retrieved 2022-12-30.
- ↑ Hinton, Geoffrey; Deng, Li; Deng, Li; Yu, Dong; Dahl, George; Mohamed, Abdel-rahman; Jaitly, Navdeep; Senior, Andrew; Vanhoucke, Vincent; Nguyen, Patrick; Sainath, Tara; Kingsbury, Brian (2012). "Deep Neural Networks for Acoustic Modeling in Speech Recognition". IEEE Signal Processing Magazine. 29 (6): 82–97. doi:10.1109/MSP.2012.2205597. S2CID 206485943.
- ↑ ۴٫۰ ۴٫۱ Hendrycks, Dan; Gimpel, Kevin (2016). "Gaussian Error Linear Units (GELUs)". arXiv:1606.08415 [cs.LG].
- ↑ Cybenko, G. (December 1989). "Approximation by superpositions of a sigmoidal function". Mathematics of Control, Signals, and Systems (به انگلیسی). 2 (4): 303–314. doi:10.1007/BF02551274. ISSN 0932-4194. S2CID 3958369.
- ↑ Snyman, Jan (3 March 2005). Practical Mathematical Optimization: An Introduction to Basic Optimization Theory and Classical and New Gradient-Based Algorithms. Springer Science & Business Media. ISBN 978-0-387-24348-1.
- ↑ Nair, Vinod; Hinton, Geoffrey E. (2010), "Rectified Linear Units Improve Restricted Boltzmann Machines", 27th International Conference on International Conference on Machine Learning, ICML'10, USA: Omnipress, pp. 807–814, ISBN 978-1-60558-907-7
- ↑ Glorot, Xavier; Bordes, Antoine; Bengio, Yoshua (2011). "Deep sparse rectifier neural networks" (PDF). International Conference on Artificial Intelligence and Statistics.
- ↑ Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (2015-11-23). "Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)". arXiv:1511.07289 [cs.LG].
- ↑ Klambauer, Günter; Unterthiner, Thomas; Mayr, Andreas; Hochreiter, Sepp (2017-06-08). "Self-Normalizing Neural Networks". Advances in Neural Information Processing Systems. 30 (2017). arXiv:1706.02515. Bibcode:2017arXiv170602515K.
- ↑ Maas, Andrew L.; Hannun, Awni Y.; Ng, Andrew Y. (June 2013). "Rectifier nonlinearities improve neural network acoustic models". Proc. ICML. 30 (1). S2CID 16489696.
- ↑ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015-02-06). "Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification". arXiv:1502.01852 [cs.CV].
- ↑ Atto, Abdourrahmane M.; Pastor, Dominique; Mercier, Grégoire (2008), "Smooth sigmoid wavelet shrinkage for non-parametric estimation" (PDF), 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, doi:10.1109/ICASSP.2008.4518347, S2CID 9959057
- ↑ Goodfellow, Ian J.; Warde-Farley, David; Mirza, Mehdi; Courville, Aaron; Bengio, Yoshua (2013). "Maxout Networks". JMLR Workshop and Conference Proceedings. 28 (3): 1319–1327. arXiv:1302.4389. Bibcode:2013arXiv1302.4389G.