شبکه‌‌ی عصبی پیچشی: تفاوت میان نسخه‌ها

از ویکی‌پدیا، دانشنامهٔ آزاد
محتوای حذف‌شده محتوای افزوده‌شده
Persia (بحث | مشارکت‌ها)
ابرابزار
P.eldar (بحث | مشارکت‌ها)
ایجاد شده توسط ترجمهٔ صفحهٔ «Convolutional neural network»
خط ۱: خط ۱:
'''شبکه‌های عصبی پیچشی''' (convolutional neural network یا CNN) رده‌ای از[[شبکه عصبی عمیق| شبکه‌های عصبی عمیق]] هستند که معمولاً برای انجام تحلیل‌های تصویری و یا گفتاری در [[یادگیری ماشین]] استفاده می‌شوند.
شبکه‌های عصبی پیچشی (convolutional neural network یا CNN) رده‌ای از[[شبکه‌ عصبی عمیق| شبکه‌های عصبی عمیق]] هستند که معمولاً برای انجام تحلیل‌های تصویری و یا گفتاری در [[یادگیری ماشین]] استفاده می‌شوند.


شبکه‌های عصبی پیچشی به منظور کمینه کردن پیش‌پردازش‌ها از گونه‌ای از[[پرسپترون| پرسپترون]]<nowiki/>های چندلایه استفاده می‌کنند.<ref name="LeCun">{{cite web|url=http://yann.lecun.com/exdb/lenet/|title=LeNet-5, convolutional neural networks|accessdate=16 November 2013|last=LeCun|first=Yann}}</ref> به جای شبکه عصبی پیچشی گاهی از این شبکه‌ها با نام شبکه‌های عصبی تغییرناپذیر با انتقال (shift invariant) یا تغییرناپذیر با فضا (space invariant) هم یاد می‌شود. این نام‌گذاری بر مبنای ساختار این شبکه است که در ادامه به آن اشاره خواهیم کرد.<ref name=":0">{{Cite journal|url=https://drive.google.com/file/d/0B65v6Wo67Tk5Zm03Tm1kaEdIYkE/view?usp=sharing|title=Shift-invariant pattern recognition neural network and its optical architecture|last=Zhang|first=Wei|date=1988|journal=Proceedings of annual conference of the Japan Society of Applied Physics|issue=|doi=|volume=|pmid=|access-date=|via=}}</ref><ref name=":1">{{Cite journal|url=https://drive.google.com/file/d/0B65v6Wo67Tk5ODRzZmhSR29VeDg/view?usp=sharing|title=Parallel distributed processing model with local space-invariant interconnections and its optical architecture|last=Zhang|first=Wei|date=1990|journal=Applied Optics|issue=32|doi=|volume=29|pmid=|access-date=|via=}}</ref>
شبکه‌های عصبی پیچشی به منظور کمینه کردن پیش‌پردازش‌ها از گونه‌ای از[[پرسپترون| پرسپترون‌]]<nowiki/>های چندلایه استفاده می‌کنند.<ref name="LeCun">{{cite web|url=http://yann.lecun.com/exdb/lenet/|title=LeNet-5, convolutional neural networks|accessdate=16 November 2013|last=LeCun|first=Yann}}</ref> به جای شبکه عصبی پیچشی گاهی از این شبکه‌ها با نام شبکه‌های عصبی تغییرناپذیر با انتقال (shift invariant) یا تغییرناپذیر با فضا (space invariant) هم یاد می‌شود. این نام‌گذاری بر مبنای ساختار این شبکه است که در ادامه به آن اشاره خواهیم کرد. <ref name=":0">{{Cite journal|url=https://drive.google.com/file/d/0B65v6Wo67Tk5Zm03Tm1kaEdIYkE/view?usp=sharing|title=Shift-invariant pattern recognition neural network and its optical architecture|last=Zhang|first=Wei|date=1988|journal=Proceedings of annual conference of the Japan Society of Applied Physics|issue=|doi=|volume=|pmid=|access-date=|via=}}</ref><ref name=":1">{{Cite journal|url=https://drive.google.com/file/d/0B65v6Wo67Tk5ODRzZmhSR29VeDg/view?usp=sharing|title=Parallel distributed processing model with local space-invariant interconnections and its optical architecture|last=Zhang|first=Wei|date=1990|journal=Applied Optics|issue=32|doi=|volume=29|pmid=|access-date=|via=}}</ref>


ساختار شبکه‌های پیچشی از فرآیندهای زیستی قشر بینایی گربه الهام گرفته‌شده‌است. این ساختار به گونه‌ای است که تک‌نورون‌ها تنها در یک ناحیه محدود به تحریک پاسخ می‌دهند که به آن ناحیه پذیرش گفته می‌شود.<ref name="robust face detection">{{Cite journal|url=http://www.iro.umontreal.ca/~pift6080/H09/documents/papers/sparse/matsugo_etal_face_expression_conv_nnet.pdf|title=Subject independent facial expression recognition with robust face detection using a convolutional neural network|last=Matusugu|first=Masakazu|last2=Katsuhiko Mori|journal=Neural Networks|accessdate=17 November 2013|issue=5|doi=10.1016/S0893-6080(03)00115-1|year=2003|volume=16|pages=555–559|last3=Yusuke Mitari|last4=Yuji Kaneda}}</ref> نواحی پذیرش نورون‌های مختلف به صورت جزئی با هم همپوشانی دارند به گونه ای که کل میدان دید را پوشش می‌دهند.
ساختار شبکه‌های پیچشی از فرآیندهای زیستی قشر بینایی گربه الهام گرفته‌شده‌است. این ساختار به گونه‌ای است که تک‌نورون‌ها تنها در یک ناحیه محدود به تحریک پاسخ می‌دهند که به آن ناحیه پذیرش گفته می‌شود.<ref name="robust face detection">{{cite journal|url=http://www.iro.umontreal.ca/~pift6080/H09/documents/papers/sparse/matsugo_etal_face_expression_conv_nnet.pdf|title=Subject independent facial expression recognition with robust face detection using a convolutional neural network|last=Matusugu|first=Masakazu|author2=Katsuhiko Mori|journal=Neural Networks|accessdate=17 November 2013|issue=5|doi=10.1016/S0893-6080(03)00115-1|year=2003|volume=16|pages=555–559|author3=Yusuke Mitari|author4=Yuji Kaneda}}</ref> نواحی پذیرش نورون‌های مختلف به صورت جزئی با هم همپوشانی دارند به گونه ای که کل میدان دید را پوشش می‌دهند.


شبکه‌های عصبی پیچشی نسبت به بقیه رویکردهای [[دسته‌بندی تصاویر]] به میزان کمتری از پیش‌پردازش استفاده می‌کنند. این امر به معنی آن است که شبکه معیارهایی را یادمی‌گیرد که در رویکردهای قبلی به صورت دستی یادگرفته‌می‌شدند. این استقلال از [[دانش پیشین]] و دست‌کاری‌های انسانی در شبکه‌های عصبی پیچشی یک مزیت اساسی است.
شبکه‌های عصبی پیچشی نسبت به بقیه رویکردهای [[دسته‌بندی تصاویر]] به میزان کمتری از پیش‌پردازش استفاده می‌کنند. این امر به معنی آن است که شبکه معیارهایی را یاد می‌گیرد که در رویکردهای قبلی به صورت دستی یاد گرفته‌می‌شدند. این استقلال از [[دانش پیشین]] و دست‌کاری‌های انسانی در شبکه‌های عصبی پیچشی یک مزیت اساسی است.


تا کنون کاربردهای مختلفی برای شبکه‌های عصبی از جمله در بینایی کامپیوتر، [[سیستم‌های پیشنهاددهنده]] و [[پردازش زبان طبیعی]] پیشنهاد شده‌اند.<ref>{{Cite journal|url=http://doi.acm.org/10.1145/1390156.1390177|title=A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning|last=Collobert|first=Ronan|last2=Weston|first2=Jason|date=2008-01-01|journal=Proceedings of the 25th International Conference on Machine Learning|publisher=ACM|doi=10.1145/1390156.1390177|series=ICML '08|location=New York, NY, USA|pages=160–167|isbn=978-1-60558-205-4}}</ref>
تا کنون کاربردهای مختلفی برای شبکه‌های عصبی از جمله در بینایی کامپیوتر، [[سیستم‌های پیشنهاددهنده]] و [[پردازش زبان طبیعی]] پیشنهاد شده‌اند.
<ref>{{Cite journal|url=http://doi.acm.org/10.1145/1390156.1390177|title=A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning|last=Collobert|first=Ronan|last2=Weston|first2=Jason|date=2008-01-01|journal=Proceedings of the 25th International Conference on Machine Learning|publisher=ACM|doi=10.1145/1390156.1390177|series=ICML '08|location=New York, NY, USA|pages=160–167|isbn=978-1-60558-205-4}}</ref>


== طراحی ==
== طراحی ==
یک شبکه عصبی پیچشی از یک لایه ورودی، یک لایه خروجی و تعدادی لایه پنهان تشکیل شده‌است. لایه‌های پنهان یا پیچشی هستند، یا تجمعی و یا کامل.
یک شبکه‌ عصبی پیچشی از یک لایه ورودی، یک لایه خروجی و تعدادی لایه پنهان تشکیل شده است. لایه‌های پنهان یا پیچشی هستند، یا تجمعی و یا کامل.



=== لایه‌های پیچشی ===
=== لایه‌های پیچشی ===
لایه‌های پیچشی یک عمل پیچش را روی ورودی اعمال می‌کنند، سپس نتیجه را به لایه بعدی می‌دهند. این پیچش در واقع پاسخ یک تک‌نورون را به یک تحریک دیداری شبیه‌سازی می‌کند.<ref name="deeplearning">{{Cite web|url=http://deeplearning.net/tutorial/lenet.html|title=Convolutional Neural Networks (LeNet) – DeepLearning 0.1 documentation|accessdate=31 August 2013|website=DeepLearning 0.1|publisher=LISA Lab}}</ref>
لایه‌های پیچشی یک عمل پیچش را روی ورودی اعمال می‌کنند، سپس نتیجه را به لایه بعدی می‌دهند. این پیچش در واقع پاسخ یک تک‌نورون را به یک تحریک دیداری شبیه‌سازی می‌کند.<ref name="deeplearning">{{cite web|url=http://deeplearning.net/tutorial/lenet.html|title=Convolutional Neural Networks (LeNet) – DeepLearning 0.1 documentation|accessdate=31 August 2013|work=DeepLearning 0.1|publisher=LISA Lab}}</ref>


هر نورون پیچشی داده‌ها را تنها برای ناحیه پذیرش خودش پردازش می‌کند. مشبکه‌کردن به شبکه‌های پیچشی این اجازه را می‌دهد که انتقال، دوران و یا اعوجاج ورودی را تصحیح کنند.
هر نورون پیچشی داده‌ها را تنها برای ناحیه پذیرش خودش پردازش می‌کند. مشبکه‌کردن به شبکه‌های پیچشی این اجازه را می‌دهد که انتقال، دوران و یا اعوجاج ورودی را تصحیح کنند.



اگرچه [[شبکه عصبی پیشخور|شبکه‌های عصبی پیش‌خور]] کاملاً همبند می‌توانند برای یادگیری ویژگی‌ها و طبقه‌بندی داده به کار روند، این معماری در کاربرد برای تصاویر به کار نمی‌رود. در این حالت حتی برای یک شبکه کم‌عمق تعداد بسیار زیادی نورون لازم است. عمل پیچش یک راه‌حل برای این شرایط است که تعداد پارامترهای آزاد را به عمیق‌تر کردن شبکه کاهش می‌دهد.<ref>{{Cite book|url=https://www.worldcat.org/oclc/987790957|title=Guide to convolutional neural networks: a practical application to traffic-sign detection and classification|last=Habibi,|first=Aghdam, Hamed|others=Heravi, Elnaz Jahani,|isbn=978-3-319-57549-0|location=Cham, Switzerland|oclc=987790957}}</ref>
اگرچه [[شبکه عصبی پیشخور|شبکه‌های عصبی پیش‌خور]] کاملاً همبند می‌توانند برای یادگیری ویژگی‌ها و طبقه‌بندی داده به کار روند، این معماری در کاربرد برای تصاویر به کار نمی‌رود. در این حالت حتی برای یک شبکه کم‌عمق تعداد بسیار زیادی نورون لازم است. عمل پیچش یک راه‌حل برای این شرایط است که تعداد پارامترهای آزاد را به عمیق‌تر کردن شبکه کاهش می‌دهد.<ref>{{Cite book|url=https://www.worldcat.org/oclc/987790957|title=Guide to convolutional neural networks : a practical application to traffic-sign detection and classification|last=Habibi,|first=Aghdam, Hamed|others=Heravi, Elnaz Jahani,|isbn=9783319575490|location=Cham, Switzerland|oclc=987790957}}</ref>


=== لایه‌های تجمعی ===
=== لایه‌های تجمعی ===
شبکه‌های عصبی پیچشی ممکن است شامل لایه‌های تجمعی محلی یا سراسری باشند که خروجی‌های خوشه‌های نورونی در یک لایه را در یک تک‌نورون در لایه بعدی ترکیب می‌کند.<ref>{{Cite web|url=http://www.image-net.org/challenges/LSVRC/2012/supervision.pdf|title=ImageNet Classification with Deep Convolutional Neural Networks|accessdate=17 November 2013|last=Krizhevsky|first=Alex}}</ref> به عنوان مثال روش حداکثر تجمع (max pooling) حداکثر مقدار بین خوشه‌های نورونی در لایه پیشین استفاده می‌کند.<ref name="mcdns">{{Cite journal|url=http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=6248110|title=Multi-column deep neural networks for image classification|last=Ciresan|first=Dan|last2=Meier|first2=Ueli|date=June 2012|journal=2012 [[IEEE Conference on Computer Vision and Pattern Recognition]]|publisher=[[Institute of Electrical and Electronics Engineers]] (IEEE)|accessdate=2013-12-09|doi=10.1109/CVPR.2012.6248110|location=New York, NY|pages=3642–3649|arxiv=1202.2745v1|isbn=978-1-4673-1226-4|oclc=812295155|last3=Schmidhuber|first3=Jürgen}}</ref> مثال دیگر میانگین تجمع (average pooling) است که از مقدار میانگین خوشه‌های نورونی در لایه پیشین استفاده می‌کند.
شبکه‌های عصبی پیچشی ممکن است شامل لایه‌های تجمعی محلی یا سراسری باشند که خروجی های خوشه‌های نورونی در یک لایه را در یک تک‌نورون در لایه بعدی ترکیب می‌کند.<ref>{{cite web|url=http://www.image-net.org/challenges/LSVRC/2012/supervision.pdf|title=ImageNet Classification with Deep Convolutional Neural Networks|accessdate=17 November 2013|last=Krizhevsky|first=Alex}}</ref> به عنوان مثال روش حداکثر تجمع (max pooling) حداکثر مقدار بین خوشه‌های نورونی در لایه پیشین استفاده می‌کند.<ref name="mcdns">{{cite journal|url=http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=6248110|title=Multi-column deep neural networks for image classification|last1=Ciresan|first1=Dan|last2=Meier|first2=Ueli|date=June 2012|journal=2012 [[IEEE Conference on Computer Vision and Pattern Recognition]]|publisher=[[Institute of Electrical and Electronics Engineers]] (IEEE)|accessdate=2013-12-09|doi=10.1109/CVPR.2012.6248110|location=New York, NY|pages=3642–3649|arxiv=1202.2745v1|isbn=978-1-4673-1226-4|oclc=812295155|last3=Schmidhuber|first3=Jürgen}}</ref> مثال دیگر میانگین تجمع (‌‌‌average pooling) است که از مقدار میانگین خوشه‌های نورونی در لایه پیشین استفاده می‌کند.


=== کاملاً همبند ===
=== کاملاً همبند ===
لایه‌های کاملاً همبند، هر نورون در یک لایه را به هر نورون در لایه دیگر متصل می‌کنند. این رویکرد در اصل مشابه کاری است که در شبکه عصبی پرسپترون چند لایه (MLP) انجام می‌شود.
لایه‌های کاملاً همبند، هر نورون در یک لایه را به هر نورون در لایه دیگر متصل می‌کنند. این رویکرد در اصل مشابه کاری است که در شبکه عصبی پرسپترون چند لایه (MLP) انجام می‌شود.


=== وزن‌ها ===
=== وز‌ن‌ها ===
شبکه‌های عصبی پیچشی وزن‌ها را در لایه‌های پیچشی به اشتراک می‌گذارند که باعث می‌شود حداقل حافظه و بیشترین کارایی بدست بیاید.
شبکه‌های عصبی پیچشی وزن‌ها را در لایه‌های پیچشی به اشتراک می‌گذارند که باعث میشود حداقل حافظه و بیشترین کارایی بدست بیاید.


== شبکه‌های عصبی متأخر ==
== شبکه‌های عصبی متأخر ==
برخی شبکه‌های عصبی متأخر از معماری مشابهی استفاده می‌کنند، مخصوصاً آنهایی که برای [[تشخیص تصویر]] یا [[طبقه‌بندی]] استفاده می‌شوند.<ref name="video quality">{{Cite journal|url=http://hal.univ-nantes.fr/docs/00/28/74/26/PDF/A_convolutional_neural_network_approach_for_objective_video_quality_assessment_completefinal_manuscript.pdf|title=A Convolutional Neural Network Approach for Objective Video Quality Assessment|last=Le Callet|first=Patrick|last2=Christian Viard-Gaudin|journal=IEEE Transactions on Neural Networks|accessdate=17 November 2013|issue=5|doi=10.1109/TNN.2006.879766|year=2006|volume=17|pages=1316–1327|pmid=17001990|last3=Dominique Barba}}</ref>
برخی شبکه‌های عصبی متأخر از معماری مشابهی استفاده می‌کنند، مخصوصاً آنهایی که برای [[تشخیص تصویر]] یا [[طبقه‌بندی]] استفاده می‌شوند.<ref name="video quality">{{cite journal|url=http://hal.univ-nantes.fr/docs/00/28/74/26/PDF/A_convolutional_neural_network_approach_for_objective_video_quality_assessment_completefinal_manuscript.pdf|title=A Convolutional Neural Network Approach for Objective Video Quality Assessment|last=Le Callet|first=Patrick|author2=Christian Viard-Gaudin|journal=IEEE Transactions on Neural Networks|accessdate=17 November 2013|issue=5|doi=10.1109/TNN.2006.879766|year=2006|volume=17|pages=1316–1327|pmid=17001990|author3=Dominique Barba}}</ref>


== تاریخچه ==
== تاریخچه ==
شبکه‌های عصبی پیچشی مشابه سیستم پردازش دیداری
شبکه‌های عصبی پیچشی مشابه سیستم پردازش دیداری
در موجودات زنده عمل می‌کنند.
در موجودات زنده عمل می‌کنند.


=== نواحی پذیرش ===
=== نواحی پذیرش ===
کار مشترک هابل و ویسل در دهه‌های ۱۹۵۰ و ۱۹۶۰
کار مشترک هابل و ویسل در دهه‌های ۱۹۵۰ و ۱۹۶۰
نشان داد که قشرهای بینایی گربه و میمون از نورون‌هایی تشکیل شده‌است که به تنهایی به نواحی کوچی از میدان دید پاسخ (عصبی) می‌دهند. به این شرط که چشم‌ها حرکت نمی‌کنند، ناحیه‌ای از قشر بینایی که طی تحریک دیداری بر برانگیختن یک تک‌نورون تأثیر می‌گذارد به عنوان ناحیهٔ پذیرش شناخته می‌شود. سلول‌های همسایه نواحی پذیرش مشابه و همپوشایی دارند. اندازه ناحیه پذیرش و جایگاه آن به طور سیستماتیک در مکان‌های مختلف قشر متفاوت است.
نشان داد که قشرهای بینایی گربه و میمون از نورون‌هایی تشکیل شده است که به تنهایی به نواحی کوچی از میدان دید پاسخ (عصبی) می‌دهند. به این شرط که چشم‌ها حرکت نمی‌کنند، ناحیه‌ای از قشر بینایی که طی تحریک دیداری بر برانگیختن یک تک‌نورون تأثیر می‌گذارد به عنوان ناحیه‌ٔ پذیرش شناخته می‌شود.سلول‌های همسایه نواحی پذیرش مشابه و همپوشایی دارند. اندازه ناحیه پذیرش و جایگاه آن به طور سیستماتیک در مکان‌های مختلف قشر متفاوت است.

مقاله این دو در سال ۱۹۶۸ دو نوع سلول بینایی در مغز را معرفی کرد:<ref>{{Cite journal|title=Receptive fields and functional architecture of monkey striate cortex|last=Hubel|first=D. H.|last2=Wiesel|first2=T. N.|date=1968-03-01|journal=The Journal of Physiology|issue=1|doi=10.1113/jphysiol.1968.sp008455|volume=195|pages=215–243|issn=0022-3751|pmc=1557912|pmid=4966457}}</ref>
<br>
* سلول‌های ساده که خروجی آنها با لبه‌هایی که راستای مشخصی در ناحیه‌ی پذیرش دارند، بیشینه شده‌است.
* سلول‌های پیچیده که ناحیه پذیرش آنها بزرگتر است و خروجی آنها به گونه‌ای است که به جایگاه دقیق لبه‌ها در میدان دیداری حساس نیست.<br>

=== نئوکاگنیترون(Neocognitron)  ===

[[نئوکاگنیترون]] یک شبکه عصبی سلسله مراتبی چندلایه است که توسط کونیهیکو فوکوشیما در دهه ۱۹۸۰ معرفی شد. این شبکه برای تشخیص کاراکترهای دستخط و موارد دیگر در تشخیص الگو به کار میرفت. از این شبکه در ساخت شبکه‌های عصبی پیچشی الهام گرفته‌شده. نئوکاگنیترون خود از مدلی که هابل و ویتسل در سال ۱۹۵۹ پیشنهاد دادند الگو گرفته‌است. <ref>{{Cite journal|title=Deep learning|last=LeCun|first=Yann|last2=Bengio|first2=Yoshua|journal=Nature|issue=7553|doi=10.1038/nature14539|year=2015|volume=521|pages=436–444|pmid=26017442|last3=Hinton|first3=Geoffrey}}</ref> <ref name="intro">{{Cite journal|url=http://www.cs.princeton.edu/courses/archive/spr08/cos598B/Readings/Fukushima1980.pdf|title=Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position|last=Fukushima|first=Kunihiko|journal=Biological Cybernetics|accessdate=16 November 2013|issue=4|doi=10.1007/BF00344251|year=1980|volume=36|pages=193–202|pmid=7370364}}</ref>

در نئوکاگنیترون نیاز نیست واحدهایی که در مکان‌های متفاوت شبکه قرار گرفته‌اند در مرحله یادگیری وزن‌های یکسانی داشته‌باشند. این ایده در نسخه کتابیِ مقاله [[انتشار رو به عقب]] (backpropagation) مطرح شد (شکل ۱۴). ساختار نئوکاگنیترون‌ در سال ۱۹۸۸ برای اعمال به سیگنال‌های زمانی توسعه یافت.<ref>{{Cite book|url=http://psych.stanford.edu/~jlm/papers/PDP/Volume%201/Chap8_PDP86.pdf|title=Parallel Distributed Processing, Volume 1|last=David E. Rumelhart|last2=Geoffrey E. Hinton|last3=Ronald J. Wiliams|publisher=MIT Press|year=1986|isbn=9780262680530|editor-last=Rumelhart|editor-first=David E.|editor2-last=McClelland|editor2-first=James.L.|pages=319–362|chapter=Chapter 8 : Learning Internal Representations by ErrorPropagation|archivedate=2016-03-14}}</ref>{{clarify|date=September 2016}}<ref>{{Cite journal|url=http://papers.nips.cc/paper/20-an-artificial-neural-network-for-spatio-temporal-bipolar-patterns-application-to-phoneme-classification.pdf|title=An Artificial Neural Network for Spatio-Temporal Bipolar Patters: Application to Phoneme Classification|last=Homma|first=Toshiteru|last2=Les Atlas|journal=Advances in Neural Information Processing Systems|year=1988|volume=1|pages=31–40|last3=Robert Marks II}}</ref> طراحی نئوکاگنیترون در سال ۱۹۸۸ توسعه یافت در سال ۲۰۰۳ تعمیم پیدا کرد و در همان سال تسهیل و ساده‌سازی شد.<ref>Simard, Patrice, David Steinkraus, and John C. Platt. "Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis." In ICDAR, vol. 3, pp. 958-962. 2003.</ref>


==== له‌نت۵ (LeNet-5) ====
مقاله این دو در سال ۱۹۶۸ دو نوع سلول بینایی در مغز را معرفی کرد:<ref>{{Cite journal|title=Receptive fields and functional architecture of monkey striate cortex|last=Hubel|first=D. H.|last2=Wiesel|first2=T. N.|date=1968-03-01|journal=The Journal of Physiology|issue=1|doi=10.1113/jphysiol.1968.sp008455|volume=195|pages=215–243|issn=0022-3751|pmc=1557912|pmid=4966457}}</ref>
له‌نت۵ یک شبکه عصبی پیچشی پیش‌گام ۷ سطحی است که توسط له‌سان و همکارانش ابداع شده است.<ref name="lecun98">{{Cite journal|url=http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf|title=Gradient-based learning applied to document recognition|last=LeCun|first=Yann|last2=Léon Bottou|journal=Proceedings of the IEEE|accessdate=October 7, 2016|issue=11|doi=10.1109/5.726791|year=1998|volume=86|pages=2278–2324|last3=Yoshua Bengio|last4=Patrick Haffner}}</ref> این شبکه ارقام دست‌نویس را طبقه‌بندی می‌کند و توسط بانک‌های مختلفی برای شناسایی اعداد دست‌نویس روی چک‌ها به کار رفته‌است. عکس‌هایی که به عنوان ورودی به این شبکه داده‌ می‌شود ۳۲ * ۳۲ است که برای پردازش عکس‌ها با وضوح بالاتر لایه‌های پیچشی بیشتر و بزرگتی لازم است، بنابراین این روش محدود به منابع و قابلیت‌های محاسباتی است.
* سلول‌های ساده که خروجی آنها با لبه‌هایی که راستای مشخصی در ناحیهٔ پذیرش دارند، بیشینه شده‌است.
* سلول‌های پیچیده که ناحیه پذیرش آنها بزرگتر است و خروجی آنها به گونه‌ای است که به جایگاه دقیق لبه‌ها در میدان دیداری حساس نیست.


== منابع ==
== منابع ==
{{پانویس|30em}}
{{reflist|30em}}
[[رده:شبکه‌های عصبی مصنوعی]]
[[رده:شبکه‌های عصبی مصنوعی]]
[[رده:علوم محاسباتی اعصاب]]
[[رده:علوم محاسباتی اعصاب]]

نسخهٔ ‏۲۵ سپتامبر ۲۰۱۷، ساعت ۰۶:۴۹

شبکه‌های عصبی پیچشی (convolutional neural network یا CNN) رده‌ای از شبکه‌های عصبی عمیق هستند که معمولاً برای انجام تحلیل‌های تصویری و یا گفتاری در یادگیری ماشین استفاده می‌شوند.

شبکه‌های عصبی پیچشی به منظور کمینه کردن پیش‌پردازش‌ها از گونه‌ای از پرسپترون‌های چندلایه استفاده می‌کنند.[۱] به جای شبکه عصبی پیچشی گاهی از این شبکه‌ها با نام شبکه‌های عصبی تغییرناپذیر با انتقال (shift invariant) یا تغییرناپذیر با فضا (space invariant) هم یاد می‌شود. این نام‌گذاری بر مبنای ساختار این شبکه است که در ادامه به آن اشاره خواهیم کرد. [۲][۳]

ساختار شبکه‌های پیچشی از فرآیندهای زیستی قشر بینایی گربه الهام گرفته‌شده‌است. این ساختار به گونه‌ای است که تک‌نورون‌ها تنها در یک ناحیه محدود به تحریک پاسخ می‌دهند که به آن ناحیه پذیرش گفته می‌شود.[۴] نواحی پذیرش نورون‌های مختلف به صورت جزئی با هم همپوشانی دارند به گونه ای که کل میدان دید را پوشش می‌دهند.

شبکه‌های عصبی پیچشی نسبت به بقیه رویکردهای دسته‌بندی تصاویر به میزان کمتری از پیش‌پردازش استفاده می‌کنند. این امر به معنی آن است که شبکه معیارهایی را یاد می‌گیرد که در رویکردهای قبلی به صورت دستی یاد گرفته‌می‌شدند. این استقلال از دانش پیشین و دست‌کاری‌های انسانی در شبکه‌های عصبی پیچشی یک مزیت اساسی است.

تا کنون کاربردهای مختلفی برای شبکه‌های عصبی از جمله در بینایی کامپیوتر، سیستم‌های پیشنهاددهنده و پردازش زبان طبیعی پیشنهاد شده‌اند. [۵]

طراحی

یک شبکه‌ عصبی پیچشی از یک لایه ورودی، یک لایه خروجی و تعدادی لایه پنهان تشکیل شده است. لایه‌های پنهان یا پیچشی هستند، یا تجمعی و یا کامل.


لایه‌های پیچشی

لایه‌های پیچشی یک عمل پیچش را روی ورودی اعمال می‌کنند، سپس نتیجه را به لایه بعدی می‌دهند. این پیچش در واقع پاسخ یک تک‌نورون را به یک تحریک دیداری شبیه‌سازی می‌کند.[۶]

هر نورون پیچشی داده‌ها را تنها برای ناحیه پذیرش خودش پردازش می‌کند. مشبکه‌کردن به شبکه‌های پیچشی این اجازه را می‌دهد که انتقال، دوران و یا اعوجاج ورودی را تصحیح کنند.


اگرچه شبکه‌های عصبی پیش‌خور کاملاً همبند می‌توانند برای یادگیری ویژگی‌ها و طبقه‌بندی داده به کار روند، این معماری در کاربرد برای تصاویر به کار نمی‌رود. در این حالت حتی برای یک شبکه کم‌عمق تعداد بسیار زیادی نورون لازم است. عمل پیچش یک راه‌حل برای این شرایط است که تعداد پارامترهای آزاد را به عمیق‌تر کردن شبکه کاهش می‌دهد.[۷]

لایه‌های تجمعی

شبکه‌های عصبی پیچشی ممکن است شامل لایه‌های تجمعی محلی یا سراسری باشند که خروجی های خوشه‌های نورونی در یک لایه را در یک تک‌نورون در لایه بعدی ترکیب می‌کند.[۸] به عنوان مثال روش حداکثر تجمع (max pooling) حداکثر مقدار بین خوشه‌های نورونی در لایه پیشین استفاده می‌کند.[۹] مثال دیگر میانگین تجمع (‌‌‌average pooling) است که از مقدار میانگین خوشه‌های نورونی در لایه پیشین استفاده می‌کند.

کاملاً همبند

لایه‌های کاملاً همبند، هر نورون در یک لایه را به هر نورون در لایه دیگر متصل می‌کنند. این رویکرد در اصل مشابه کاری است که در شبکه عصبی پرسپترون چند لایه (MLP) انجام می‌شود.

وز‌ن‌ها

شبکه‌های عصبی پیچشی وزن‌ها را در لایه‌های پیچشی به اشتراک می‌گذارند که باعث میشود حداقل حافظه و بیشترین کارایی بدست بیاید.

شبکه‌های عصبی متأخر

برخی شبکه‌های عصبی متأخر از معماری مشابهی استفاده می‌کنند، مخصوصاً آنهایی که برای تشخیص تصویر یا طبقه‌بندی استفاده می‌شوند.[۱۰]

تاریخچه

شبکه‌های عصبی پیچشی مشابه سیستم پردازش دیداری در موجودات زنده عمل می‌کنند.

نواحی پذیرش

کار مشترک هابل و ویسل در دهه‌های ۱۹۵۰ و ۱۹۶۰ نشان داد که قشرهای بینایی گربه و میمون از نورون‌هایی تشکیل شده است که به تنهایی به نواحی کوچی از میدان دید پاسخ (عصبی) می‌دهند. به این شرط که چشم‌ها حرکت نمی‌کنند، ناحیه‌ای از قشر بینایی که طی تحریک دیداری بر برانگیختن یک تک‌نورون تأثیر می‌گذارد به عنوان ناحیه‌ٔ پذیرش شناخته می‌شود.سلول‌های همسایه نواحی پذیرش مشابه و همپوشایی دارند. اندازه ناحیه پذیرش و جایگاه آن به طور سیستماتیک در مکان‌های مختلف قشر متفاوت است.

مقاله این دو در سال ۱۹۶۸ دو نوع سلول بینایی در مغز را معرفی کرد:[۱۱]

  • سلول‌های ساده که خروجی آنها با لبه‌هایی که راستای مشخصی در ناحیه‌ی پذیرش دارند، بیشینه شده‌است.
  • سلول‌های پیچیده که ناحیه پذیرش آنها بزرگتر است و خروجی آنها به گونه‌ای است که به جایگاه دقیق لبه‌ها در میدان دیداری حساس نیست.

نئوکاگنیترون(Neocognitron) 

نئوکاگنیترون یک شبکه عصبی سلسله مراتبی چندلایه است که توسط کونیهیکو فوکوشیما در دهه ۱۹۸۰ معرفی شد. این شبکه برای تشخیص کاراکترهای دستخط و موارد دیگر در تشخیص الگو به کار میرفت. از این شبکه در ساخت شبکه‌های عصبی پیچشی الهام گرفته‌شده. نئوکاگنیترون خود از مدلی که هابل و ویتسل در سال ۱۹۵۹ پیشنهاد دادند الگو گرفته‌است. [۱۲] [۱۳]

در نئوکاگنیترون نیاز نیست واحدهایی که در مکان‌های متفاوت شبکه قرار گرفته‌اند در مرحله یادگیری وزن‌های یکسانی داشته‌باشند. این ایده در نسخه کتابیِ مقاله انتشار رو به عقب (backpropagation) مطرح شد (شکل ۱۴). ساختار نئوکاگنیترون‌ در سال ۱۹۸۸ برای اعمال به سیگنال‌های زمانی توسعه یافت.[۱۴][نیازمند شفاف‌سازی][۱۵] طراحی نئوکاگنیترون در سال ۱۹۸۸ توسعه یافت در سال ۲۰۰۳ تعمیم پیدا کرد و در همان سال تسهیل و ساده‌سازی شد.[۱۶]

له‌نت۵ (LeNet-5)

له‌نت۵ یک شبکه عصبی پیچشی پیش‌گام ۷ سطحی است که توسط له‌سان و همکارانش ابداع شده است.[۱۷] این شبکه ارقام دست‌نویس را طبقه‌بندی می‌کند و توسط بانک‌های مختلفی برای شناسایی اعداد دست‌نویس روی چک‌ها به کار رفته‌است. عکس‌هایی که به عنوان ورودی به این شبکه داده‌ می‌شود ۳۲ * ۳۲ است که برای پردازش عکس‌ها با وضوح بالاتر لایه‌های پیچشی بیشتر و بزرگتی لازم است، بنابراین این روش محدود به منابع و قابلیت‌های محاسباتی است.

منابع

  1. LeCun, Yann. "LeNet-5, convolutional neural networks". Retrieved 16 November 2013.
  2. Zhang, Wei (1988). "Shift-invariant pattern recognition neural network and its optical architecture". Proceedings of annual conference of the Japan Society of Applied Physics.
  3. Zhang, Wei (1990). "Parallel distributed processing model with local space-invariant interconnections and its optical architecture". Applied Optics. 29 (32).
  4. Matusugu, Masakazu; Katsuhiko Mori; Yusuke Mitari; Yuji Kaneda (2003). "Subject independent facial expression recognition with robust face detection using a convolutional neural network" (PDF). Neural Networks. 16 (5): 555–559. doi:10.1016/S0893-6080(03)00115-1. Retrieved 17 November 2013.
  5. Collobert, Ronan; Weston, Jason (2008-01-01). "A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning". Proceedings of the 25th International Conference on Machine Learning. ICML '08. New York, NY, USA: ACM: 160–167. doi:10.1145/1390156.1390177. ISBN 978-1-60558-205-4.
  6. "Convolutional Neural Networks (LeNet) – DeepLearning 0.1 documentation". DeepLearning 0.1. LISA Lab. Retrieved 31 August 2013.
  7. Habibi,, Aghdam, Hamed. Guide to convolutional neural networks : a practical application to traffic-sign detection and classification. Heravi, Elnaz Jahani,. Cham, Switzerland. ISBN 9783319575490. OCLC 987790957.{{cite book}}: نگهداری CS1: نقطه‌گذاری اضافه (link)
  8. Krizhevsky, Alex. "ImageNet Classification with Deep Convolutional Neural Networks" (PDF). Retrieved 17 November 2013.
  9. Ciresan, Dan; Meier, Ueli; Schmidhuber, Jürgen (June 2012). "Multi-column deep neural networks for image classification". 2012 IEEE Conference on Computer Vision and Pattern Recognition. New York, NY: Institute of Electrical and Electronics Engineers (IEEE): 3642–3649. arXiv:1202.2745v1. doi:10.1109/CVPR.2012.6248110. ISBN 978-1-4673-1226-4. OCLC 812295155. Retrieved 2013-12-09.
  10. Le Callet, Patrick; Christian Viard-Gaudin; Dominique Barba (2006). "A Convolutional Neural Network Approach for Objective Video Quality Assessment" (PDF). IEEE Transactions on Neural Networks. 17 (5): 1316–1327. doi:10.1109/TNN.2006.879766. PMID 17001990. Retrieved 17 November 2013.
  11. Hubel, D. H.; Wiesel, T. N. (1968-03-01). "Receptive fields and functional architecture of monkey striate cortex". The Journal of Physiology. 195 (1): 215–243. doi:10.1113/jphysiol.1968.sp008455. ISSN 0022-3751. PMC 1557912. PMID 4966457.
  12. LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). "Deep learning". Nature. 521 (7553): 436–444. doi:10.1038/nature14539. PMID 26017442.
  13. Fukushima, Kunihiko (1980). "Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position" (PDF). Biological Cybernetics. 36 (4): 193–202. doi:10.1007/BF00344251. PMID 7370364. Retrieved 16 November 2013.
  14. David E. Rumelhart; Geoffrey E. Hinton; Ronald J. Wiliams (1986). "Chapter 8 : Learning Internal Representations by ErrorPropagation". In Rumelhart, David E.; McClelland, James.L. (eds.). Parallel Distributed Processing, Volume 1 (PDF). MIT Press. pp. 319–362. ISBN 9780262680530.
  15. Homma, Toshiteru; Les Atlas; Robert Marks II (1988). "An Artificial Neural Network for Spatio-Temporal Bipolar Patters: Application to Phoneme Classification" (PDF). Advances in Neural Information Processing Systems. 1: 31–40.
  16. Simard, Patrice, David Steinkraus, and John C. Platt. "Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis." In ICDAR, vol. 3, pp. 958-962. 2003.
  17. LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner (1998). "Gradient-based learning applied to document recognition" (PDF). Proceedings of the IEEE. 86 (11): 2278–2324. doi:10.1109/5.726791. Retrieved October 7, 2016.