شبکهی عصبی پیچشی: تفاوت میان نسخهها
ابرابزار |
ایجاد شده توسط ترجمهٔ صفحهٔ «Convolutional neural network» |
||
خط ۱: | خط ۱: | ||
شبکههای عصبی پیچشی (convolutional neural network یا CNN) ردهای از[[شبکه عصبی عمیق| شبکههای عصبی عمیق]] هستند که معمولاً برای انجام تحلیلهای تصویری و یا گفتاری در [[یادگیری ماشین]] استفاده میشوند. |
|||
شبکههای عصبی پیچشی به منظور کمینه کردن پیشپردازشها از گونهای از[[پرسپترون| |
شبکههای عصبی پیچشی به منظور کمینه کردن پیشپردازشها از گونهای از[[پرسپترون| پرسپترون]]<nowiki/>های چندلایه استفاده میکنند.<ref name="LeCun">{{cite web|url=http://yann.lecun.com/exdb/lenet/|title=LeNet-5, convolutional neural networks|accessdate=16 November 2013|last=LeCun|first=Yann}}</ref> به جای شبکه عصبی پیچشی گاهی از این شبکهها با نام شبکههای عصبی تغییرناپذیر با انتقال (shift invariant) یا تغییرناپذیر با فضا (space invariant) هم یاد میشود. این نامگذاری بر مبنای ساختار این شبکه است که در ادامه به آن اشاره خواهیم کرد. <ref name=":0">{{Cite journal|url=https://drive.google.com/file/d/0B65v6Wo67Tk5Zm03Tm1kaEdIYkE/view?usp=sharing|title=Shift-invariant pattern recognition neural network and its optical architecture|last=Zhang|first=Wei|date=1988|journal=Proceedings of annual conference of the Japan Society of Applied Physics|issue=|doi=|volume=|pmid=|access-date=|via=}}</ref><ref name=":1">{{Cite journal|url=https://drive.google.com/file/d/0B65v6Wo67Tk5ODRzZmhSR29VeDg/view?usp=sharing|title=Parallel distributed processing model with local space-invariant interconnections and its optical architecture|last=Zhang|first=Wei|date=1990|journal=Applied Optics|issue=32|doi=|volume=29|pmid=|access-date=|via=}}</ref> |
||
ساختار شبکههای پیچشی از فرآیندهای زیستی قشر بینایی گربه الهام گرفتهشدهاست. این ساختار به گونهای است که تکنورونها تنها در یک ناحیه محدود به تحریک پاسخ میدهند که به آن ناحیه پذیرش گفته میشود.<ref name="robust face detection">{{ |
ساختار شبکههای پیچشی از فرآیندهای زیستی قشر بینایی گربه الهام گرفتهشدهاست. این ساختار به گونهای است که تکنورونها تنها در یک ناحیه محدود به تحریک پاسخ میدهند که به آن ناحیه پذیرش گفته میشود.<ref name="robust face detection">{{cite journal|url=http://www.iro.umontreal.ca/~pift6080/H09/documents/papers/sparse/matsugo_etal_face_expression_conv_nnet.pdf|title=Subject independent facial expression recognition with robust face detection using a convolutional neural network|last=Matusugu|first=Masakazu|author2=Katsuhiko Mori|journal=Neural Networks|accessdate=17 November 2013|issue=5|doi=10.1016/S0893-6080(03)00115-1|year=2003|volume=16|pages=555–559|author3=Yusuke Mitari|author4=Yuji Kaneda}}</ref> نواحی پذیرش نورونهای مختلف به صورت جزئی با هم همپوشانی دارند به گونه ای که کل میدان دید را پوشش میدهند. |
||
شبکههای عصبی پیچشی نسبت به بقیه رویکردهای [[دستهبندی تصاویر]] به میزان کمتری از پیشپردازش استفاده میکنند. این امر به معنی آن است که شبکه معیارهایی را |
شبکههای عصبی پیچشی نسبت به بقیه رویکردهای [[دستهبندی تصاویر]] به میزان کمتری از پیشپردازش استفاده میکنند. این امر به معنی آن است که شبکه معیارهایی را یاد میگیرد که در رویکردهای قبلی به صورت دستی یاد گرفتهمیشدند. این استقلال از [[دانش پیشین]] و دستکاریهای انسانی در شبکههای عصبی پیچشی یک مزیت اساسی است. |
||
تا کنون کاربردهای مختلفی برای شبکههای عصبی از جمله در بینایی کامپیوتر، [[سیستمهای پیشنهاددهنده]] و [[پردازش زبان طبیعی]] پیشنهاد شدهاند.<ref>{{Cite journal|url=http://doi.acm.org/10.1145/1390156.1390177|title=A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning|last=Collobert|first=Ronan|last2=Weston|first2=Jason|date=2008-01-01|journal=Proceedings of the 25th International Conference on Machine Learning|publisher=ACM|doi=10.1145/1390156.1390177|series=ICML '08|location=New York, NY, USA|pages=160–167|isbn=978-1-60558-205-4}}</ref> |
تا کنون کاربردهای مختلفی برای شبکههای عصبی از جمله در بینایی کامپیوتر، [[سیستمهای پیشنهاددهنده]] و [[پردازش زبان طبیعی]] پیشنهاد شدهاند. |
||
<ref>{{Cite journal|url=http://doi.acm.org/10.1145/1390156.1390177|title=A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning|last=Collobert|first=Ronan|last2=Weston|first2=Jason|date=2008-01-01|journal=Proceedings of the 25th International Conference on Machine Learning|publisher=ACM|doi=10.1145/1390156.1390177|series=ICML '08|location=New York, NY, USA|pages=160–167|isbn=978-1-60558-205-4}}</ref> |
|||
== طراحی == |
== طراحی == |
||
یک |
یک شبکه عصبی پیچشی از یک لایه ورودی، یک لایه خروجی و تعدادی لایه پنهان تشکیل شده است. لایههای پنهان یا پیچشی هستند، یا تجمعی و یا کامل. |
||
=== لایههای پیچشی === |
=== لایههای پیچشی === |
||
لایههای پیچشی یک عمل پیچش را روی ورودی اعمال میکنند، سپس نتیجه را به لایه بعدی میدهند. این پیچش در واقع پاسخ یک تکنورون را به یک تحریک دیداری شبیهسازی میکند.<ref name="deeplearning">{{ |
لایههای پیچشی یک عمل پیچش را روی ورودی اعمال میکنند، سپس نتیجه را به لایه بعدی میدهند. این پیچش در واقع پاسخ یک تکنورون را به یک تحریک دیداری شبیهسازی میکند.<ref name="deeplearning">{{cite web|url=http://deeplearning.net/tutorial/lenet.html|title=Convolutional Neural Networks (LeNet) – DeepLearning 0.1 documentation|accessdate=31 August 2013|work=DeepLearning 0.1|publisher=LISA Lab}}</ref> |
||
هر نورون پیچشی دادهها را تنها برای ناحیه پذیرش خودش پردازش میکند. مشبکهکردن به شبکههای پیچشی این اجازه را میدهد که انتقال، دوران و یا اعوجاج ورودی را تصحیح کنند. |
هر نورون پیچشی دادهها را تنها برای ناحیه پذیرش خودش پردازش میکند. مشبکهکردن به شبکههای پیچشی این اجازه را میدهد که انتقال، دوران و یا اعوجاج ورودی را تصحیح کنند. |
||
اگرچه [[شبکه عصبی پیشخور|شبکههای عصبی پیشخور]] کاملاً همبند میتوانند برای یادگیری ویژگیها و طبقهبندی داده به کار روند، این معماری در کاربرد برای تصاویر به کار نمیرود. در این حالت حتی برای یک شبکه کمعمق تعداد بسیار زیادی نورون لازم است. عمل پیچش یک راهحل برای این شرایط است که تعداد پارامترهای آزاد را به عمیقتر کردن شبکه کاهش میدهد.<ref>{{Cite book|url=https://www.worldcat.org/oclc/987790957|title=Guide to convolutional neural networks: a practical application to traffic-sign detection and classification|last=Habibi,|first=Aghdam, Hamed|others=Heravi, Elnaz Jahani,|isbn= |
اگرچه [[شبکه عصبی پیشخور|شبکههای عصبی پیشخور]] کاملاً همبند میتوانند برای یادگیری ویژگیها و طبقهبندی داده به کار روند، این معماری در کاربرد برای تصاویر به کار نمیرود. در این حالت حتی برای یک شبکه کمعمق تعداد بسیار زیادی نورون لازم است. عمل پیچش یک راهحل برای این شرایط است که تعداد پارامترهای آزاد را به عمیقتر کردن شبکه کاهش میدهد.<ref>{{Cite book|url=https://www.worldcat.org/oclc/987790957|title=Guide to convolutional neural networks : a practical application to traffic-sign detection and classification|last=Habibi,|first=Aghdam, Hamed|others=Heravi, Elnaz Jahani,|isbn=9783319575490|location=Cham, Switzerland|oclc=987790957}}</ref> |
||
=== لایههای تجمعی === |
=== لایههای تجمعی === |
||
شبکههای عصبی پیچشی ممکن است شامل لایههای تجمعی محلی یا سراسری باشند که |
شبکههای عصبی پیچشی ممکن است شامل لایههای تجمعی محلی یا سراسری باشند که خروجی های خوشههای نورونی در یک لایه را در یک تکنورون در لایه بعدی ترکیب میکند.<ref>{{cite web|url=http://www.image-net.org/challenges/LSVRC/2012/supervision.pdf|title=ImageNet Classification with Deep Convolutional Neural Networks|accessdate=17 November 2013|last=Krizhevsky|first=Alex}}</ref> به عنوان مثال روش حداکثر تجمع (max pooling) حداکثر مقدار بین خوشههای نورونی در لایه پیشین استفاده میکند.<ref name="mcdns">{{cite journal|url=http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=6248110|title=Multi-column deep neural networks for image classification|last1=Ciresan|first1=Dan|last2=Meier|first2=Ueli|date=June 2012|journal=2012 [[IEEE Conference on Computer Vision and Pattern Recognition]]|publisher=[[Institute of Electrical and Electronics Engineers]] (IEEE)|accessdate=2013-12-09|doi=10.1109/CVPR.2012.6248110|location=New York, NY|pages=3642–3649|arxiv=1202.2745v1|isbn=978-1-4673-1226-4|oclc=812295155|last3=Schmidhuber|first3=Jürgen}}</ref> مثال دیگر میانگین تجمع (average pooling) است که از مقدار میانگین خوشههای نورونی در لایه پیشین استفاده میکند. |
||
=== کاملاً همبند === |
=== کاملاً همبند === |
||
لایههای کاملاً همبند، هر نورون در یک لایه را به هر نورون در لایه دیگر متصل میکنند. این رویکرد در اصل مشابه کاری است که در شبکه عصبی پرسپترون چند لایه (MLP) انجام میشود. |
لایههای کاملاً همبند، هر نورون در یک لایه را به هر نورون در لایه دیگر متصل میکنند. این رویکرد در اصل مشابه کاری است که در شبکه عصبی پرسپترون چند لایه (MLP) انجام میشود. |
||
=== |
=== وزنها === |
||
شبکههای عصبی پیچشی وزنها را در لایههای پیچشی به اشتراک میگذارند که باعث |
شبکههای عصبی پیچشی وزنها را در لایههای پیچشی به اشتراک میگذارند که باعث میشود حداقل حافظه و بیشترین کارایی بدست بیاید. |
||
== شبکههای عصبی متأخر == |
== شبکههای عصبی متأخر == |
||
برخی شبکههای عصبی متأخر از معماری مشابهی استفاده میکنند، مخصوصاً آنهایی که برای [[تشخیص تصویر]] یا [[طبقهبندی]] استفاده میشوند.<ref name="video quality">{{ |
برخی شبکههای عصبی متأخر از معماری مشابهی استفاده میکنند، مخصوصاً آنهایی که برای [[تشخیص تصویر]] یا [[طبقهبندی]] استفاده میشوند.<ref name="video quality">{{cite journal|url=http://hal.univ-nantes.fr/docs/00/28/74/26/PDF/A_convolutional_neural_network_approach_for_objective_video_quality_assessment_completefinal_manuscript.pdf|title=A Convolutional Neural Network Approach for Objective Video Quality Assessment|last=Le Callet|first=Patrick|author2=Christian Viard-Gaudin|journal=IEEE Transactions on Neural Networks|accessdate=17 November 2013|issue=5|doi=10.1109/TNN.2006.879766|year=2006|volume=17|pages=1316–1327|pmid=17001990|author3=Dominique Barba}}</ref> |
||
== تاریخچه == |
== تاریخچه == |
||
شبکههای عصبی پیچشی مشابه سیستم پردازش دیداری |
شبکههای عصبی پیچشی مشابه سیستم پردازش دیداری |
||
در موجودات زنده عمل میکنند. |
در موجودات زنده عمل میکنند. |
||
=== نواحی پذیرش === |
=== نواحی پذیرش === |
||
کار مشترک هابل و ویسل در دهههای ۱۹۵۰ و ۱۹۶۰ |
کار مشترک هابل و ویسل در دهههای ۱۹۵۰ و ۱۹۶۰ |
||
نشان داد که قشرهای بینایی گربه و میمون از نورونهایی تشکیل |
نشان داد که قشرهای بینایی گربه و میمون از نورونهایی تشکیل شده است که به تنهایی به نواحی کوچی از میدان دید پاسخ (عصبی) میدهند. به این شرط که چشمها حرکت نمیکنند، ناحیهای از قشر بینایی که طی تحریک دیداری بر برانگیختن یک تکنورون تأثیر میگذارد به عنوان ناحیهٔ پذیرش شناخته میشود.سلولهای همسایه نواحی پذیرش مشابه و همپوشایی دارند. اندازه ناحیه پذیرش و جایگاه آن به طور سیستماتیک در مکانهای مختلف قشر متفاوت است. |
||
⚫ | مقاله این دو در سال ۱۹۶۸ دو نوع سلول بینایی در مغز را معرفی کرد:<ref>{{Cite journal|title=Receptive fields and functional architecture of monkey striate cortex|last=Hubel|first=D. H.|last2=Wiesel|first2=T. N.|date=1968-03-01|journal=The Journal of Physiology|issue=1|doi=10.1113/jphysiol.1968.sp008455|volume=195|pages=215–243|issn=0022-3751|pmc=1557912|pmid=4966457}}</ref> |
||
<br> |
|||
⚫ | |||
⚫ | |||
=== نئوکاگنیترون(Neocognitron) === |
|||
[[نئوکاگنیترون]] یک شبکه عصبی سلسله مراتبی چندلایه است که توسط کونیهیکو فوکوشیما در دهه ۱۹۸۰ معرفی شد. این شبکه برای تشخیص کاراکترهای دستخط و موارد دیگر در تشخیص الگو به کار میرفت. از این شبکه در ساخت شبکههای عصبی پیچشی الهام گرفتهشده. نئوکاگنیترون خود از مدلی که هابل و ویتسل در سال ۱۹۵۹ پیشنهاد دادند الگو گرفتهاست. <ref>{{Cite journal|title=Deep learning|last=LeCun|first=Yann|last2=Bengio|first2=Yoshua|journal=Nature|issue=7553|doi=10.1038/nature14539|year=2015|volume=521|pages=436–444|pmid=26017442|last3=Hinton|first3=Geoffrey}}</ref> <ref name="intro">{{Cite journal|url=http://www.cs.princeton.edu/courses/archive/spr08/cos598B/Readings/Fukushima1980.pdf|title=Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position|last=Fukushima|first=Kunihiko|journal=Biological Cybernetics|accessdate=16 November 2013|issue=4|doi=10.1007/BF00344251|year=1980|volume=36|pages=193–202|pmid=7370364}}</ref> |
|||
در نئوکاگنیترون نیاز نیست واحدهایی که در مکانهای متفاوت شبکه قرار گرفتهاند در مرحله یادگیری وزنهای یکسانی داشتهباشند. این ایده در نسخه کتابیِ مقاله [[انتشار رو به عقب]] (backpropagation) مطرح شد (شکل ۱۴). ساختار نئوکاگنیترون در سال ۱۹۸۸ برای اعمال به سیگنالهای زمانی توسعه یافت.<ref>{{Cite book|url=http://psych.stanford.edu/~jlm/papers/PDP/Volume%201/Chap8_PDP86.pdf|title=Parallel Distributed Processing, Volume 1|last=David E. Rumelhart|last2=Geoffrey E. Hinton|last3=Ronald J. Wiliams|publisher=MIT Press|year=1986|isbn=9780262680530|editor-last=Rumelhart|editor-first=David E.|editor2-last=McClelland|editor2-first=James.L.|pages=319–362|chapter=Chapter 8 : Learning Internal Representations by ErrorPropagation|archivedate=2016-03-14}}</ref>{{clarify|date=September 2016}}<ref>{{Cite journal|url=http://papers.nips.cc/paper/20-an-artificial-neural-network-for-spatio-temporal-bipolar-patterns-application-to-phoneme-classification.pdf|title=An Artificial Neural Network for Spatio-Temporal Bipolar Patters: Application to Phoneme Classification|last=Homma|first=Toshiteru|last2=Les Atlas|journal=Advances in Neural Information Processing Systems|year=1988|volume=1|pages=31–40|last3=Robert Marks II}}</ref> طراحی نئوکاگنیترون در سال ۱۹۸۸ توسعه یافت در سال ۲۰۰۳ تعمیم پیدا کرد و در همان سال تسهیل و سادهسازی شد.<ref>Simard, Patrice, David Steinkraus, and John C. Platt. "Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis." In ICDAR, vol. 3, pp. 958-962. 2003.</ref> |
|||
==== لهنت۵ (LeNet-5) ==== |
|||
⚫ | مقاله این دو در سال ۱۹۶۸ دو نوع سلول بینایی در مغز را معرفی کرد:<ref>{{Cite journal|title=Receptive fields and functional architecture of monkey striate cortex|last=Hubel|first=D. H.|last2=Wiesel|first2=T. N.|date=1968-03-01|journal=The Journal of Physiology|issue=1|doi=10.1113/jphysiol.1968.sp008455|volume=195|pages=215–243|issn=0022-3751|pmc=1557912|pmid=4966457}}</ref> |
||
لهنت۵ یک شبکه عصبی پیچشی پیشگام ۷ سطحی است که توسط لهسان و همکارانش ابداع شده است.<ref name="lecun98">{{Cite journal|url=http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf|title=Gradient-based learning applied to document recognition|last=LeCun|first=Yann|last2=Léon Bottou|journal=Proceedings of the IEEE|accessdate=October 7, 2016|issue=11|doi=10.1109/5.726791|year=1998|volume=86|pages=2278–2324|last3=Yoshua Bengio|last4=Patrick Haffner}}</ref> این شبکه ارقام دستنویس را طبقهبندی میکند و توسط بانکهای مختلفی برای شناسایی اعداد دستنویس روی چکها به کار رفتهاست. عکسهایی که به عنوان ورودی به این شبکه داده میشود ۳۲ * ۳۲ است که برای پردازش عکسها با وضوح بالاتر لایههای پیچشی بیشتر و بزرگتی لازم است، بنابراین این روش محدود به منابع و قابلیتهای محاسباتی است. |
|||
⚫ | |||
⚫ | |||
== منابع == |
== منابع == |
||
{{ |
{{reflist|30em}} |
||
[[رده:شبکههای عصبی مصنوعی]] |
[[رده:شبکههای عصبی مصنوعی]] |
||
[[رده:علوم محاسباتی اعصاب]] |
[[رده:علوم محاسباتی اعصاب]] |
نسخهٔ ۲۵ سپتامبر ۲۰۱۷، ساعت ۰۶:۴۹
شبکههای عصبی پیچشی (convolutional neural network یا CNN) ردهای از شبکههای عصبی عمیق هستند که معمولاً برای انجام تحلیلهای تصویری و یا گفتاری در یادگیری ماشین استفاده میشوند.
شبکههای عصبی پیچشی به منظور کمینه کردن پیشپردازشها از گونهای از پرسپترونهای چندلایه استفاده میکنند.[۱] به جای شبکه عصبی پیچشی گاهی از این شبکهها با نام شبکههای عصبی تغییرناپذیر با انتقال (shift invariant) یا تغییرناپذیر با فضا (space invariant) هم یاد میشود. این نامگذاری بر مبنای ساختار این شبکه است که در ادامه به آن اشاره خواهیم کرد. [۲][۳]
ساختار شبکههای پیچشی از فرآیندهای زیستی قشر بینایی گربه الهام گرفتهشدهاست. این ساختار به گونهای است که تکنورونها تنها در یک ناحیه محدود به تحریک پاسخ میدهند که به آن ناحیه پذیرش گفته میشود.[۴] نواحی پذیرش نورونهای مختلف به صورت جزئی با هم همپوشانی دارند به گونه ای که کل میدان دید را پوشش میدهند.
شبکههای عصبی پیچشی نسبت به بقیه رویکردهای دستهبندی تصاویر به میزان کمتری از پیشپردازش استفاده میکنند. این امر به معنی آن است که شبکه معیارهایی را یاد میگیرد که در رویکردهای قبلی به صورت دستی یاد گرفتهمیشدند. این استقلال از دانش پیشین و دستکاریهای انسانی در شبکههای عصبی پیچشی یک مزیت اساسی است.
تا کنون کاربردهای مختلفی برای شبکههای عصبی از جمله در بینایی کامپیوتر، سیستمهای پیشنهاددهنده و پردازش زبان طبیعی پیشنهاد شدهاند. [۵]
طراحی
یک شبکه عصبی پیچشی از یک لایه ورودی، یک لایه خروجی و تعدادی لایه پنهان تشکیل شده است. لایههای پنهان یا پیچشی هستند، یا تجمعی و یا کامل.
لایههای پیچشی
لایههای پیچشی یک عمل پیچش را روی ورودی اعمال میکنند، سپس نتیجه را به لایه بعدی میدهند. این پیچش در واقع پاسخ یک تکنورون را به یک تحریک دیداری شبیهسازی میکند.[۶]
هر نورون پیچشی دادهها را تنها برای ناحیه پذیرش خودش پردازش میکند. مشبکهکردن به شبکههای پیچشی این اجازه را میدهد که انتقال، دوران و یا اعوجاج ورودی را تصحیح کنند.
اگرچه شبکههای عصبی پیشخور کاملاً همبند میتوانند برای یادگیری ویژگیها و طبقهبندی داده به کار روند، این معماری در کاربرد برای تصاویر به کار نمیرود. در این حالت حتی برای یک شبکه کمعمق تعداد بسیار زیادی نورون لازم است. عمل پیچش یک راهحل برای این شرایط است که تعداد پارامترهای آزاد را به عمیقتر کردن شبکه کاهش میدهد.[۷]
لایههای تجمعی
شبکههای عصبی پیچشی ممکن است شامل لایههای تجمعی محلی یا سراسری باشند که خروجی های خوشههای نورونی در یک لایه را در یک تکنورون در لایه بعدی ترکیب میکند.[۸] به عنوان مثال روش حداکثر تجمع (max pooling) حداکثر مقدار بین خوشههای نورونی در لایه پیشین استفاده میکند.[۹] مثال دیگر میانگین تجمع (average pooling) است که از مقدار میانگین خوشههای نورونی در لایه پیشین استفاده میکند.
کاملاً همبند
لایههای کاملاً همبند، هر نورون در یک لایه را به هر نورون در لایه دیگر متصل میکنند. این رویکرد در اصل مشابه کاری است که در شبکه عصبی پرسپترون چند لایه (MLP) انجام میشود.
وزنها
شبکههای عصبی پیچشی وزنها را در لایههای پیچشی به اشتراک میگذارند که باعث میشود حداقل حافظه و بیشترین کارایی بدست بیاید.
شبکههای عصبی متأخر
برخی شبکههای عصبی متأخر از معماری مشابهی استفاده میکنند، مخصوصاً آنهایی که برای تشخیص تصویر یا طبقهبندی استفاده میشوند.[۱۰]
تاریخچه
شبکههای عصبی پیچشی مشابه سیستم پردازش دیداری در موجودات زنده عمل میکنند.
نواحی پذیرش
کار مشترک هابل و ویسل در دهههای ۱۹۵۰ و ۱۹۶۰ نشان داد که قشرهای بینایی گربه و میمون از نورونهایی تشکیل شده است که به تنهایی به نواحی کوچی از میدان دید پاسخ (عصبی) میدهند. به این شرط که چشمها حرکت نمیکنند، ناحیهای از قشر بینایی که طی تحریک دیداری بر برانگیختن یک تکنورون تأثیر میگذارد به عنوان ناحیهٔ پذیرش شناخته میشود.سلولهای همسایه نواحی پذیرش مشابه و همپوشایی دارند. اندازه ناحیه پذیرش و جایگاه آن به طور سیستماتیک در مکانهای مختلف قشر متفاوت است.
مقاله این دو در سال ۱۹۶۸ دو نوع سلول بینایی در مغز را معرفی کرد:[۱۱]
- سلولهای ساده که خروجی آنها با لبههایی که راستای مشخصی در ناحیهی پذیرش دارند، بیشینه شدهاست.
- سلولهای پیچیده که ناحیه پذیرش آنها بزرگتر است و خروجی آنها به گونهای است که به جایگاه دقیق لبهها در میدان دیداری حساس نیست.
نئوکاگنیترون(Neocognitron)
نئوکاگنیترون یک شبکه عصبی سلسله مراتبی چندلایه است که توسط کونیهیکو فوکوشیما در دهه ۱۹۸۰ معرفی شد. این شبکه برای تشخیص کاراکترهای دستخط و موارد دیگر در تشخیص الگو به کار میرفت. از این شبکه در ساخت شبکههای عصبی پیچشی الهام گرفتهشده. نئوکاگنیترون خود از مدلی که هابل و ویتسل در سال ۱۹۵۹ پیشنهاد دادند الگو گرفتهاست. [۱۲] [۱۳]
در نئوکاگنیترون نیاز نیست واحدهایی که در مکانهای متفاوت شبکه قرار گرفتهاند در مرحله یادگیری وزنهای یکسانی داشتهباشند. این ایده در نسخه کتابیِ مقاله انتشار رو به عقب (backpropagation) مطرح شد (شکل ۱۴). ساختار نئوکاگنیترون در سال ۱۹۸۸ برای اعمال به سیگنالهای زمانی توسعه یافت.[۱۴][نیازمند شفافسازی][۱۵] طراحی نئوکاگنیترون در سال ۱۹۸۸ توسعه یافت در سال ۲۰۰۳ تعمیم پیدا کرد و در همان سال تسهیل و سادهسازی شد.[۱۶]
لهنت۵ (LeNet-5)
لهنت۵ یک شبکه عصبی پیچشی پیشگام ۷ سطحی است که توسط لهسان و همکارانش ابداع شده است.[۱۷] این شبکه ارقام دستنویس را طبقهبندی میکند و توسط بانکهای مختلفی برای شناسایی اعداد دستنویس روی چکها به کار رفتهاست. عکسهایی که به عنوان ورودی به این شبکه داده میشود ۳۲ * ۳۲ است که برای پردازش عکسها با وضوح بالاتر لایههای پیچشی بیشتر و بزرگتی لازم است، بنابراین این روش محدود به منابع و قابلیتهای محاسباتی است.
منابع
- ↑ LeCun, Yann. "LeNet-5, convolutional neural networks". Retrieved 16 November 2013.
- ↑ Zhang, Wei (1988). "Shift-invariant pattern recognition neural network and its optical architecture". Proceedings of annual conference of the Japan Society of Applied Physics.
- ↑ Zhang, Wei (1990). "Parallel distributed processing model with local space-invariant interconnections and its optical architecture". Applied Optics. 29 (32).
- ↑ Matusugu, Masakazu; Katsuhiko Mori; Yusuke Mitari; Yuji Kaneda (2003). "Subject independent facial expression recognition with robust face detection using a convolutional neural network" (PDF). Neural Networks. 16 (5): 555–559. doi:10.1016/S0893-6080(03)00115-1. Retrieved 17 November 2013.
- ↑ Collobert, Ronan; Weston, Jason (2008-01-01). "A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning". Proceedings of the 25th International Conference on Machine Learning. ICML '08. New York, NY, USA: ACM: 160–167. doi:10.1145/1390156.1390177. ISBN 978-1-60558-205-4.
- ↑ "Convolutional Neural Networks (LeNet) – DeepLearning 0.1 documentation". DeepLearning 0.1. LISA Lab. Retrieved 31 August 2013.
- ↑ Habibi,, Aghdam, Hamed. Guide to convolutional neural networks : a practical application to traffic-sign detection and classification. Heravi, Elnaz Jahani,. Cham, Switzerland. ISBN 9783319575490. OCLC 987790957.
{{cite book}}
: نگهداری CS1: نقطهگذاری اضافه (link) - ↑ Krizhevsky, Alex. "ImageNet Classification with Deep Convolutional Neural Networks" (PDF). Retrieved 17 November 2013.
- ↑ Ciresan, Dan; Meier, Ueli; Schmidhuber, Jürgen (June 2012). "Multi-column deep neural networks for image classification". 2012 IEEE Conference on Computer Vision and Pattern Recognition. New York, NY: Institute of Electrical and Electronics Engineers (IEEE): 3642–3649. arXiv:1202.2745v1. doi:10.1109/CVPR.2012.6248110. ISBN 978-1-4673-1226-4. OCLC 812295155. Retrieved 2013-12-09.
- ↑ Le Callet, Patrick; Christian Viard-Gaudin; Dominique Barba (2006). "A Convolutional Neural Network Approach for Objective Video Quality Assessment" (PDF). IEEE Transactions on Neural Networks. 17 (5): 1316–1327. doi:10.1109/TNN.2006.879766. PMID 17001990. Retrieved 17 November 2013.
- ↑ Hubel, D. H.; Wiesel, T. N. (1968-03-01). "Receptive fields and functional architecture of monkey striate cortex". The Journal of Physiology. 195 (1): 215–243. doi:10.1113/jphysiol.1968.sp008455. ISSN 0022-3751. PMC 1557912. PMID 4966457.
- ↑ LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). "Deep learning". Nature. 521 (7553): 436–444. doi:10.1038/nature14539. PMID 26017442.
- ↑ Fukushima, Kunihiko (1980). "Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position" (PDF). Biological Cybernetics. 36 (4): 193–202. doi:10.1007/BF00344251. PMID 7370364. Retrieved 16 November 2013.
- ↑ David E. Rumelhart; Geoffrey E. Hinton; Ronald J. Wiliams (1986). "Chapter 8 : Learning Internal Representations by ErrorPropagation". In Rumelhart, David E.; McClelland, James.L. (eds.). Parallel Distributed Processing, Volume 1 (PDF). MIT Press. pp. 319–362. ISBN 9780262680530.
- ↑ Homma, Toshiteru; Les Atlas; Robert Marks II (1988). "An Artificial Neural Network for Spatio-Temporal Bipolar Patters: Application to Phoneme Classification" (PDF). Advances in Neural Information Processing Systems. 1: 31–40.
- ↑ Simard, Patrice, David Steinkraus, and John C. Platt. "Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis." In ICDAR, vol. 3, pp. 958-962. 2003.
- ↑ LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner (1998). "Gradient-based learning applied to document recognition" (PDF). Proceedings of the IEEE. 86 (11): 2278–2324. doi:10.1109/5.726791. Retrieved October 7, 2016.