بینایی رایانهای: تفاوت میان نسخهها
جز ویرایش جزئی بصری |
|||
خط ۱: | خط ۱: | ||
'''بینایی کامپیوتر''' {{به انگلیسی|Computer vision}} یا '''بینایی ماشین''' {{به انگلیسی|Machine vision}} یکی از شاخههای علوم کامپیوتر است که شامل روشهای مربوط به دستیابی تصاویر، پردازش، آنالیز و درک محتوای آنها است. معمولاً این پردازشها تصاویر تولید شده در دنیای واقعی را به عنوان ورودی دریافت و [[دادهها|دادههایی]] عددی یا سمبلیک را به عنوان خروجی تولید میکنند، مانند در شکلهایی از تصمیمگیری.<ref name="Klette-2014"> |
'''بینایی کامپیوتر''' {{به انگلیسی|Computer vision}} یا '''بینایی ماشین''' {{به انگلیسی|Machine vision}} یکی از شاخههای علوم کامپیوتر است که شامل روشهای مربوط به دستیابی تصاویر، پردازش، آنالیز و درک محتوای آنها است. معمولاً این پردازشها تصاویر تولید شده در دنیای واقعی را به عنوان ورودی دریافت و [[دادهها|دادههایی]] عددی یا سمبلیک را به عنوان خروجی تولید میکنند، مانند در شکلهایی از تصمیمگیری.<ref name="Klette-2014"> |
||
{{cite book|author=Reinhard Klette|title=Concise Computer Vision|publisher=Springer|year=2014|isbn=978-1-4471-6320-6}}</ref><ref name="Shapiro-Stockman-2001"> |
{{cite book|author=Reinhard Klette|title=Concise Computer Vision|publisher=Springer|year=2014|isbn=978-1-4471-6320-6}}</ref><ref name="Shapiro-Stockman-2001"> |
||
{{cite book|author=Linda G. Shapiro and George C. Stockman|title=Computer Vision|publisher=Prentice Hall|year=2001|isbn=0-13-030796-3}}</ref><ref name="Morris-2004">{{cite book|author=Tim Morris|title=Computer Vision and Image Processing|publisher=Palgrave Macmillan|year=2004|isbn=0-333-99451-5}}</ref><ref name="Jahne-Haussecker-2000">{{cite book| author=Bernd Jähne and Horst Haußecker|title=Computer Vision and Applications, A Guide for Students and Practitioners|publisher=Academic Press|year=2000|isbn=0-13-085198-1}}</ref> یکی رویههای توسعهٔ این شاخه بر اساس شبیهسازی توانایی بینایی انسان در رایانه است.[[پرونده:NASA Mars Rover.jpg|thumb|244x244px|تصویر هنری از مریخ نورد NASA بر روی سطح سیاره مریخ . مثالی از خودروهای زمینی بدون سرنشین |
{{cite book|author=Linda G. Shapiro and George C. Stockman|title=Computer Vision|publisher=Prentice Hall|year=2001|isbn=0-13-030796-3}}</ref><ref name="Morris-2004">{{cite book|author=Tim Morris|title=Computer Vision and Image Processing|publisher=Palgrave Macmillan|year=2004|isbn=0-333-99451-5}}</ref><ref name="Jahne-Haussecker-2000">{{cite book| author=Bernd Jähne and Horst Haußecker|title=Computer Vision and Applications, A Guide for Students and Practitioners|publisher=Academic Press|year=2000|isbn=0-13-085198-1}}</ref> یکی رویههای توسعهٔ این شاخه بر اساس شبیهسازی توانایی بینایی انسان در رایانه است.[[پرونده:NASA Mars Rover.jpg|thumb|244x244px|تصویر هنری از مریخ نورد NASA بر روی سطح سیاره مریخ . مثالی از خودروهای زمینی بدون سرنشین]] |
||
بینایی رایانهای به مسائل مختلفی از جمله استخراج داده از عکس، فیلم، مجموعه چند عکس از زوایای مختلف و پردازش تصاویر پزشکی میپردازد. معمولاً ترکیبی از روشهای مربوط به [[پردازش تصاویر]]<ref>Image processing</ref> و ابزارهای [[یادگیری ماشینی]]<ref>Machine learning</ref> و [[آمار]] برای حل مسایل مختلف در این شاخه استفاده میگردد. |
بینایی رایانهای به مسائل مختلفی از جمله استخراج داده از عکس، فیلم، مجموعه چند عکس از زوایای مختلف و پردازش تصاویر پزشکی میپردازد. معمولاً ترکیبی از روشهای مربوط به [[پردازش تصاویر]]<ref>Image processing</ref> و ابزارهای [[یادگیری ماشینی]]<ref>Machine learning</ref> و [[آمار]] برای حل مسایل مختلف در این شاخه استفاده میگردد. |
||
خط ۵۷: | خط ۵۷: | ||
* بدست آوردن [[خطوط تراز]] و احتمالاً گذر از صفرهای [[خمش]]. |
* بدست آوردن [[خطوط تراز]] و احتمالاً گذر از صفرهای [[خمش]]. |
||
=== ثبت === |
=== ثبت === |
||
هدف گام ثبت برقراری تناظر میان ویژگیهای مجموعه برداشت شده و ویژگیهای اجسام شناختهشده در یک [[پایگاه دادهها|پایگاه دادههای]] [[مدل]] و/یا ویژگیهای تصویر قبلی است. در گام ثبت باید به یک [[فرضیه]] نهایی رسید. چند روش این کار عبارتاند از: |
هدف گام ثبت برقراری تناظر میان ویژگیهای مجموعه برداشت شده و ویژگیهای اجسام شناختهشده در یک [[پایگاه دادهها|پایگاه دادههای]] [[مدل (ریاضی)|مدل]] و/یا ویژگیهای تصویر قبلی است. در گام ثبت باید به یک [[فرضیه]] نهایی رسید. چند روش این کار عبارتاند از: |
||
*[[تخمین کمترین مربعات]]. |
*[[تخمین کمترین مربعات]]. |
||
* [[تبدیل هاگ]] در انواع گوناگون. |
* [[تبدیل هاگ]] در انواع گوناگون. |
||
خط ۷۰: | خط ۷۰: | ||
حل مسئله تفسیر نور به ایده ها از جهان , درک بصری ویژگی ها و اشیا ، عملی خیلی پیچیده و به مراتب فراتر از توانایی های قدرتمند ترین ابرکامپیوتر های جهان است. بینایی نیازمند جدا کردن پیش ضمینه از پس ضمینه هست. تشخیص اشیا قرار گرفته در طیف گسترده ای از جهت ها , تفسیر نشانه های فضایی با دقت بالا . مکانیزم های نورونی در شبکه های عصبی ادراک بصری نگاه کلی از چگونگی محاسبه مغز در وضعیت های پیچیده برای تفسیر بینایی را به ما می دهد |
حل مسئله تفسیر نور به ایده ها از جهان , درک بصری ویژگی ها و اشیا ، عملی خیلی پیچیده و به مراتب فراتر از توانایی های قدرتمند ترین ابرکامپیوتر های جهان است. بینایی نیازمند جدا کردن پیش ضمینه از پس ضمینه هست. تشخیص اشیا قرار گرفته در طیف گسترده ای از جهت ها , تفسیر نشانه های فضایی با دقت بالا . مکانیزم های نورونی در شبکه های عصبی ادراک بصری نگاه کلی از چگونگی محاسبه مغز در وضعیت های پیچیده برای تفسیر بینایی را به ما می دهد |
||
ادراک بینایی زمانی اغاز می شوند که چشم نور را بر روی شبکیه چشم یا ( retina ) متمرکز می کند , که در آن جا توسط یک لایه از سلول های گیرنده نوری جذب می شود. این سلول ها نور را به سیگنال های الکتروشیمیایی تبدیل می کنند و به دو نوع، میله و مخروط تقسیم می شوند ( بر اساس شکل هایشان ) . سلولهای میله ای مسئول دید ما در شب هستند و به نور کم پاسخ خیلی خوبی می دهند. سلول های میله ای ( Rod cells ) عمدتا در مناطق پیرامونی از شبکیه چشم ( حول یا اطراف شبکیه ) یافت می شوند و بنابراین اکثر مردم این موضوع رو فهمیدن که اگر آنها نگاه خود را در شب متمرکز کنند می توانند منطقه مورد تمرکز رو بهتر ببینند. [[پرونده:Ventral-dorsal streams.svg|right|thumb|343x343px|[[:en: |
ادراک بینایی زمانی اغاز می شوند که چشم نور را بر روی شبکیه چشم یا ( retina ) متمرکز می کند , که در آن جا توسط یک لایه از سلول های گیرنده نوری جذب می شود. این سلول ها نور را به سیگنال های الکتروشیمیایی تبدیل می کنند و به دو نوع، میله و مخروط تقسیم می شوند ( بر اساس شکل هایشان ) . سلولهای میله ای مسئول دید ما در شب هستند و به نور کم پاسخ خیلی خوبی می دهند. سلول های میله ای ( Rod cells ) عمدتا در مناطق پیرامونی از شبکیه چشم ( حول یا اطراف شبکیه ) یافت می شوند و بنابراین اکثر مردم این موضوع رو فهمیدن که اگر آنها نگاه خود را در شب متمرکز کنند می توانند منطقه مورد تمرکز رو بهتر ببینند. [[پرونده:Ventral-dorsal streams.svg|right|thumb|343x343px|[[:en:Dorsal stream|جریان dorsal]] بصری ( سبز رنگ در تصویر ) و [[:en:Ventral stream|جریان ventral]] ( بنفش ) در تصویر مشخص شده. قسمت های بسیار زیادی از [[قشر مغز|cerebral cortex]] در پروسه بینایی نقش دارند.]] |
||
سلولهای مخروطی ( Cone cells ) در یک منطقه مرکزی شبکیه متمرکز به نام گودال متمرکز شده اند که فرورفتگی ( یا fovea ) هم نام دارد. انها مسئول وظایف سنگین و دقیقی مثل خواندن هستند. سلول های Cone و بسته به اینکه به نور آبی , قرمز , سبز چگونه واکنش می دهند به سه دسته تقسیم می شوند، و در مجموع این سه نوع از Cone ما را قادر به درک رنگ ها می کنند. سیگنال ها از سلول های گیرنده نوری ( photoreceptor cells ) از طریق شبکه ای از interneurons ها در لایه دوم شبکیه چشم به سلول های ganglion در لایه سوم منتقل می شوند. نورون های در این دو لایه از شبکیه زمینه پذیرای پیچیده ای که آنها را قادر به تشخیص تضاد های تغییراتی در یک تصویر می کند را ارائه می دهند : این تغییرات ممکن است لبه ها و یا سایه ها را نشان دهد. سلول های Ganglion این اطلاعات را به همراه دیگر اطلاعات در مورد رنگ جمع آوری می کنند و خروجی خود را به مغز از طریق عصب بینایی ارسال می کنند. عصب یا Nerve بینایی در درجه اول اطلاعات را از طریق thalamus به قشاء مغزی ( cerebral cortex ) ارسال می کند. پس از ارسال اطلاعات در قسمت cerebral cortex ادراک بصری انسان به وقوع می پیوندد. اما در عین حال این عصب (Nerve) حامل اطلاعات مورد نیاز برای مکانیک دید نیز هست که به دو قسمت از ساقه مغز (brainstem) این اطلاعات را منتقل می کند . اولین قسمت از brainstem گروهی از سلول های هسته هستند که pretectum نام دارند که کنترل غیر ارادی اندازه مردمک در پاسخ به شدت نور را بر عهده دارند. اطلاعات مربوط به اهداف متحرک و اطلاعات ساکن اسکن شده توسط چشم نیز به قسمت دوم در brainstem منتقل می شود , یک هسته که با نام superior colliculus شناخته می شود مسئول حرکات چشم در پرش های کوتاه هست. بخش دیگر از این دو قسمت saccades هست که به مغز اجازه درک یک اسکن هموار را با کمک چسباندن سری از تصاویر نسبتا ثابت می دهد. Saccadic eye movement مشکل تاری شدید رو که می تونه برای تصویر پیش بیاد را حل می کند. اگر چشم می تواند به صورت هموار در سراسر چشم انداز بصری حرکت کند؛ saccades ها در بعضی از وضعیت ها تجربه بصری رو ممکن و آسان می کنند مانند مشاهده چشم فرد دیگری برای شما, در حالی که اون فرد در تلاش برای نگاه کردن سرتاسر اتاق هست.[[پرونده:Thalamus small.gif|thumb|محل دقیق قسمت [[:en:Thalamus|thalamus]] ( تالاموس ) در عمق مغز در تصویر سه بعدی ]] |
سلولهای مخروطی ( Cone cells ) در یک منطقه مرکزی شبکیه متمرکز به نام گودال متمرکز شده اند که فرورفتگی ( یا fovea ) هم نام دارد. انها مسئول وظایف سنگین و دقیقی مثل خواندن هستند. سلول های Cone و بسته به اینکه به نور آبی , قرمز , سبز چگونه واکنش می دهند به سه دسته تقسیم می شوند، و در مجموع این سه نوع از Cone ما را قادر به درک رنگ ها می کنند. سیگنال ها از سلول های گیرنده نوری ( photoreceptor cells ) از طریق شبکه ای از interneurons ها در لایه دوم شبکیه چشم به سلول های ganglion در لایه سوم منتقل می شوند. نورون های در این دو لایه از شبکیه زمینه پذیرای پیچیده ای که آنها را قادر به تشخیص تضاد های تغییراتی در یک تصویر می کند را ارائه می دهند : این تغییرات ممکن است لبه ها و یا سایه ها را نشان دهد. سلول های Ganglion این اطلاعات را به همراه دیگر اطلاعات در مورد رنگ جمع آوری می کنند و خروجی خود را به مغز از طریق عصب بینایی ارسال می کنند. عصب یا Nerve بینایی در درجه اول اطلاعات را از طریق thalamus به قشاء مغزی ( cerebral cortex ) ارسال می کند. پس از ارسال اطلاعات در قسمت cerebral cortex ادراک بصری انسان به وقوع می پیوندد. اما در عین حال این عصب (Nerve) حامل اطلاعات مورد نیاز برای مکانیک دید نیز هست که به دو قسمت از ساقه مغز (brainstem) این اطلاعات را منتقل می کند . اولین قسمت از brainstem گروهی از سلول های هسته هستند که pretectum نام دارند که کنترل غیر ارادی اندازه مردمک در پاسخ به شدت نور را بر عهده دارند. اطلاعات مربوط به اهداف متحرک و اطلاعات ساکن اسکن شده توسط چشم نیز به قسمت دوم در brainstem منتقل می شود , یک هسته که با نام superior colliculus شناخته می شود مسئول حرکات چشم در پرش های کوتاه هست. بخش دیگر از این دو قسمت saccades هست که به مغز اجازه درک یک اسکن هموار را با کمک چسباندن سری از تصاویر نسبتا ثابت می دهد. Saccadic eye movement مشکل تاری شدید رو که می تونه برای تصویر پیش بیاد را حل می کند. اگر چشم می تواند به صورت هموار در سراسر چشم انداز بصری حرکت کند؛ saccades ها در بعضی از وضعیت ها تجربه بصری رو ممکن و آسان می کنند مانند مشاهده چشم فرد دیگری برای شما, در حالی که اون فرد در تلاش برای نگاه کردن سرتاسر اتاق هست.[[پرونده:Thalamus small.gif|thumb|محل دقیق قسمت [[:en:Thalamus|thalamus]] ( تالاموس ) در عمق مغز در تصویر سه بعدی ]] |
||
خط ۸۰: | خط ۸۰: | ||
جالب توجه است که این الگوی شطرنجی, سازمان ستونی V1 در هنگام تولد بسیار مبهم است. قشر بینایی یک نوزاد تازه متولد شده رشد بیش از حد (hypertrophy) , یا اتصالات اتفاقی دارد که باید به دقت و بر اساس تجربه بصری در بلند مدت هرس شوند ، و در نهایت به ستون های جداگانه تعریف شده تبدیل شوند. که این در واقع یک کاهش در تعداد اتصالات و نه افزایش اتصالات خواهد بود , که در نهایت توانایی نوزاد برای دیدن جزئیات ریز و به رسمیت شناختن اشکال و الگوها را بهبود می بخشد. |
جالب توجه است که این الگوی شطرنجی, سازمان ستونی V1 در هنگام تولد بسیار مبهم است. قشر بینایی یک نوزاد تازه متولد شده رشد بیش از حد (hypertrophy) , یا اتصالات اتفاقی دارد که باید به دقت و بر اساس تجربه بصری در بلند مدت هرس شوند ، و در نهایت به ستون های جداگانه تعریف شده تبدیل شوند. که این در واقع یک کاهش در تعداد اتصالات و نه افزایش اتصالات خواهد بود , که در نهایت توانایی نوزاد برای دیدن جزئیات ریز و به رسمیت شناختن اشکال و الگوها را بهبود می بخشد. |
||
[[پرونده:Visualcortex.gif|thumb|121x121px|<span lang="ach" dir="ltr">[[:en: |
[[پرونده:Visualcortex.gif|thumb|121x121px|<span lang="ach" dir="ltr">[[:en:Visual cortex|primary visual cortex (V1)]]</span>]] |
||
این نوع از پالایش وابسته , به فعالیت به V1 محدود نمی شود. و در بسیاری از مناطق سراسر قشر مغز ( cerebral cortex ) رخ می دهد. در همان زمان که توانایی تبعیض خطوط و لبه در قشر بینایی اولیه بهبود می یابد ، سلول ها را در قشر بینایی ثانویه ( secondary visual cortex V2 ) , توانایی خود را برای تفسیر رنگ پالایش می کنند. V2 تا حد زیادی مسئول پدیده ثبات رنگ است. و این حقیقت را توضیح می دهد که واقعیت یک گل سرخ تحت تاثیر بسیاری از رنگ های مختلف نور توسط ما هنوز هم به رنگ سرخ به نظر می رسد. این طور گمان می شه که ثبات رنگ وقتی رخ می دهد که V2 می تواند یک شئی و نور محیط را مقایسه کند و می تواند براورد رنگ روشنایی را کاهش دهد. با اینحال این پروسه با توجه به اینکه بیننده انتظار دارد اون شی به چه رنگی باشد به شدت تحت تاثیر قرار می گیرد. |
این نوع از پالایش وابسته , به فعالیت به V1 محدود نمی شود. و در بسیاری از مناطق سراسر قشر مغز ( cerebral cortex ) رخ می دهد. در همان زمان که توانایی تبعیض خطوط و لبه در قشر بینایی اولیه بهبود می یابد ، سلول ها را در قشر بینایی ثانویه ( secondary visual cortex V2 ) , توانایی خود را برای تفسیر رنگ پالایش می کنند. V2 تا حد زیادی مسئول پدیده ثبات رنگ است. و این حقیقت را توضیح می دهد که واقعیت یک گل سرخ تحت تاثیر بسیاری از رنگ های مختلف نور توسط ما هنوز هم به رنگ سرخ به نظر می رسد. این طور گمان می شه که ثبات رنگ وقتی رخ می دهد که V2 می تواند یک شئی و نور محیط را مقایسه کند و می تواند براورد رنگ روشنایی را کاهش دهد. با اینحال این پروسه با توجه به اینکه بیننده انتظار دارد اون شی به چه رنگی باشد به شدت تحت تاثیر قرار می گیرد. |
||
خط ۸۶: | خط ۸۶: | ||
جزئیات بیشتر درباره هر قسمت از قشر بینایی ː |
جزئیات بیشتر درباره هر قسمت از قشر بینایی ː |
||
* [[:en: |
* [[:en:Visual cortex|Visual cortex]] |
||
* [[:en: |
* [[:en:Visual perception|Visual perception]] |
||
== جستارهای وابسته == |
== جستارهای وابسته == |
||
خط ۱۳۷: | خط ۱۳۷: | ||
* کاربرد های نظامی |
* کاربرد های نظامی |
||
** تشخیص و شناسایی چهره افراد در فرودگاها و مراکز حساس دیگر |
** تشخیص و شناسایی چهره افراد در فرودگاها و مراکز حساس دیگر |
||
** وسایل حرکتی بدون سرنشین _ مستقل ( [[:en: |
** وسایل حرکتی بدون سرنشین _ مستقل ( [[:en:Uncrewed vehicle|Uncrewed vehicle]] ) |
||
**# خودرو های زمینی بدون سرنشین نظامی چند منظوره با قابلیت های استفاده موتوریزه و انتقال نیرو ها و تجهیزات . . . ( [[:en: |
**# خودرو های زمینی بدون سرنشین نظامی چند منظوره با قابلیت های استفاده موتوریزه و انتقال نیرو ها و تجهیزات . . . ( [[:en:Unmanned ground vehicle|Unmanned ground vehicle]] ) |
||
**# زیردریایی بدون سرنشین ː زیردریایی شرکت بوئینگ ( [http://www.gizmag.com/boeing-echo-voyager/42272/ Boeing submarine] ) که قابلیت ماه ها ماندن در زیر دریا و بررسی و ارسال اطلاعات به طور کاملا مستقل را قادر می باشند [http://www.khabaronline.ir/(X(1)S(jaafksyg5wlqqlpeaickicrd))/detail/518679/science/technology] |
**# زیردریایی بدون سرنشین ː زیردریایی شرکت بوئینگ ( [http://www.gizmag.com/boeing-echo-voyager/42272/ Boeing submarine] ) که قابلیت ماه ها ماندن در زیر دریا و بررسی و ارسال اطلاعات به طور کاملا مستقل را قادر می باشند [http://www.khabaronline.ir/(X(1)S(jaafksyg5wlqqlpeaickicrd))/detail/518679/science/technology] |
||
**# ناو های بدون سرنشین ː ناو های ضد زیردریایی [[:en:ACTUV|ACTUV]] ساخت [[دارپا|DARPA]] (سازمان پروژههای تحقیقاتی پیشرفتهٔ دفاعی )[http://www.khabaronline.ir/(X(1)S(jaafksyg5wlqqlpeaickicrd))/detail/509720/science/technology] |
**# ناو های بدون سرنشین ː ناو های ضد زیردریایی [[:en:ACTUV|ACTUV]] ساخت [[دارپا|DARPA]] (سازمان پروژههای تحقیقاتی پیشرفتهٔ دفاعی )[http://www.khabaronline.ir/(X(1)S(jaafksyg5wlqqlpeaickicrd))/detail/509720/science/technology] |
||
**# هواپیما های بدون سرنشین و پهپاد ها با کنترل مستقل ( [[:en: |
**# هواپیما های بدون سرنشین و پهپاد ها با کنترل مستقل ( [[:en:Unmanned aerial vehicle|Unmanned aerial vehicle]] ) |
||
**# فضاپیمای بدون سرنشین ( [[:en: |
**# فضاپیمای بدون سرنشین ( [[:en:Unmanned spacecraft|Unmanned spacecraft]] ) |
||
**# ربات های [[ربات انساننما|Humanoid]] ( پروژه [[:en: |
**# ربات های [[ربات انساننما|Humanoid]] ( پروژه [[:en:Atlas (robot)|Atlas robot]] ) |
||
**# [[:en:Nanorobotics|Nanobots]] |
**# [[:en:Nanorobotics|Nanobots]] |
||
خط ۱۶۳: | خط ۱۶۳: | ||
{{علوم رایانه}} |
{{علوم رایانه}} |
||
⚫ | |||
[[رده:بینایی رایانهای|بینایی کامپیوتر]] |
[[رده:بینایی رایانهای|بینایی کامپیوتر]] |
||
[[رده:پردازش تصویر]] |
[[رده:پردازش تصویر]] |
||
خط ۱۶۹: | خط ۱۷۰: | ||
[[رده:شبکه عصبی]] |
[[رده:شبکه عصبی]] |
||
[[رده:یادگیری ماشینی]] |
[[رده:یادگیری ماشینی]] |
||
⚫ |
نسخهٔ ۲۳ سپتامبر ۲۰۱۶، ساعت ۱۵:۳۴
بینایی کامپیوتر (به انگلیسی: Computer vision) یا بینایی ماشین (به انگلیسی: Machine vision) یکی از شاخههای علوم کامپیوتر است که شامل روشهای مربوط به دستیابی تصاویر، پردازش، آنالیز و درک محتوای آنها است. معمولاً این پردازشها تصاویر تولید شده در دنیای واقعی را به عنوان ورودی دریافت و دادههایی عددی یا سمبلیک را به عنوان خروجی تولید میکنند، مانند در شکلهایی از تصمیمگیری.[۱][۲][۳][۴] یکی رویههای توسعهٔ این شاخه بر اساس شبیهسازی توانایی بینایی انسان در رایانه است.
بینایی رایانهای به مسائل مختلفی از جمله استخراج داده از عکس، فیلم، مجموعه چند عکس از زوایای مختلف و پردازش تصاویر پزشکی میپردازد. معمولاً ترکیبی از روشهای مربوط به پردازش تصاویر[۵] و ابزارهای یادگیری ماشینی[۶] و آمار برای حل مسایل مختلف در این شاخه استفاده میگردد.
کاوش در دادهها
مقالهٔ اصلی: کاوشهای ماشینی در دادهها
بینایی ماشینی را میتوان یکی از مصادیق و نمونههای بارز زمینهٔ مادر و اصلیتر کاوشهای ماشینی دادهها بهحساب آورد که در آن دادهها تصاویر دوبعدی یا سهبعدی هستند، که آنها را با استفاده از هوش مصنوعی آنالیز میکنند.
وظایف اصلی در بینایی رایانهای
تشخیص شیء
تشخیص حضور و/یا حالت شیء در یک تصویر. به عنوان مثال:
- جستجو برای تصاویر دیجیتال بر اساس محتوای آنها (بازیابی محتوامحور تصاویر).
- شناسایی صورت انسانها و موقعیت آنها در عکسها.
- تخمین حالت سهبعدی انسانها و اندامهایشان.
پیگیری
پیگیری اشیاء شناخته شده در میان تعدادی تصویر پشت سر هم. به عنوان مثال:
- پیگیری یک شخص هنگامی که در یک مرکز خرید راه میرود.
تفسیر منظره
ساختن یک مدل از یک تصویر/تصویر متحرک. بهعنوان مثال:
- ساختن یک مدل از ناحیهٔ پیرامونی به کمک تصاویری که از دوربین نصب شده بر روی یک ربات گرفته میشوند.
خودمکانیابی
مشحص کردن مکان و حرکت خود دوربین به عنوان عضو بینایی رایانه. بهعنوان مثال:
سامانههای بینایی رایانهای
یک سامانهٔ نوعی بینایی رایانهای را میتوان به زیرسامانههای زیر تقسیم کرد:
تصویربرداری
تصویر یا دنباله تصاویر با یک سامانه تصویربرداری(دوربین، رادار، لیدار، سامانه توموگرافی) برداشته میشود. معمولاً سامانه تصویربرداری باید پیش از استفاده تنظیم شود.
پیشپردازش
در گام پیشپردازش، تصویر در معرض اَعمال «سطح پایین» قرار میگیرد. هدف این گام کاهش نوفه (کاهش نویز - جدا کردن سیگنال از نویز) و کمکردن مقدار کلی دادهها است. این کار نوعاً با بهکارگیری روشهای گوناگون پردازش تصویر(دیجیتال) انجام میشود. مانند:
- زیرنمونهگیری تصویر.
- اعمال فیلترهای دیجیتال.
- پیچشها.
- همبستگیها یا فیلترهای خطی لغزشنابسته.
- عملگر سوبل.
- محاسبهٔ گرادیان x و y(و احتمالاً گرادیان زمانی).
- تقطیع تصویر.
- آستانهگیری پیکسلی.
- انجام یک ویژهتبدیل بر تصویر.
- انجام تخمین حرکت برای ناحیههای محلی تصویرکه به نام تخمین شارش نوری هم شناخته میشود.
- تخمین ناهمسانی در تصاویر برجستهبینی.
- تحلیل چنددقتی.
استخراج ویژگی
هدف از استخراج ویژگی کاهش دادن بیش تر دادهها به مجموعهای از ویژگیهاست، که باید به اغتشاشاتی چون شرایط نورپردازی، موقعیت دوربین، نویز و اعوجاج ایمن باشند. نمونههایی از استخراج ویژگی عبارتاند از:
- انجام آشکارسازی لبه.
- استخراج ویژگیهای گوشهای.
- استخراج تصاویر چرخش از نقشههای ژرفا.
- بدست آوردن خطوط تراز و احتمالاً گذر از صفرهای خمش.
ثبت
هدف گام ثبت برقراری تناظر میان ویژگیهای مجموعه برداشت شده و ویژگیهای اجسام شناختهشده در یک پایگاه دادههای مدل و/یا ویژگیهای تصویر قبلی است. در گام ثبت باید به یک فرضیه نهایی رسید. چند روش این کار عبارتاند از:
- تخمین کمترین مربعات.
- تبدیل هاگ در انواع گوناگون.
- درهمسازی هندسی.
- پالودن ذرهای.
بینایی و تفسیر تصاویر در انسان ها
lز انجایی که هدف نهایی computer vision ساخت مفسر قدرتمند اجسام 3D , رنگ ها و عمق تصاویر هست. دانستن این موضوع که چگونه مغز موجودات, بینایی و دیدن را تفسیر می کند و اینکه چند درصد نورون های کل مغز در گیر این پروسه هستند نسبتا اهمیت پیدا می کند. مقاله زیر می تواند یک نگاه کلی از این روند پیچیده بدهد.
لینک منبع : how brain interprets vision ؟
حل مسئله تفسیر نور به ایده ها از جهان , درک بصری ویژگی ها و اشیا ، عملی خیلی پیچیده و به مراتب فراتر از توانایی های قدرتمند ترین ابرکامپیوتر های جهان است. بینایی نیازمند جدا کردن پیش ضمینه از پس ضمینه هست. تشخیص اشیا قرار گرفته در طیف گسترده ای از جهت ها , تفسیر نشانه های فضایی با دقت بالا . مکانیزم های نورونی در شبکه های عصبی ادراک بصری نگاه کلی از چگونگی محاسبه مغز در وضعیت های پیچیده برای تفسیر بینایی را به ما می دهد
ادراک بینایی زمانی اغاز می شوند که چشم نور را بر روی شبکیه چشم یا ( retina ) متمرکز می کند , که در آن جا توسط یک لایه از سلول های گیرنده نوری جذب می شود. این سلول ها نور را به سیگنال های الکتروشیمیایی تبدیل می کنند و به دو نوع، میله و مخروط تقسیم می شوند ( بر اساس شکل هایشان ) . سلولهای میله ای مسئول دید ما در شب هستند و به نور کم پاسخ خیلی خوبی می دهند. سلول های میله ای ( Rod cells ) عمدتا در مناطق پیرامونی از شبکیه چشم ( حول یا اطراف شبکیه ) یافت می شوند و بنابراین اکثر مردم این موضوع رو فهمیدن که اگر آنها نگاه خود را در شب متمرکز کنند می توانند منطقه مورد تمرکز رو بهتر ببینند.
سلولهای مخروطی ( Cone cells ) در یک منطقه مرکزی شبکیه متمرکز به نام گودال متمرکز شده اند که فرورفتگی ( یا fovea ) هم نام دارد. انها مسئول وظایف سنگین و دقیقی مثل خواندن هستند. سلول های Cone و بسته به اینکه به نور آبی , قرمز , سبز چگونه واکنش می دهند به سه دسته تقسیم می شوند، و در مجموع این سه نوع از Cone ما را قادر به درک رنگ ها می کنند. سیگنال ها از سلول های گیرنده نوری ( photoreceptor cells ) از طریق شبکه ای از interneurons ها در لایه دوم شبکیه چشم به سلول های ganglion در لایه سوم منتقل می شوند. نورون های در این دو لایه از شبکیه زمینه پذیرای پیچیده ای که آنها را قادر به تشخیص تضاد های تغییراتی در یک تصویر می کند را ارائه می دهند : این تغییرات ممکن است لبه ها و یا سایه ها را نشان دهد. سلول های Ganglion این اطلاعات را به همراه دیگر اطلاعات در مورد رنگ جمع آوری می کنند و خروجی خود را به مغز از طریق عصب بینایی ارسال می کنند. عصب یا Nerve بینایی در درجه اول اطلاعات را از طریق thalamus به قشاء مغزی ( cerebral cortex ) ارسال می کند. پس از ارسال اطلاعات در قسمت cerebral cortex ادراک بصری انسان به وقوع می پیوندد. اما در عین حال این عصب (Nerve) حامل اطلاعات مورد نیاز برای مکانیک دید نیز هست که به دو قسمت از ساقه مغز (brainstem) این اطلاعات را منتقل می کند . اولین قسمت از brainstem گروهی از سلول های هسته هستند که pretectum نام دارند که کنترل غیر ارادی اندازه مردمک در پاسخ به شدت نور را بر عهده دارند. اطلاعات مربوط به اهداف متحرک و اطلاعات ساکن اسکن شده توسط چشم نیز به قسمت دوم در brainstem منتقل می شود , یک هسته که با نام superior colliculus شناخته می شود مسئول حرکات چشم در پرش های کوتاه هست. بخش دیگر از این دو قسمت saccades هست که به مغز اجازه درک یک اسکن هموار را با کمک چسباندن سری از تصاویر نسبتا ثابت می دهد. Saccadic eye movement مشکل تاری شدید رو که می تونه برای تصویر پیش بیاد را حل می کند. اگر چشم می تواند به صورت هموار در سراسر چشم انداز بصری حرکت کند؛ saccades ها در بعضی از وضعیت ها تجربه بصری رو ممکن و آسان می کنند مانند مشاهده چشم فرد دیگری برای شما, در حالی که اون فرد در تلاش برای نگاه کردن سرتاسر اتاق هست.
بسیاری از تصاویر از شبکیه چشم ( retina ) از طریق عصب بینایی به بخشی از thalamus که به نام ( lateral geniculate nucleus ) شناخته شده است و در اختصار (LGN) هم کفته می شود منتقل می شوند , thalamus در عمق مرکز مغز قرار گرفته. LGN ورودی شبکیها ( retinal ) را به جریان های موازی مورد جدا سازی قرار می دهد, که یکی حاوی رنگ و ساختار ثابت و دیگری حاوی تضاد ها (contrast) و حرکات هست. سلول هایی که پردازش رنگ و ساختار را انجام می دهند چهار لایه بالایی از شش لایه LGN را تشکیل می دهند. اون چهار لایه به علت کوچکی سلول ها , parvocellular نامیده می شوند. سلول هایی که پردازش حرکات و تضاد های تصویر رو انجام می دهند دو لایه پایینی LGN رو تشکیل می دهند و به علت بزرگی سلول های اون قسمت لایه magnocellular نامیده می شوند .
سلول های لایه های magnocellular و parvocellular همه راه ها رو به بخش های پشت مغز و به سمت قشر بینایی اولیه ( Visual cortex _ V1 ) طرح ریزی می کند. سلول ها در V1 در چندین راه مرتب شده اند که این اجازه می دهد سیستم بینایی محل اشیاء را در فضا محاسبه کند. در ابتدا سلول های V1 به صورت retinotopically یا موضعی سازمان یافته اند , که به معنای این است که نقطه به نقطه روی نقشه بین شبکیه و قشر بینایی اولیه وجود دارد و مناطق همجوار در شبکیه چشم با مناطق همجوار در V1 مطابقت دارد. که این به V1 اجازه می دهد که موقعیت اشیا رو در دو بعد از جهان بصری که افقی و عمودی یا همون ( x , y ) هست تعیین کند. بعد سوم و عمق نیز با مقایسه سیگنال های دو چشم توسط V1 نقشه برداری و تعیین می شود. این سیگنال ها در پشته سلولها که ستون ocular dominance نامیده می شوند پردازش می شوند , که یک الگوی شطرنجی اتصالات متناوب بین سمت چپ و چشم راست. اختالفی جزئی در موقعیت یک شی نسبت به هر چشم اجازه می دهد تا به عمق توسط مثلث محاسبه شود.
در نهایت، V1 به ستون های جهت گیری سازمان یافته است، پشته از سلول ها که به شدت توسط خطوط یک جهت گیری داده شده , فعال می شوند. ستون های جهت برای تشخیص لبه های اشیاء در جهان بصری , V1 را قادر می سازند، و به طوری که آنها کار پیچیده ای از تشخیص بصری را شروع می کنند. سازمان ستونی از قشر بینایی اولیه برای اولین بار توسط David Hubel و Torsten Wiesel توصیف شده است، که در نتیجه بخاطر این موضوع جایزه نوبل 1981 را بردند.
جالب توجه است که این الگوی شطرنجی, سازمان ستونی V1 در هنگام تولد بسیار مبهم است. قشر بینایی یک نوزاد تازه متولد شده رشد بیش از حد (hypertrophy) , یا اتصالات اتفاقی دارد که باید به دقت و بر اساس تجربه بصری در بلند مدت هرس شوند ، و در نهایت به ستون های جداگانه تعریف شده تبدیل شوند. که این در واقع یک کاهش در تعداد اتصالات و نه افزایش اتصالات خواهد بود , که در نهایت توانایی نوزاد برای دیدن جزئیات ریز و به رسمیت شناختن اشکال و الگوها را بهبود می بخشد.
این نوع از پالایش وابسته , به فعالیت به V1 محدود نمی شود. و در بسیاری از مناطق سراسر قشر مغز ( cerebral cortex ) رخ می دهد. در همان زمان که توانایی تبعیض خطوط و لبه در قشر بینایی اولیه بهبود می یابد ، سلول ها را در قشر بینایی ثانویه ( secondary visual cortex V2 ) , توانایی خود را برای تفسیر رنگ پالایش می کنند. V2 تا حد زیادی مسئول پدیده ثبات رنگ است. و این حقیقت را توضیح می دهد که واقعیت یک گل سرخ تحت تاثیر بسیاری از رنگ های مختلف نور توسط ما هنوز هم به رنگ سرخ به نظر می رسد. این طور گمان می شه که ثبات رنگ وقتی رخ می دهد که V2 می تواند یک شئی و نور محیط را مقایسه کند و می تواند براورد رنگ روشنایی را کاهش دهد. با اینحال این پروسه با توجه به اینکه بیننده انتظار دارد اون شی به چه رنگی باشد به شدت تحت تاثیر قرار می گیرد.
در حقیقت، تقریبا تمام ویژگی های مرتبه بالاتر از بینایی و منظره توسط انتظارات بر اساس تجربه گذشته تحت تاثیر قرار می گیرد. این ویژگی به گسترش رنگ و درک فرم موجود در V3 و V4، به چهره و تشخیص شی در لوب temporal ( جایی که تصویر ذهنی سه بعدی از انچه که می بینیم در نهایت تشکیل می شود ) و به حرکت و آگاهی از فضای موجود در لوب parietal می انجامد. اگر چه چنین روش و تأثیراتی گاها اجازه می دهد مغز تحت تاثیر تصورات نادرست فریب بخورد ، برای مثال در مواقع خطای دید در برخی از تصاویر , با اینحال ان روش پردازش همینطور به ما توانایی دیدن و پاسخ سریع به جهان بصری را داده است. از تشخیص روشنایی و تاریکی در شبکیه چشم ( retina ) تا خطوط انتزاعی در V1 تا تفسیر اشیا و روابط فضاییشان در ناحیه های بصری بالاتر، هر وظیفه ای در ادراک بصری کارایی و قدرت سیستم بینایی انسان را نشان می دهد.
جزئیات بیشتر درباره هر قسمت از قشر بینایی ː
جستارهای وابسته
- هوش مصنوعی
- یادگیری ماشین
- کاوشهای ماشینی در دادهها
- محاسبات نرم
- منطق فازی
- پردازش تصاویر
- تشخیص پلاک خودرو
- علوم کامپیوتر
- بینایی انسان
- Biorobotics
- شبکه های عصبی
موارد حال حاضر استفاده از تکنولوژی computer vision
- کاربرد های غیر نظامی
- سرچ پیدا کردن تصاویر مشابه در سرویس های Google یا Bing
- سرویس های شناختی Microsoft
- پیدا کردن افراد یکسان در تصاویر حتی در صورتی که انها تغییر فیافه داده باشند
- سرویس تشخیص احساسات لحظه ای افراد مبتنی بر تصاویر
- سرویس تشخیص سن افراد و جنسیت و . . . در تصاویر
- سرویس PhotoDNA
- سرویس قدرتمند تبدیل نوشته های موجود در تصاویر به متن
- تشخیص چهره در ویدیو به صورت real time
- تبدیل گفتار به متن
- تشخیص لحن گفتار بر پایه متن
- سرویس پیدا کردن مفاهیم بر پایه محتویات متنی
- سرویس های تشخیص زبان های طبیعی
- سرویس توصیف تصاویر
- ربات های چت پیشرفته ( از جمله این ربات ها می شه به Tay در twitter اشاره کرد )
- و سرویس های دیگر . . . .
- سرویس های شناختی IBM
- تشخیص احساسات بر پایه تصاویر
- سرویس اپن سورس توصیف تصاویر با node.js ( سورس code )
- توصیف محتوا های متنی
- سرویس شناختی انالیز شبکه های اجتماعی
- ربات های خودکار پاسخ دهنده هوشمند به کاربران
- تشخیص احساسات بر پایه ی محتوای متنی
- سرویس گراف های شناختی از داده های تاریک
- کسب و کار های شناختی
- تشخیص real time ایتم های مختلف با تراشه SyNAPSE
- و سرویس های دیگر . . . .
- خودرو های خودران Google و بقیه شرکت ها
- استفاده برای تشخیص چهره در گرفتن عکس در تلفن های همراه همچنین استفاده در سرویس شبکه اجتماعی فیسبوک جهت نوشتن نام ها بر روی تصاویر
- استفاده در فروشگاه ها برای دنبال کردن سلایق بازدید کننده گان
- استفاده در تشخیص پلاک خودرو
- درمان بیماری ها و تومور ها و سرطان با Nanobots های که انرژی خود را از برخورد اتفاقی با سلول ها به دست می اورند [۱]
- کاربرد های نظامی
- تشخیص و شناسایی چهره افراد در فرودگاها و مراکز حساس دیگر
- وسایل حرکتی بدون سرنشین _ مستقل ( Uncrewed vehicle )
- خودرو های زمینی بدون سرنشین نظامی چند منظوره با قابلیت های استفاده موتوریزه و انتقال نیرو ها و تجهیزات . . . ( Unmanned ground vehicle )
- زیردریایی بدون سرنشین ː زیردریایی شرکت بوئینگ ( Boeing submarine ) که قابلیت ماه ها ماندن در زیر دریا و بررسی و ارسال اطلاعات به طور کاملا مستقل را قادر می باشند [۲]
- ناو های بدون سرنشین ː ناو های ضد زیردریایی ACTUV ساخت DARPA (سازمان پروژههای تحقیقاتی پیشرفتهٔ دفاعی )[۳]
- هواپیما های بدون سرنشین و پهپاد ها با کنترل مستقل ( Unmanned aerial vehicle )
- فضاپیمای بدون سرنشین ( Unmanned spacecraft )
- ربات های Humanoid ( پروژه Atlas robot )
- Nanobots
منابع
- Gonzalez, R. C. , and Woods, R. E. Digital Image Processing, 2nd edition, Prentice-Hall, Inc. , 2002
پانویس
- ↑ Reinhard Klette (2014). Concise Computer Vision. Springer. ISBN 978-1-4471-6320-6.
- ↑ Linda G. Shapiro and George C. Stockman (2001). Computer Vision. Prentice Hall. ISBN 0-13-030796-3.
- ↑ Tim Morris (2004). Computer Vision and Image Processing. Palgrave Macmillan. ISBN 0-333-99451-5.
- ↑ Bernd Jähne and Horst Haußecker (2000). Computer Vision and Applications, A Guide for Students and Practitioners. Academic Press. ISBN 0-13-085198-1.
- ↑ Image processing
- ↑ Machine learning