تشخیص عابر پیاده

تشخیص عابر پیاده یک کار ضروری و مهم در هر سیستم نظارت تصویری هوشمند است، زیرا اطلاعات اساسی برای درک معنایی فیلم‌های ویدئویی را فراهم می‌کند که به دلیل داشتن پتانسیل برای بهبود سیستم‌های ایمنی، گسترش آشکاری در برنامه‌های کاربردی خودرو دارد. بسیاری از تولیدکنندگان خودرو (به‌طور مثال ولوو، فورد، جنرال موتورز و نیسان) این را به عنوان یک گزینه سیستم پیشرفته کمک راننده در سال ۲۰۱۷ ارائه کردند.

چالش‌ها

سبک‌های مختلف لباس‌ها در ظاهر
فصل‌بندی‌های مختلف ممکن
وجود لوازم مسدود کننده
انسدادهای مکرر بین عابرین پیاده

رویکردهای موجود

علیرغم چالش‌ها، تشخیص عابر پیاده هنوز در سال‌های اخیر یه عنوان یک حوزه تحقیقاتی فعال در بینایی کامپیوتری مانده و رویکردهای بسیاری پیشنهاد شده است.

تشخیص کلی نگر

آشکارسازها تعلیم داده شدند تا با اسکن کل یک فریم ویدئویی عابرین پیاده را جستجو کنند. اگر ویژگی‌های داخل تصویر محلی با معیارهای خاصی مطابقت داده شوند به اصلاح «شلیک» می‌کنند. بعضی از روش‌ها از ویژگی‌های سراسری مانند الگوی لبه استفاده می‌کنند، بعضی دیگر هم از ویژگی‌های محلی مانند هیستوگرام توصیفگرهای گرادیانی استفاده می‌کنند. مشکلی که این روش دارد این است که عملکرد را می‌توان به راحتی با آشفتگی پس زمینه یا انسداد تحت تأثیر قرار داد.

تشخیص بخش محور

عابرین پیاده به عنوان مجموعه ای از قطعات مدل می‌شوند که ابتدا با یادگیری ویژگی‌های محلی که شامل ویژگی‌های لبه و جهت‌گیری است افراض می‌شوند. سپس این بخش‌ها به همدیگر ملحق می‌شوند تا بهترین مجموعه از فرایض عابر پیاده تشکیل شود. اگرچه به نظر می‌رسد این روش جذاب باشد اما تشخیص قطعه به خودی خود کار سخت و دشواریست. اجرای این رویکرد از یک روش استاندارد برای پردازش داده‌های تصویر پیروی می‌کند که ابتدا شامل ایجاد یک هرم تصویری با نمونه برداری متراکم، محاسبه ویژگی‌ها در هر سطحی، طبقه‌بندی در همه مکان‌های ممکن و در نهایت حذف غیر حداکثری برای ایجاد مجموعه بسته‌های محدودکننده نهایی.

تشخیص تکه محور

در سال ۲۰۰۵، لیبه و همکاران، روشی را پیشنهاد دادند که هم تشخیص و هم تقسیم‌بندی را با نام مدل شکل ضمنی(ISM) ترکیب می‌کند. یک کتاب کد از ظاهر ظواهر محلی در طول یادگیری آموزش داده می‌شود. در پروسه تشخیص از ویژگی‌های محلی استخراج شده برای تطبیق با ورودی‌های کتاب کد استفاده می‌شود و هر تطابق یک رای به فرض عابرپیاده اضافه می‌کند. با اصلاح بیشتر این فرض‌ها می‌توان نتیجه تشخیص نهایی را به‌دست آورد. از مزایای این روش می‌توان به نیاز کم تصاویر آموزشی اشاره کرد.

تشخیص حرکت محور

وقتی شرایط اجازه بدهد (دوربین و شرایط روشنایی ثابت باشند و غیره) حذف کننده پس زمینه می‌تواند به شناسایی عابرین پیاده کمک کند. حذف کننده پس زمینه پیکسل‌های جریان ویدئویی را به عنوان پس زمینه، جایی که هیچ حرکتی شناسایی نمی‌شود یا پیش زمینه، جایی که حرکت شناسایی می‌شود طبقه‌بندی می‌کند. این روش سایه‌های (اجزای متصل به پیش زمینه) هر عنصر متحرک در صحنه از جمله افراد را برجسته می‌کند. الگوریتمی در دانشگاه لیژ برای تجزیه و تحلیل شکل این سایه‌ها به منظور شناسایی انسان‌ها درست شده است. از آنجایی که روش‌هایی که سایه‌ها را به عنوان یک کل در نظر می‌گیرد و یک طبقه‌بندی واحد را انجام می‌دهد، به‌طور کلی نسبت به نقص‌های شکل بسیار حساس هستند، یک روش بخش محور که سایه‌ها را در مجموعه ای از مناطق کوچک‌تر تقسیم می‌کند برای کاهش تأثیر نقصان‌ها ارائه شده است. برخلاف سایر روش‌ها، این مناطق این معنای تشریحی ای ندارند. این الگوریتم برای تشخیص انسان‌ها در جریان‌های ویدئویی سه بعدی گسترش یافته است.

تشخیص با استفاده از چندین دوربین

فلورت و همکاران روشی را برای ادغام چند دوربین کالیبره شده و تشخیص چند عابر پیاده پیشنهاد دادند. در این روش صفحه زمین به سلول‌های شبکه ای یکنواخت و بدون هم پوشانی معمولاً در اندازه‌های ۲۵ در ۲۵ سانتی‌متر تقسیم می‌شوند. آشکارساز یک نقشه احتمال اشغال(POM) تولید می‌کند که تخمینی از احتمال اشغال شدن هر سلول شبکه توسط یک شخص ارائه می‌دهد. با توجه به دو تا چهار پخش ویدئویی هماهنگ که در سطح چشم و از زوایای گوناگون گرفته شده این روش می‌تواند به‌طور مؤثر یک مدل تولیدی را با برنامه‌نویسی پویا ترکیب کند تا علیرغم انسداد و تغییرات روشنایی قابل توجه، شش شخص مجزا را در هزاران فریم به‌طور دقیق دنبال کند. همچنین می‌تواند مسیرهای متریک دقیقی را برای هرکدام از اشخاص استخراج کند.

منابع

C. Papageorgiou and T. Poggio, "A Trainable Pedestrian Detection system", International Journal of Computer Vision (IJCV), pages 1:15–33, 2000
^ N. Dalal, B. Triggs, “Histograms of oriented gradients for human detection”, IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), pages 1:886–893, 2005
^ Bo Wu and Ram Nevatia, "Detection of Multiple, Partially Occluded Humans in a Single Image by Bayesian Combination of Edgelet Part Detectors", IEEE International Conference on Computer Vision (ICCV), pages 1:90–97, 2005
^ Mikolajczyk, K. and Schmid, C. and Zisserman, A. "Human detection based on a probabilistic assembly of robust part detectors", The European Conference on Computer Vision (ECCV), volume 3021/2004, pages 69–82, 2005
^ Hyunggi Cho, Paul E. Rybski, Aharon Bar-Hillel and Wende Zhang "Real-time Pedestrian Detection with Deformable Part Models"
^ B.Leibe, E. Seemann, and B. Schiele. "Pedestrian detection in crowded scenes" IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pages 1:878–885, 2005
^ O. Barnich, S. Jodogne, and M. Van Droogenbroeck. "Robust analysis of silhouettes by morphological size distributions" Advanced Concepts for Intelligent Vision Systems(ACIVS), pages 734–745, 2006
^ S. Piérard, A. Lejeune, and M. Van Droogenbroeck. "A probabilistic pixel-based approach to detect humans in video streams" IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP), pages 921–924, 2011
^ S. Piérard, A. Lejeune, and M. Van Droogenbroeck. "3D information is valuable for the detection of humans in video streams" Proceedings of 3D Stereo MEDIA, pages 1–4, 2010
^ F. Fleuret, J. Berclaz, R. Lengagne and P. Fua, Multi-Camera People Tracking with a Probabilistic Occupancy Map, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, Nr. 2, pp. 267–282, February 2008.