شناسایی فعالیت

در دهه‌های گذشته تعداد دوربین‌های فیلم‌برداری در همهٔ بخش‌های زندگی بشر افزایش یافت است که در نتیجهٔ ان حجم ویدئوهای ایجاد شده نیز بسیار زیاد شده است. حتی گوشی‌های همراه هم یک یا چند دوربین دارند. از این رو شناسایی انسان به عنوان عنصر مؤثر و اصلی بسیاری از ویدئوها و درک فعالیت‌های او اهمیت فراوانی دارد. کاربردهایی همچون نام‌گذاری کردن ویدئو بر اساس محتوا و استخراج محتوا، استخراج بخش‌های اساسی و خلاصه کردن ان نیازمند به شناسایی فعالیت‌هایی است که در ان ویدئو اتفاق می‌افتد. بررسی فعالیت‌های انسانی، شامل محدوده‌ای با کاربردهای فزاینده همچون امنیت، محتوای ویدئو و دسته‌بندی شخصی است. در سال‌های اخیر کاربردهای جدیدی برای شناخت فعالیت‌های انسانی در ویدئو پیدا شده است مثل شاخص‌های رفتاری، امنیت، بررسی ویدئو بر اساس محتوا، سنتز حرکات انسانی برای تعامل با کامپیوترها، بررسی ویدئوهای ورزشی و مراقبت از افراد ناتوان. چالش‌های متفاوتی در مراحل مختلف کار وجود دارد (برای مثال مقاومت در برابر خطا در مراحل اولیهٔ پردازش، نمایش و ارائهٔ متغیر با رتبه‌بندی در مراحل میانی پردازش و ارائهٔ معنایی فعالیت‌های انسانی در سطح بالای پردازش) که کار را مشکل می‌سازند. از جمله چالش‌های دیگر برای شناخت فعالیت می‌توان به پس زمینه‌های متفاوت، حجم بالای داده‌ها، ویدئوها از نمای مختلف و … اشاره کرد. چالش دیگری که در این مسئله وجود دارد بررسی دیتاست‌هایی است که بر اساس حرکات در دنیای واقعی (نه محیط آزمایشگاهی) انجام می‌شوند.^[۱]^[۲]

ورودی‌های سیستم

سنسوری

در واقع شناخت حرکت در انسان خود با کمک دو نوع ورودی مختلف انجام می‌شود. در یک حالت ورودی‌ها از سنسورهایی که در نقاط مختلف بدن نصب می‌شوند دریافت می‌شود. در این حالت بسته به کاربرد تعداد و محل قرارگیری سنسورها متفاوت است. سیستم بازشناسی حرکت بر اساس ورودی سنسوری معمولاً بر این اساس کار می‌کنند که کدام سنسور فعال شده است تا یک فعالیت انجام شود. سپس سیستم احتمالات شرطی حاصل از این سنسورها را ترکیب می‌کند تا حرکات مختلف را شناسایی کند و تصمیم بگیرد که چه حرکتی انجام شده است.^[۳]

تصاویر ویدئویی

روش دوم برای استخراج ویژگی‌ها با استفاده از دوربین است. شناسایی رفتار انسان، به عنوان یک موضوع تحقیقاتی مؤثر در بینایی کامپیوتری، از سال ۱۹۸۰ مورد پژوهش قرار گرفته است. در دههٔ گذشته، تحقیقات علمی عمدتاً بر روی یادگیری و تشخیص رفتارها از دنباله‌های ویدئویی به دست آمده از یک دوربین ساده، متمرکز بوده است و می‌توان منابع غنی را در طیف وسیعی از رشته‌ها از جمله بینایی کامپیوتری، تشخیص الگو، یادگیری ماشین و پردازش سیگنال یافت. اگر چه در طی تمامی این سال‌ها، پیشرفت‌های زیادی در زمینه استخراج ویژگی، بازنمایی ویژگی و کلاس بندی صورت گرفته است، اما شناسایی رفتار انسان همچنان یک چالش بزرگ محسوب می‌شود. در این زمینه مشکلات زیادی همچون تغییرپذیری بالای درون کلاسی (انجام یک عمل به صورت‌های مختلف توسط افراد مختلف) و تغییرات پایین میان کلاسی (مانند شباهت عمل نوشیدن و خوردن)، پس زمینه‌های متحرک و پیچیده، حرکت دوربین و زاویه دیدهای متفاوت، وجود دارد. در سال‌های اخیر با کاهش هزینه‌های دسترسی، دوربین‌های ثبت محدوده، مورد استفاده قرار گرفته‌اند. در واقع این دوربین‌ها، تصاویر دوبعدی عمقی ایجاد می‌کنند به گونه‌ای که هر پیکسل در این تصاویر، نشانگر فاصله آن نقطه از سنسور دوربین است. این دوربین‌ها می‌توانند با مهیا کردن یک توالی از نقشه‌های عمقی، تا حد زیادی مشکلات مزبور را حل کنند. در گذشته با توجه به قیمت بالای این نوع خاص از دوربین‌ها، استفاده از آن‌ها در این حوزه، بسیار محدود بوده است. از سال ۲۰۱۰ میلادی، با انتشار دوربین کینکت شرکت مایکروسافت، امکانی جدید برای رسیدگی به این نوع مسائل فراهم شده است. کینکت، یک جریان عمقی و یک جریان رنگی مهیا می‌کند و در فیلدهای گسترده‌ای از جمله تشخیص و ردیابی افراد به کار می‌رود. با توجه به ساختار تصاویر عمقی، می‌توان به توسعه روش‌های مقاوم در برابر تغییرات پس زمینه و زاویه دید امید داشت. البته در سال‌های اخیر شرکت Intel هم سنسور real sense را معرفی کرد که قابلیت‌هایی بالاتر از کینکت ماکروسافت دارد و صنعتی تر است؛ مثلاً دوربین کینکت در استفادهٔ طولانی مدت به دلیل بالا رفتن حرارت با مشکل نویز مواجه می‌شود که سنسور real sense از این لحاظ عملکرد بهتری دارد. همچنین باید ذکر شود که فقط این دو سنسور نیستند که در شناخت حرکت کاربرد دارند بلکه در بسیاری از روش‌ها داده‌ها به صورت خام از دوربین گرفته می‌شود که به روش‌های سنگین تری برای استخراج ویژگی‌ها نیاز دارد.

منابع

↑ شایق بروجنی، حمیدرضا؛ سیدحامد میرسعیدی و نگار رواسانی، ۱۳۹۵، شناسایی رفتار انسان از ویدئوهای عمقی به کمک الگوریتم زیرفضای تصادفی، کنفرانس بین‌المللی مهندسی کامپیوتر و فناوری اطلاعات، تهران، دبیرخانه دایمی کنفرانس، http://www.civilica.com/Paper-CITCOMP01-CITCOMP01_114.htm بایگانی‌شده در ۱ اکتبر ۲۰۱۶ توسط Wayback Machine
↑ ایوائی مهریزی، الهام و سعید مظفری، ۱۳۹۳، شناسایی حرکات انسان با توصیفگرهای فضازمان کاهش یافته، دومین کنفرانس بین‌المللی بازشناسی الگو و تحلیل تصویر، رشت، انجمن ماشین بینایی و پردازش تصویر ایران، دانشگاه گیلان، http://www.civilica.com/Paper-IPRIA02-IPRIA02_039.html
↑ Abdullah-Al-Wadud, M. "A Human Activity Recognition System Based On Sensory Data Related to Object Usage." World Academy of Science, Engineering and Technology, International Journal of Mechanical, Aerospace, Industrial, Mechatronic and Manufacturing Engineering 8.1: pp. 34-36.

[1] شایق بروجنی، حمیدرضا؛ سیدحامد میرسعیدی و نگار رواسانی، ۱۳۹۵، شناسایی رفتار انسان از ویدئوهای عمقی به کمک الگوریتم زیرفضای تصادفی، کنفرانس بین‌المللی مهندسی کامپیوتر و فناوری اطلاعات، تهران، دبیرخانه دایمی کنفرانس، http://www.civilica.com/Paper-CITCOMP01-CITCOMP01_114.htm بایگانی‌شده در ۱ اکتبر ۲۰۱۶ توسط Wayback Machine

[2] ایوائی مهریزی، الهام و سعید مظفری، ۱۳۹۳، شناسایی حرکات انسان با توصیفگرهای فضازمان کاهش یافته، دومین کنفرانس بین‌المللی بازشناسی الگو و تحلیل تصویر، رشت، انجمن ماشین بینایی و پردازش تصویر ایران، دانشگاه گیلان، http://www.civilica.com/Paper-IPRIA02-IPRIA02_039.html

[3] Abdullah-Al-Wadud, M. "A Human Activity Recognition System Based On Sensory Data Related to Object Usage." World Academy of Science, Engineering and Technology, International Journal of Mechanical, Aerospace, Industrial, Mechatronic and Manufacturing Engineering 8.1: pp. 34-36.

[۱]

[۲]

[۳]