تشخیص سه‌بعدی اشیاء

در بینایی رایانه‌ای، تشخیص اشیاء سه بعدی شامل تشخیص و تعیین اطلاعات سه بعدی، مانند حالت، حجم، یا شکل، یا اشیاء سه بعدی انتخابی کاربر در یک عکس یا محدوده یک اسکن است. به‌طور معمول، نمونه‌ای از شیئی که باید شناسایی شود به یک سیستم بینایی در یک محیط کنترل‌شده ارائه می‌شود و سپس برای یک ورودی دلخواه مانند یک ویدئو، سیستم، شیء ارائه‌شده قبلی را مکان‌یابی می‌کند. این را می‌توان هم به صورت آفلاین یا هم در زمان بی‌درنگ انجام داد. الگوریتم‌های حل این مشکل برای مکان‌یابی یک شی از پیش شناسایی شده، تخصصی هستند و می‌توانند با الگوریتم‌هایی که بر روی کلاس‌های کلی اشیاء کار می‌کنند، مانند سیستم‌های تشخیص چهره یا تشخیص شی‌های عمومی سه بعدی، مقایسه شوند. با توجه به هزینه کم و سهولت گرفتن عکس، تحقیقات قابل توجهی به تشخیص اشیاء سه بعدی در عکس‌ها اختصاص یافته است.

تشخیص سه بعدی یک شی در عکس‌ها[ویرایش]

روش تشخیص یک شی سه بعدی به ویژگی‌های یک شی بستگی دارد. برای سادگی، بسیاری از الگوریتم‌های موجود بر روی تشخیص اجسام صلب متشکل از یک بخش متمرکز شده‌اند، یعنی اجسامی که تبدیل فضایی آنها یک حرکت اقلیدسی است. دو روش کلی برای این مشکل در نظر گرفته شده است: روش‌های تشخیص الگو از اطلاعات ظاهری تصویر سطح پایین، برای مکان‌یابی یک شی استفاده می‌کنند، در حالی که روش‌های هندسی مبتنی بر ویژگی، مدلی را برای شیئی که باید شناسایی شود، می‌سازند و مدل را با آن مطابقت می‌دهند.

روش‌های تشخیص الگو[ویرایش]

این روش‌ها از اطلاعات ظاهری جمع‌آوری‌شده از پیش‌بینی‌های از پیش گرفته شده یا از پیش محاسبه شده یک شی استفاده می‌کنند تا با شی در صحنهٔ بالقوه به هم ریخته مطابقت داشته باشند. با این حال، آنها محدودیت‌های هندسی سه بعدی شی را در طول تطبیق در نظر نمی‌گیرند و همچنین معمولاً انسداد و رویکردهای مبتنی بر ویژگی را کنترل نمی‌کنند.

روش‌های هندسی مبتنی بر ویژگی[ویرایش]

روش‌های مبتنی بر ویژگی برای اشیایی که ویژگی‌های متمایزی دارند به خوبی کار می‌کنند. تاکنون، اشیایی که دارای ویژگی‌های لبه یا ویژگی‌های لکه‌ای هستند با موفقیت شناسایی شده‌اند. برای مثال الگوریتم‌های تشخیص، به ترتیب به آشکارساز منطقه افین هریس و SIFT مراجعه کنید. به دلیل عدم وجود خصیصه یاب‌های مناسب، اجسام بدون سطوح صاف و بافت دار در حال حاضر با این روش قابل کنترل نیستند.

تشخیص‌دهنده‌های شی مبتنی بر ویژگی عموماً با از پیش گرفتن تعدادی نماهای ثابت از شی مورد شناسایی، استخراج ویژگی‌ها از این نماها و سپس در فرایند تشخیص، تطبیق این ویژگی‌ها با صحنه و اعمال محدودیت‌های هندسی کار می‌کنند.

به عنوان مثال از یک سیستم نمونه اولیه که این روش را اتخاذ می‌کند، ما یک طرح کلی از روش استفاده شده توسط [Rothganger et al. 2004]، با برخی از جزئیات حذف شده ارائه خواهیم کرد. این روش با این فرض شروع می‌شود که اشیاء تحت دگرگونی‌های صلب جهانی قرار می‌گیرند؛ زیرا سطوح صاف به صورت موضعی مسطح هستند، ویژگی‌های ثابت پیوسته برای تطبیق مناسب هستند: مقاله مناطق بیضی شکل مورد نظر را با استفاده از ویژگی‌های لبه مانند و لکه مانند تشخیص می‌دهد و طبق [Lowe 2004]، جهت گرادیان غالب بیضی را پیدا می‌کند، بیضی را به متوازی الاضلاع تبدیل می‌کند و یک توصیفگر SIFT (تبدیل ویژگی مقیاس‌نابسته) روی متوازی الاضلاع حاصل می‌گیرد. اطلاعات رنگ نیز فقط برای بهبود تمیز نسبت به ویژگی‌های SIFT استفاده می‌شود.

در مرحله بعد، با توجه به تعدادی نماهای دوربین از شی (۲۴ در مقاله)، این روش یک مدل سه بعدی برای شی می‌سازد که شامل موقعیت مکانی و جهت‌گیری سه بعدی هر ویژگی است. از آنجایی که تعداد نماهای شی زیاد است، معمولاً هر ویژگی در چندین نمای مجاور وجود دارد. نقاط مرکزی چنین ویژگی‌های تطبیقی مطابقت دارند، و ویژگی‌های شناسایی شده در جهت گرادیان غالب تراز می‌شوند، بنابراین نقاط (۱، ۰) در سیستم ویژگی مختصات دکارتی متوازی الاضلاع نیز مطابق دارند مانند نقاط (۰، ۱) در سیستم مختصات دکارتی متوازی الاضلاع؛ بنابراین برای هر جفت ویژگی منطبق در نماهای نزدیک، مطابق جفت سه نقطه مشخص است. با توجه به حداقل دو ویژگی تطبیق، یک ساختار وابسته چند نما از الگوریتم حرکت (ببینید [Tomasi and Kanade 1992]) می‌تواند برای ساخت تخمینی از موقعیت نقاط (تا یک تبدیل دلخواه) استفاده شود؛ بنابراین مقاله Rothganger و همکاران دو نمای مجاور را انتخاب می‌کند، از یک روش مانند RANSAC (اجماع نمونه تصادفی) برای انتخاب دو جفت ویژگی متناظر استفاده می‌کند، و ویژگی‌های جدیدی را به مدل جزئی ساخته‌شده توسط RANSAC تا زمانی که تحت یک عبارت خطا هستند، اضافه می‌کند؛ بنابراین برای هر جفت نمای مجاور معین، الگوریتم یک مدل جزئی از همه ویژگی‌های قابل مشاهده در هر دو نما ایجاد می‌کند.

برای تولید یک مدل یکپارچه، مقاله بزرگ‌ترین مدل جزئی را می‌گیرد و به صورت تدریجی همه مدل‌های جزئی کوچکتر را با آن تراز می‌کند. کمینه سازی سراسری برای کاهش خطا استفاده می‌شود، سپس از ارتقای اقلیدسی برای تغییر موقعیت ویژگی‌های مدل از مختصات سه بعدی منحصر به فرد تا تبدیل وابسته به مختصات سه بعدی استفاده می‌شود که تا حرکت اقلیدسی منحصر به فرد هستند. در پایان این مرحله، یک مدل از شی مورد نظر، متشکل از ویژگی‌هایی است که در یک فضای سه بعدی مشترک پیش‌بینی شده است.

برای تشخیص یک شی در یک تصویر ورودی دلخواه، مقاله ویژگی‌ها را شناسایی می‌کند و سپس از RANSAC برای یافتن ماتریس پیش‌نمایش وابسته استفاده می‌کند که بهترین تناسب را با مدل شی یکپارچه با فضای دوبعدی دارد. اگر این رویکرد RANSAC دارای خطای کافی کم باشد، سپس با موفقیت، الگوریتم هم شیء را تشخیص می‌دهد و هم وضعیت جسم را بر حسب یک پیش‌بینی نزدیک به آن می‌دهد. تحت شرایط مفروض، روش به‌طور معمول به نرخ تشخیص حدود ۹۵٪ دست می‌یابد.

منابع[ویرایش]

Murase, H. and S. K. Nayar: 1995, Visual Learning and Recognition of 3-D Objects from Appearance. International Journal of Computer Vision 14, 5–24. [1]
Selinger, A. and R. Nelson: 1999, A Perceptual Grouping Hierarchy for Appearance-Based 3D Object Recognition. Computer Vision and Image Understanding 76(1), 83–92. [2]
Rothganger, F; S. Lazebnik, C. Schmid, and J. Ponce: 2004. 3D Object Modeling and Recognition Using Local Affine-Invariant Image Descriptors and Multi-View Spatial Constraints, ICCV. [3]
Lowe, D. : 2004, Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision. In press. [4]
Tomasi, C. and T. Kanade: 1992, Shape and Motion from Image Streams: a Factorization Method. International Journal of Computer Vision 9(2), 137–154. [5]