تشخیص سهبعدی اشیاء
در بینایی رایانهای، تشخیص اشیاء سه بعدی شامل تشخیص و تعیین اطلاعات سه بعدی، مانند حالت، حجم، یا شکل، یا اشیاء سه بعدی انتخابی کاربر در یک عکس یا محدوده یک اسکن است. بهطور معمول، نمونهای از شیئی که باید شناسایی شود به یک سیستم بینایی در یک محیط کنترلشده ارائه میشود و سپس برای یک ورودی دلخواه مانند یک ویدئو، سیستم، شیء ارائهشده قبلی را مکانیابی میکند. این را میتوان هم به صورت آفلاین یا هم در زمان بیدرنگ انجام داد. الگوریتمهای حل این مشکل برای مکانیابی یک شی از پیش شناسایی شده، تخصصی هستند و میتوانند با الگوریتمهایی که بر روی کلاسهای کلی اشیاء کار میکنند، مانند سیستمهای تشخیص چهره یا تشخیص شیهای عمومی سه بعدی، مقایسه شوند. با توجه به هزینه کم و سهولت گرفتن عکس، تحقیقات قابل توجهی به تشخیص اشیاء سه بعدی در عکسها اختصاص یافته است.
تشخیص سه بعدی یک شی در عکسها
[ویرایش]روش تشخیص یک شی سه بعدی به ویژگیهای یک شی بستگی دارد. برای سادگی، بسیاری از الگوریتمهای موجود بر روی تشخیص اجسام صلب متشکل از یک بخش متمرکز شدهاند، یعنی اجسامی که تبدیل فضایی آنها یک حرکت اقلیدسی است. دو روش کلی برای این مشکل در نظر گرفته شده است: روشهای تشخیص الگو از اطلاعات ظاهری تصویر سطح پایین، برای مکانیابی یک شی استفاده میکنند، در حالی که روشهای هندسی مبتنی بر ویژگی، مدلی را برای شیئی که باید شناسایی شود، میسازند و مدل را با آن مطابقت میدهند.
روشهای تشخیص الگو
[ویرایش]این روشها از اطلاعات ظاهری جمعآوریشده از پیشبینیهای از پیش گرفته شده یا از پیش محاسبه شده یک شی استفاده میکنند تا با شی در صحنهٔ بالقوه به هم ریخته مطابقت داشته باشند. با این حال، آنها محدودیتهای هندسی سه بعدی شی را در طول تطبیق در نظر نمیگیرند و همچنین معمولاً انسداد و رویکردهای مبتنی بر ویژگی را کنترل نمیکنند.
روشهای هندسی مبتنی بر ویژگی
[ویرایش]روشهای مبتنی بر ویژگی برای اشیایی که ویژگیهای متمایزی دارند به خوبی کار میکنند. تاکنون، اشیایی که دارای ویژگیهای لبه یا ویژگیهای لکهای هستند با موفقیت شناسایی شدهاند. برای مثال الگوریتمهای تشخیص، به ترتیب به آشکارساز منطقه افین هریس و SIFT مراجعه کنید. به دلیل عدم وجود خصیصه یابهای مناسب، اجسام بدون سطوح صاف و بافت دار در حال حاضر با این روش قابل کنترل نیستند.
تشخیصدهندههای شی مبتنی بر ویژگی عموماً با از پیش گرفتن تعدادی نماهای ثابت از شی مورد شناسایی، استخراج ویژگیها از این نماها و سپس در فرایند تشخیص، تطبیق این ویژگیها با صحنه و اعمال محدودیتهای هندسی کار میکنند.
به عنوان مثال از یک سیستم نمونه اولیه که این روش را اتخاذ میکند، ما یک طرح کلی از روش استفاده شده توسط [Rothganger et al. 2004]، با برخی از جزئیات حذف شده ارائه خواهیم کرد. این روش با این فرض شروع میشود که اشیاء تحت دگرگونیهای صلب جهانی قرار میگیرند؛ زیرا سطوح صاف به صورت موضعی مسطح هستند، ویژگیهای ثابت پیوسته برای تطبیق مناسب هستند: مقاله مناطق بیضی شکل مورد نظر را با استفاده از ویژگیهای لبه مانند و لکه مانند تشخیص میدهد و طبق [Lowe 2004]، جهت گرادیان غالب بیضی را پیدا میکند، بیضی را به متوازی الاضلاع تبدیل میکند و یک توصیفگر SIFT (تبدیل ویژگی مقیاسنابسته) روی متوازی الاضلاع حاصل میگیرد. اطلاعات رنگ نیز فقط برای بهبود تمیز نسبت به ویژگیهای SIFT استفاده میشود.
در مرحله بعد، با توجه به تعدادی نماهای دوربین از شی (۲۴ در مقاله)، این روش یک مدل سه بعدی برای شی میسازد که شامل موقعیت مکانی و جهتگیری سه بعدی هر ویژگی است. از آنجایی که تعداد نماهای شی زیاد است، معمولاً هر ویژگی در چندین نمای مجاور وجود دارد. نقاط مرکزی چنین ویژگیهای تطبیقی مطابقت دارند، و ویژگیهای شناسایی شده در جهت گرادیان غالب تراز میشوند، بنابراین نقاط (۱، ۰) در سیستم ویژگی مختصات دکارتی متوازی الاضلاع نیز مطابق دارند مانند نقاط (۰، ۱) در سیستم مختصات دکارتی متوازی الاضلاع؛ بنابراین برای هر جفت ویژگی منطبق در نماهای نزدیک، مطابق جفت سه نقطه مشخص است. با توجه به حداقل دو ویژگی تطبیق، یک ساختار وابسته چند نما از الگوریتم حرکت (ببینید [Tomasi and Kanade 1992]) میتواند برای ساخت تخمینی از موقعیت نقاط (تا یک تبدیل دلخواه) استفاده شود؛ بنابراین مقاله Rothganger و همکاران دو نمای مجاور را انتخاب میکند، از یک روش مانند RANSAC (اجماع نمونه تصادفی) برای انتخاب دو جفت ویژگی متناظر استفاده میکند، و ویژگیهای جدیدی را به مدل جزئی ساختهشده توسط RANSAC تا زمانی که تحت یک عبارت خطا هستند، اضافه میکند؛ بنابراین برای هر جفت نمای مجاور معین، الگوریتم یک مدل جزئی از همه ویژگیهای قابل مشاهده در هر دو نما ایجاد میکند.
برای تولید یک مدل یکپارچه، مقاله بزرگترین مدل جزئی را میگیرد و به صورت تدریجی همه مدلهای جزئی کوچکتر را با آن تراز میکند. کمینه سازی سراسری برای کاهش خطا استفاده میشود، سپس از ارتقای اقلیدسی برای تغییر موقعیت ویژگیهای مدل از مختصات سه بعدی منحصر به فرد تا تبدیل وابسته به مختصات سه بعدی استفاده میشود که تا حرکت اقلیدسی منحصر به فرد هستند. در پایان این مرحله، یک مدل از شی مورد نظر، متشکل از ویژگیهایی است که در یک فضای سه بعدی مشترک پیشبینی شده است.
برای تشخیص یک شی در یک تصویر ورودی دلخواه، مقاله ویژگیها را شناسایی میکند و سپس از RANSAC برای یافتن ماتریس پیشنمایش وابسته استفاده میکند که بهترین تناسب را با مدل شی یکپارچه با فضای دوبعدی دارد. اگر این رویکرد RANSAC دارای خطای کافی کم باشد، سپس با موفقیت، الگوریتم هم شیء را تشخیص میدهد و هم وضعیت جسم را بر حسب یک پیشبینی نزدیک به آن میدهد. تحت شرایط مفروض، روش بهطور معمول به نرخ تشخیص حدود ۹۵٪ دست مییابد.
منابع
[ویرایش]- Murase, H. and S. K. Nayar: 1995, Visual Learning and Recognition of 3-D Objects from Appearance. International Journal of Computer Vision 14, 5–24. [1]
- Selinger, A. and R. Nelson: 1999, A Perceptual Grouping Hierarchy for Appearance-Based 3D Object Recognition. Computer Vision and Image Understanding 76(1), 83–92. [2]
- Rothganger, F; S. Lazebnik, C. Schmid, and J. Ponce: 2004. 3D Object Modeling and Recognition Using Local Affine-Invariant Image Descriptors and Multi-View Spatial Constraints, ICCV. [3]
- Lowe, D. : 2004, Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision. In press. [4]
- Tomasi, C. and T. Kanade: 1992, Shape and Motion from Image Streams: a Factorization Method. International Journal of Computer Vision 9(2), 137–154. [5]