میدان‌های تصادفی شرطی کاملا متصل در ناحیه‌بندی تصاویر

یکی از چالش برانگیزترین مسائل در زمینه بینایی کامپیوتر، بخش‌بندی و طبقه‌بندی تصاویر چند طبقه است. هدف این است که هر پیکسل تصویر را با یکی از چند طبقه هدف برچسب گذاری کنیم، در نتیجه به صورت همزمان شناسایی و بخش‌بندی کلاس‌ها را انجام می‌دهیم. یک روش معمول این است که این مشکل را به عنوان حداکثر یک احتمال پسین (به انگلیسی: maximum a posterior) استنتاج کنیم که در یک میدان تصادفی شرطی (به انگلیسی: Conditional Random Field) بر روی پیکسل یا لکه‌های تصویری تعریف می‌شود.

پتانسیل‌های CRF، شرایط هموارسازی را ایجاد می‌کند که توافقنامه برچسب را بین پیکسل‌های مشابه به حداکثر می‌رساند، و می‌تواند شرایط پیچیده‌تری را که روابط زمینه‌ای بین کلاس‌ها را مدل می‌کنند، ادغام کند.

مدل‌های CRF پایه از پتانسیل‌های تکی (به انگلیسی: unary) بر روی پیکسل‌های تصویر و پتانسیل دوگانه در مورد پیکسل‌های مجاور تصویر تشکیل شده‌اند.

توانایی ساختار CRF برای مدل‌سازی ارتباطات دوربرد در درون تصویر محدود است و به‌طور کلی موجب هموارسازی بیش از حد مرز اشیا می‌شود. به منظور بهبود دقت تقسیم‌بندی و برچسب زدن، محققان چارچوب بنیادی CRF پایه را برای ترکیب اتصال سلسله مراتبی و پتانسیل‌های مرتبه بالاتر در تمامی تصویر گسترش داده‌اند.

مدل میدان‌های تصادفی شرطی کاملاً متصل^[۱][ویرایش]

یک میدان تصادفی X را در نظر بگیرید که بر روی مجموعه‌ای از متغیرها { ${X_{0},X_{1},...,X_{N}}$ } تعریف می‌شود. دامنه هر متغیر مجموعه‌ای از برچسب‌های { $L_{0},L_{1},...L_{k}$ } = L است. یک میدان تصادفی I را نیز در نظر بگیرید که در آن متغیرهای { $I_{0},I_{1},...,I_{N}$ } تعریف شده‌اند. در تنظیمات ما، I تصاویر ورودی است و X برچسب‌های مختلفی است که می‌توان به تصویر نسبت داد . $I_{j}$ بردار رنگ تصویر jام را مشخص می‌کند و $X_{j}$ برچسبی که به پیکسل‌های آن اختصاص داده می‌شود را مشخص می‌کند.

میدان‌های تصادفی شرطی کاملاً متصل (I,X) با استفاده از توزیع گییبز به صورت زیر نشان داده می‌شود:

P(X|I)={\frac {1}{Z(I)}}\exp(\textstyle \sum _{c\in \varsigma _{\boldsymbol {g}}}\Phi _{c}(X_{c}|I)\displaystyle )

که در آن ${\boldsymbol {g=(\upsilon ,\varepsilon )}}$ یک گراف روی X است و هر کلیک ${\boldsymbol {c}}$ درون مجموعهٔ ${\boldsymbol {\varsigma _{g}}}$ نشان‌دهندهٔ $\Phi {\boldsymbol {c}}$ است.

انرژی گییبز برچسب $X\in L^{N}$ برابر $E(x|I)=\sum _{\boldsymbol {c\in \varsigma _{g}}}\Phi _{c}(x_{c}|I)$ است.

برچسب گذاری ای که دارای بیشترین احتمال وقوع است برابر است با: $x^{*}=argmax_{x\in L^{N}}P(x_{c}|I)$

ما در ادامه به جای $\Phi _{c}(x_{c}|I)$ از $\Psi _{c}(x_{c})$ استفاده می‌کنیم.

در مدل پیوند جفتی کاملاً متصل، ${\boldsymbol {g}}$ یک گراف کامل روی X و ${\boldsymbol {c_{g}}}$ مجموعه تمام ویژگی‌های تکی و جفتی آن است. انرژی گیبس مربوطه به صورت زیر است:

E(X)=\sum _{i}\Psi _{u}(x_{i})+\sum _{i<j}\Psi _{p}(x_{i},x_{j})

که در آن i و j از ۱ تا N متغیر هستند. پتانسیل تکی، $\Psi _{u}(x_{i})$ به صورت مستقل برای هر پیکسل توسط یک طبقه‌بندی کننده که توزیع روی برچسب $x_{i}$ است محاسبه می‌شود. این پتانسیل‌ها برای بیان رابطه بین شکل، بافت، مکان، و رنگ استفاده می‌شوند.

از آنجایی که خروجی طبقه‌بندی کننده تکی برای هر پیکسل به‌طور مستقل از خروجی‌های طبقه‌بندی کننده‌ها برای پیکسل‌های دیگر تولید می‌شود، خروجی برچسب خورده به شدت نویزی است. از این رو ما رابطه پتانسیل بین پیکسل‌ها را به صورت زیر تعریف می‌کنیم:

\Psi _{P}(x_{i},x_{j})=\mu (x_{i},x_{j})\sum _{m=1}^{k}w^{(m)}k^{(m)}(f_{i},f_{j})

که در آن هر

k^{(m)}

یک کرنل گوسی برای رابطه

k^{(m)}(f_{i},f_{j})

است و رابطهٔ

(f_{i},f_{j})

نشان‌دهندهٔ بردار ویژگی‌های دودویی است که ما برای آن تعریف کرده‌ایم؛ که این بردار ویژگی می‌تواند اختلاف رنگ دو پیکسل یا اختلاف مکانی آن دو باشد.

k(f_{i},f_{j})=w^{(1)}\exp \left(-{\frac {|p_{i}-p_{j}|^{2}}{2\theta _{\alpha }^{2}}}-{\frac {|I_{i}-I_{j}|^{2}}{2\theta _{\beta }^{2}}}\right)+w^{(2)}\exp \left(-{\frac {|p_{i}-p_{j}|^{2}}{2\theta _{\gamma }^{2}}}\right)

تابع سازگاری با برچسب ساده μ توسط مدل Potts معرفی می‌شودو یک پنالتی را برای پیکسل‌های مرتبط با هم به برچسب‌های مختلف در نظر می‌گیرد.

روش استدلال بهینه درمیدان‌های تصادفی شرطی کاملاً متصل[ویرایش]

الگوریتم ما براساس یک تقریب میدان میانگین از توزیع crf عمل می‌کند. این بخش یک الگوریتم انتقال پیام تکراری را برای استنباط تقریبی ارایه می‌دهد. مشاهده کلیدی ما این است که انتقال پیام در مدل ارائه‌شده می‌تواند با استفاده از فیلترینگ گاوسی در فضای ویژگی انجام شود. این امر ما را قادر می‌سازد که از تقریب‌های بسیار مؤثر برای فیلترینگ با ابعاد بالا استفاده کنیم، که پیچیدگی ارسال پیام را از درجه دو به خطی کاهش می‌دهد، که در نتیجه یک الگوریتم استنباطی تقریبی به دست می‌آید که خطی و با درجه تعداد متغیر N است.

روش میدان میانگین[ویرایش]

به جای محاسبه توزیع دقیق (x)P, تقریب میدان میانگین یک توزیع Q(x) را محاسبه می‌کند که رابطه کولبک-لیبلر را به حداقل می‌رساند. این رابطه به صورت زیر تعریف می‌شود:

KL(q||p)=\int _{z}^{}q(z)log(q(z)/p(z|x))\,dz=E[log(q(z)/p(z|x))]

از آنجایی که تمام توابع توزیع Q می‌تواند به صورت یک محصول حاشیه مستقل بیان شود داریم : $Q(X)=\textstyle \prod _{i}Q_{i}(X_{i})\displaystyle$

حداقل‌سازی رابطه بالا با فرض موجود بودن $Q_{i}(X_{i})$ و $Q(X)$ معادله هنگام‌سازی تکراری زیر را به ما می‌دهد:

Q_{i}(x_{i}=1)={\frac {1}{z(i)}}\exp {\Biggl (}-\Psi _{u}(x_{i})-\sum _{l'\in L}\mu (l,l')\sum _{m=1}^{k}w^{(m)}\sum _{j\neq i}k^{(m)}(f_{i},f_{j})Q_{j}(l'){\Biggr )}

که این الگوریتم به صورت جزئی در هر مرحله به صورت زیر عمل می‌کند:

هر بار تکرار الگوریتم بالا یک مرحله انتقال پیام، یک تبدیل سازگاری و یک به روزرسانی محلی را انجام می‌دهد. هم تغییر سازگاری و هم به روز رسانی محلی در زمان خطی انجام می‌شوند و بسیار کارآمد هستند. ستون فقرات محاسبات قسمت انتقال پیام است. برای هر متغیر این مرحله مستلزم ارزیابی مجموع تمام متغیرهای دیگر است. در نتیجه یک پیاده‌سازی ساده، پیچیدگی درجه‌دوم از تعداد متغیر N دارد. سپس، نشان می‌دهیم که چگونه فیلتر کردن ابعادی بالا می‌تواند برای کاهش هزینه محاسباتی ارسال پیام مورد استفاده قرار گیرد.

روش ارسال پیغام بهینه با استفاده از فیلترهای ابعاد بالا[ویرایش]

از دیدگاه پردازش سیگنال، مرحله عبور پیام می‌تواند با کانولوشن با یک هسته گاوسی $G_{\land }(m)$ در فضای ویژگی بیان شود و رابطه آن به صورت زیر است:

{\tilde {Q}}_{i}^{m}(l)=\sum _{j\in \upsilon }k^{(m)}(f_{i},f_{j})Q_{j}(l)-Q_{i}(l)=[G\land (m)\otimes Q(l)](f_{i})-Q_{i}(l)

دلیل اینکه $Q_{i}$ را از حاصل کم می‌کنیم به دلیل این است که کانولوشن روی همهٔ متغیر هاانجام می‌شود اما ما حاصل جمع را روی همهٔ عوامل غیر از خود $i$ می‌خواهیم. این کانولوشن یک فیلتر پایین گذر که اساساً باند محدود کننده است پیاده‌سازی می‌کند.

با استفاده از قضیه نمونه‌برداری این تابع را می‌توان از مجموعه‌ای از نمونه‌هایی که فاصله‌گذاری آن متناسب با انحراف استاندارد فیلتر است، بازسازی نمود.

منابع[ویرایش]

↑ Koltun, Vladlen; Krähenbühl, Philipp (2012-10-20). "Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials" (به انگلیسی). {{cite journal}}: Cite journal requires |journal= (help)

[1] Koltun, Vladlen; Krähenbühl, Philipp (2012-10-20). "Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials" (به انگلیسی). {{cite journal}}: Cite journal requires |journal= (help)

[۱]

مدل میدان‌های تصادفی شرطی کاملاً متصل[۱][ویرایش]

روش استدلال بهینه درمیدان‌های تصادفی شرطی کاملاً متصل[ویرایش]

روش میدان میانگین[ویرایش]

روش ارسال پیغام بهینه با استفاده از فیلترهای ابعاد بالا[ویرایش]

منابع[ویرایش]

مدل میدان‌های تصادفی شرطی کاملاً متصل^[۱][ویرایش]