شبکه-یو

از ویکی‌پدیا، دانشنامهٔ آزاد

شبکه عصبی-یو (U-Net) یک شبکه عصبی پیچشی است که برای بخش‌بندی تصاویر زیست پزشکی در دانشگاه فرایبورگ توسعه یافته‌است.[۱] این شبکه تماماً پیچشی است و معماری آن برای کار با تصاویر آموزشی کمتر و ارائه بخش‌بندی‌های دقیق‌تر توسعه یافته‌است.[۲]

توضیحات[ویرایش]

معماری شبکه-یو از معماری شبکه تماماً پیچشی نشات می‌گیرد. ایده اصلی از ترکیب دو مسیر کاهنده و افزاینده تشکیل شده‌است که داده‌های مکانی مسیر کاهنده با مسیر افزاینده که تعداد ویژگی‌های آن بسیار زیاد است ترکیب می‌شود تا تصویر کیفیت بالا و با درک زمینه از مسیر کاهنده داشته باشیم و هر پیکسل یک به یک کلاس دسته‌بندی شود بدون اینکه هیچ گونه لایه تمام متصل استفاده شود.[۳]

معماری شبکه[ویرایش]

این نمونه ای از معماری U-Net برای تولید ماسک تصویر K دسته٬ای برای یک تصویر RGB است.

معماری شبکه-یو از یک مسیر کاهنده و یک مسیر افزاینده تشکیل شده‌است که به آن معماری U شکل را می‌دهد. در مسیر کاهنده تعدادی لایه پیچشی، تابع فعال‌ساز (ReLU) و لایه ادغام حداکثری (max pooling) پیاپی قرار دارد که ساختاری همانند شبکه عصبی باقی‌مانده تشکیل می‌دهند. در طول این مسیر ابعاد کاهش می‌یابد و با افزایش تعداد کانال‌ها ویژگی‌ها بیشتر می‌شوند.[۴]

در مسیر افزاینده تعدادی لایه پیچشی ترانهاده قرار دارد که ابعاد تصویر رو افزایش می‌دهند و با داده‌های مکانی مسیر کاهنده ترکیب می‌شوند و در نهایت تعدادی لایه پیچشی 1x1 قرار دارد که به تعداد کلاس‌های مورد نظر خروجی می‌دهد که این ساختار برای دسته‌بندی پیکسل‌ها در تصاویر مناسب است.

وجود مسیرهای انتقال گرادیان بین مسیر کاهنده و مسیر افزاینده باعث انتقال معنا از مسیر کاهنده به افزاینده می‌شوند و با انتقال گرادیان، فرایند تعلیم را پایدارتر می‌کنند.[۴]

کاربردها[ویرایش]

رنگ آمیزی با شبکه-یو

از شبکه-یو برای بخش‌بندی تصاویر زیست پزشکی استفاده‌های زیادی همانند بخش‌بندی تصاویر مغز یا تصاویر کبد می‌شود. نسخه‌هایی از شبکه-یو برای بازسازی و ترمیم تصاویر پزشکی نیز استفاده می‌شود.[۵]

از دیگر کاربردهای شبکه-یو می‌توان به بخش‌بندی تصاویر اشاره کرد که بخش‌بندی مثالی یا بخش‌بندی معنایی را می‌تواند انجام دهد. تفاوت این دو در شناخت و در تعداد است به صورتی که مثلاْ بخش‌بندی مثالی چند شی مختلف حتی با هم‌پوشانی در تصویر شناسایی می‌کند در حالی که بخش‌بندی معنایی تنها آن شی را در تصویر شناسایی می‌کند. شبکه-یو تنها در بخش‌بندی معنایی کاربرد دارد و برای بخش‌بندی مثالی از R-CNN و مشتقات آن استفاده می‌شود.

رگرسیون پیکسلی از دیگر کاربردهای شبکه-یو است که برای رنگ‌آمیزی تصاویر استفاده می‌شود.[۶]

رفع نویز از دیگر کاربردهای شبکه-یو می‌تواند باشد و ساختاری مشابه خودرمزگذار رفع‌کننده نویز دارد که عملکرد بهتری نیز به خاطر کانال‌های عبور گرادیان می‌تواند داشته باشد.

از دیگر کاربردها می‌توان به فراتفکیک‌پذیری اشاره کرد و مشابه هنگامی که برای ترمیم تصاویر یا رفع نویز استفاده می‌شود، به تصویر جزئیات اضافه کند.[۷]

از شبکه-یو در ساختار انتشار پایدار (Stable Diffusion) نیز استفاده شده و در طی فرایند انتشار با مرحله به مرحله رفع نویز با اعمال شرطی که از متن به آن وارد شده باعث ساخت تصاویر معنادار و توصیف شده توسط متن از نویز ورودی می‌شود.

منابع[ویرایش]

  1. Ronneberger O, Fischer P, Brox T (2015). "U-Net: Convolutional Networks for Biomedical Image Segmentation". arXiv:1505.04597 [cs.CV].
  2. Shelhamer E, Long J, Darrell T (April 2017). "Fully Convolutional Networks for Semantic Segmentation". IEEE Transactions on Pattern Analysis and Machine Intelligence. 39 (4): 640–651. arXiv:1411.4038. doi:10.1109/TPAMI.2016.2572683. PMID 27244717. S2CID 1629541.
  3. Shelhamer E, Long J, Darrell T (April 2017). "Fully Convolutional Networks for Semantic Segmentation". IEEE Transactions on Pattern Analysis and Machine Intelligence. 39 (4): 640–651. arXiv:1411.4038. doi:10.1109/TPAMI.2016.2572683. PMID 27244717. S2CID 1629541.
  4. ۴٫۰ ۴٫۱ "U-Net code".
  5. Andersson J, Ahlström H, Kullberg J (September 2019). "Separation of water and fat signal in whole-body gradient echo scans using convolutional neural networks". Magnetic Resonance in Medicine. 82 (3): 1177–1186. doi:10.1002/mrm.27786. PMC 6618066. PMID 31033022.
  6. Yao W, Zeng Z, Lian C, Tang H (2018-10-27). "Pixel-wise regression using U-Net and its application on pansharpening". Neurocomputing. 312: 364–371. doi:10.1016/j.neucom.2018.05.103. ISSN 0925-2312. S2CID 207119255.
  7. Iglovikov V, Shvets A (2018). "TernausNet: U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation". arXiv:1801.05746 [cs.CV].