شبکههای عصبی سیامی
شبکه عصبی سیامی (گاهی اوقات شبکه عصبی دوقلو نامیده میشود) یک شبکه عصبی مصنوعی است که از وزنهای یکسانی استفاده میکند در حالی که روی دو بردار ورودی مختلف کار میکند تا بردارهای خروجی قابل مقایسه را محاسبه کند.[۱][۲][۳][۴] اغلب یکی از بردارهای خروجی از قبل محاسبه شدهاست، بنابراین یک معیار تشکیل میشود که بردار خروجی دیگر با آن مقایسه میشود. این شبیه به مقایسه اثر انگشت است، اما میتواند از نظر فنی بیشتر به عنوان یک تابع فاصله برای هش کردن حساس به محلی توصیف شود.[نیازمند منبع]
میتوان یک معماری ساخت که از لحاظ عملکردی شبیه به یک شبکه سیامی باشد، اما عملکرد کمی متفاوت را اجرا کند. این شبکهها معمولاً برای مقایسه نمونههای مشابه در مجموعههای مختلف استفاده میشود.[نیازمند منبع]
از مثالهای استفاده شبکههای دوقلو برای سنجش شباهت، مواردی مانند تشخیص دست خط، تشخیص خودکار چهرهها در تصاویر دوربین و تطبیق اسناد با اسناد نمایه شدهاست. شاید شناخته شدهترین کاربرد شبکههای دوقلو، تشخیص چهره است، که در آن تصاویر شناخته شده از افراد از قبل محاسبه شده و با تصویری از یک دیتاست مقایسه میشوند. در ابتدا مشخص نیست، اما دو مشکل کمی متفاوت وجود دارد. یکی تشخیص یک فرد در میان تعداد زیادی از افراد دیگر است، این مشکل تشخیص چهره است. DeepFace نمونه ای از چنین سیستمی است.[۴] در سختترین شکل آن، شناسایی یک فرد در ایستگاه قطار یا فرودگاه است. مورد دیگر تأیید چهره است، به عنوان مثال یعنی بررسی اینکه آیا عکس موجود در یک پاسپورت همان شخصی است که ادعا میکند یا خیر. شبکه دوقلو ممکن است یکسان باشد، اما پیادهسازی میتواند کاملاً متفاوت باشد.
یادگیری
[ویرایش]یادگیری در شبکههای دوقلو را میتوان با تابع هزینه تریپلت یا از دست دادن کنتراست انجام داد. برای یادگیری با تابع هزینه تریپلت، یک بردار پایه (تصویر لنگر یا ثابت) با یک بردار مثبت (تصویر واقعی) و یک بردار منفی (تصویر نادرست) مقایسه میشود. بردار منفی یادگیری را در شبکه جلو میبرد، در حالی که بردار مثبت مانند یک تنظیم کننده عمل میکند. برای یادگیری از طریق کاهش کنتراست باید کاهش وزن وجود داشته باشد تا وزنهها منظم شوند، یا عملیات مشابهی مانند نرمالسازی.
یک معیار فاصله برای یک تابع هزینه ممکن است دارای ویژگیهای زیر باشد:[۵]
- غیر منفی بودن:
- همانی قابل تشخیص:
- تقارن:
- نابرابری مثلث:
بهطور خاص، الگوریتم تابع هزینه تریپلت اغلب با مربع فاصله اقلیدسی (که برخلاف اقلیدسی، نابرابری مثلث ندارد) تعریف میشود.
متریکهای از پیش تعریف شده، فاصله اقلیدسی
[ویرایش]هدف رایج یادگیری، به حداقل رساندن معیار فاصله برای اشیاء مشابه و به حداکثر رساندن برای موارد متمایز است. این یک تابع هزینه مانند زیر است:
- شاخصهایی در مجموعه ای از بردارها هستند
- تابع پیادهسازی شده توسط شبکه دوقلو
متداولترین معیار فاصله ای که استفاده میشود، فاصله اقلیدسی است که در صورت وجود آن، تابع هزینه را میتوان به صورت ماتریسی بازنویسی کرد.
متریکهای آموخته شده، معیار فاصله غیرخطی
[ویرایش]یک مورد کلی تر این است که بردار خروجی از شبکه دوقلو، از لایه هابی اضافی با معیارهای فاصله غیر خطی عبور داده میشود.
- شاخصهایی در مجموعه ای از بردارها هستند
- تابع پیادهسازی شده توسط شبکه دوقلو
- تابع پیادهسازی شده توسط شبکه که خروجیهای شبکه دوقلو را به هم متصل میکند
در یک فرم ماتریسی، فاصله شرح داده شده قبلی اغلب به عنوان فاصله ماهالانوبیس برای یک فضای خطی به صورت زیر[۶] تقریب میشود.
این حالت را میتوان بیشتر به یادگیری بدون نظارت و یادگیری تحت نظارت تقسیم کرد.
معیارهای آموخته شده، شبکههای نیمه دوقلو
[ویرایش]این معماری همچنین به شبکه دوقلو اجازه میدهد تا بیشتر یکنیمه دوقلو باشد و عملکردهای متفاوت را اجرا کند:
- شاخصهایی در مجموعه ای از بردارها هستند
- تابع پیادهسازی شده توسط شبکه نیمه دوقلو
- تابع پیادهسازی شده توسط شبکه که خروجیهای شبکه دوقلو را به هم متصل میکند
شبکههای دوقلو برای ردیابی اشیا
[ویرایش]شبکههای دوقلو به دلیل دو ورودی منحصر به فرد پشت سر هم و اندازهگیری شباهت، در ردیابی اشیا استفاده شدهاند. در ردیابی اشیاء، یک ورودی شبکه دوقلو، تصویری و نمونه از پیش انتخاب شده توسط کاربر است، ورودی دیگر یک تصویر بزرگتر است، که وظیفه شبکه دوقلو، یافتن نمونه در داخل تصویر بزرگتر است. با اندازهگیری شباهت بین نمونه و هر قسمت از تصویر جستجو، میتوان یک نقشه از امتیاز شباهت توسط شبکه دوقلو ارائه داد. علاوه بر این، با استفاده از یک شبکه عصبی پیچشی، فرایند محاسبه امتیاز شباهت هر بخش را میتوان تنها با یک لایه همبستگی متقابل جایگزین کرد.[۷]
پس اولین معرفی این شبکهها در سال ۲۰۱۶، شبکههای کاملاً کانولوشن دوقلو در بسیاری از شبکههای عصبی برای ردیابی اشیاء با کارایی بالا استفاده شدهاست. مانند:
CFnet,[۸] StructSiam,[۹] SiamFC-tri,[۱۰] DSiam,[۱۱] SA-Siam,[۱۲] SiamRPN,[۱۳] DaSiamRPN, SiamRPN Cascaded , SiamMask, SiamRPN++, SiamRPN Deeper and Wider.
جستارهای وابسته
[ویرایش]بیشتر خواندن
[ویرایش]- Chicco, Davide (2020), "Siamese neural networks: an overview", Artificial Neural Networks, Methods in Molecular Biology, vol. 2190 (3rd ed.), New York City, New York, USA: Springer Protocols, Humana Press, pp. 73–94, doi:10.1007/978-1-0716-0826-5_3, ISBN 978-1-07-160826-5, PMID 32804361
منابع
[ویرایش]- ↑ Chicco, Davide (2020), "Siamese neural networks: an overview", Artificial Neural Networks, Methods in Molecular Biology, vol. 2190 (3rd ed.), New York City, New York, USA: Springer Protocols, Humana Press, pp. 73–94, doi:10.1007/978-1-0716-0826-5_3, ISBN 978-1-07-160826-5, PMID 32804361
- ↑ Bromley, Jane; Guyon, Isabelle; LeCun, Yann; Säckinger, Eduard; Shah, Roopak (1994). "Signature verification using a "Siamese" time delay neural network" (PDF). Advances in Neural Information Processing Systems 6: 737–744. Archived from the original (PDF) on 25 اكتبر 2020. Retrieved 18 November 2022.
{{cite journal}}
: Check date values in:|archive-date=
(help) - ↑ Chopra, S.; Hadsell, R.; LeCun, Y. (June 2005). "Learning a similarity metric discriminatively, with application to face verification". 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). 1: 539–546 vol. 1. doi:10.1109/CVPR.2005.202. ISBN 0-7695-2372-2.
- ↑ ۴٫۰ ۴٫۱ Taigman, Y.; Yang, M.; Ranzato, M.; Wolf, L. (June 2014). "DeepFace: Closing the Gap to Human-Level Performance in Face Verification". 2014 IEEE Conference on Computer Vision and Pattern Recognition: 1701–1708. doi:10.1109/CVPR.2014.220. ISBN 978-1-4799-5118-5.
- ↑ Chatterjee, Moitreya; Luo, Yunan. "Similarity Learning with (or without) Convolutional Neural Network" (PDF). Retrieved 2018-12-07.
- ↑ Chandra, M.P. (1936). "On the generalized distance in statistics" (PDF). Proceedings of the National Institute of Sciences of India. 1. 2: 49–55.
- ↑ Fully-Convolutional Siamese Networks for Object Tracking آرخیو:1606.09549
- ↑ "End-to-end representation learning for Correlation Filter based tracking". Archived from the original on 18 November 2022. Retrieved 18 November 2022.
- ↑ "Structured Siamese Network for Real-Time Visual Tracking" (PDF).
- ↑ "Triplet Loss in Siamese Network for Object Tracking" (PDF).
- ↑ "Learning Dynamic Siamese Network for Visual Object Tracking" (PDF).
- ↑ "A Twofold Siamese Network for Real-Time Object Tracking" (PDF).
- ↑ "High Performance Visual Tracking with Siamese Region Proposal Network" (PDF).