میانگینگیری گروهی(یادگیری ماشین)
برای کاربردهای دیگر، جهت مشاهده، لطفاً به میانگین گروهی (ابهامزدایی) مراجعه کنید.
در یادگیری ماشین، به خصوص در ایجاد شبکههای عصبی مصنوعی، میانگینگیری گروهی به فرآیندی گفته میشود که در آن چندین مدل ایجاد شده و بهطور ترکیبی برای تولید خروجی مطلوب به جای ساخت یک مدل تنها استفاده میشوند. اغلب یک گروه یا انجمن از مدلها عملکرد بهتری نسبت به هر مدل تکی ارائه میدهد، زیرا خطاهای مختلف مدلها "میانگین گرفته میشوند".
مروری بر موضوع[ویرایش]
میانگینگیری گروهی یکی از سادهترین انواع ماشینهای کمیته است. همراه با تکنیک بوستینگ، درواقع این یکی از دو نوع اصلی ماشینهای کمیته ثابت[۱] محسوب میشود. برخلاف روشهای معمولی طراحی شبکه، که در آن بیشتر شبکههای تولید شده حذف میشوند و فقط یکی باقی میماند، میانگینگیری گروهی شبکههای کمتر مطلوب را با وزن کمتر [۲]حفظ میکند. اصول میانگینگیری گروهی بر دو خاصیت اصلی از شبکههای عصبی مصنوعی تکیه دارد:[۳]
۱. در هر شبکه، انحراف یا بایاس میتواند با افزایش واریانس کاهش یابد.
۲. در یک گروه از شبکهها، واریانس میتواند بدون هزینه اضافی در انحراف یا بایاس کاهش یابد.
میانگینگیری گروهی یک گروه از شبکهها را با انحراف و بایاس کم و واریانس بالا ایجاد میکند، سپس آنها را به یک شبکه جدید با (با امید به آن) انحراف کم و واریانس کمتر ترکیب میکند. بنابراین، این روش یک راهحل برای مبادله بایاس و واریانس[۴] در مدلهای آموزش دیده است. ایده ترکیب متخصصها به دوران پیر سایمون لاپلاس[۵] بازمیگردد.
روش[ویرایش]
تئوری مطرح شده در بالا، یک استراتژی واضح و آشکار ارائه میدهد: یک مجموعه از متخصصها با انحراف و بایاس کم و واریانس بالا ایجاد کنید، و سپس آنها را میانگینگیری کنید.
به طور کلی، این بدان معناست که یک مجموعه از متخصصها با پارامترهای متفاوت ایجاد کنید؛ معمولاً، این پارامترها وزنهای عصبی اولیه هستند، اگرچه ممکن است عوامل دیگری (مانند نرخ یادگیری، تکانه و غیره) نیز تغییر کنند. برخی از نویسندگان توصیه میکنند که از تغییرات کاهش وزن و متوقف کردن زودهنگام خودداری شود.[۳]
بنابراین، مراحل به شرح زیر است:
- N متخصص تولید کنید که هرکدام مقادیر اولیه خود را دارند. (معمولاً مقادیر اولیه به طور تصادفی از یک توزیع انتخاب میشوند.)
- هر متخصص را به طور جداگانه آموزش دهید.
- متخصصها را با هم ترکیب کرده و مقادیر آنها را میانگینگیری کنید.
به عنوان یک رویکرد جایگزین، ممکن است از دانش دامنه برای تولید چندین دسته از متخصصها استفاده شود. یک متخصص از هر دسته آموزش داده میشود و سپس ترکیب میشوند.
یک نسخه پیچیدهتر از میانگین گروهی نتیجه نهایی را به عنوان یک مجموع وزندار از همه متخصصها در نظر میگیرد، نه فقط به عنوان میانگین ساده آنها.
اگر هر متخصص yi باشد، آنگاه، نتیجه کلی یعنی میتواند به شکل زیر تعریف شود:
که α مجموعهای از وزنهاست. مسئله بهینهسازی برای یافتن α به راحتی توسط شبکههای عصبی حل میشود. بنابراین، یک "متا-شبکه" به وجود میآید که هر "نورون" آن در واقع یک شبکه عصبی کامل است و میتوان آنها را آموزش داد. وزنهای سیناپسی در شبکه نهایی، وزنی است که بر هر متخصص اعمال میشود. این به عنوان ترکیب خطی متخصصها شناخته میشود.[۲]
میتوان دید که بیشتر اشکال شبکههای عصبی، یک زیرمجموعه از ترکیب خطی هستند: شبکه عصبی استاندارد (جایی که تنها یک متخصص استفاده میشود) به سادگی یک ترکیب خطی با همه و یک است. یک میانگین خام، زمانی اتفاق میافتد که همه ها برابر با یک مقدار ثابت هستند، به عبارتی یک برابر تقسیم بر تعداد کل متخصصها.[۲]
یک روش میانگینگیری گروهی به تازگی، یادگیری منفی همبستگی[۶] است که توسط Y. Liu و X. Yao پیشنهاد شده است. این روش اکنون به طور گسترده در رایانش فرگشتی استفاده میشود.
مزایا[ویرایش]
- کمیتهای که به دست میآید تقریباً همیشه کمی پیچیدهتر از یک شبکه تکی است که به همان سطح عملکرد میرسد.[۷]
- این کمیتهای که به دست میآید میتواند بر روی مجموعههای ورودی کوچکتر به راحتی آموزش ببیند.[۱]
- کمیتهای که به دست میآید اغلب عملکرد بهبود یافته و بهتری نسبت به هر شبکه تکی دارد.[۲]
- خطر بیشبرازش کاهش مییابد، زیرا تعداد کمتری پارامتر (وزنها) باید تنظیم شود.[۱]
جستار وابسته[ویرایش]
منابع[ویرایش]
- ↑ ۱٫۰ ۱٫۱ ۱٫۲ Haykin, Simon. Neural networks : a comprehensive foundation. 2nd ed. Upper Saddle River N.J.: Prentice Hall, 1999.
- ↑ ۲٫۰ ۲٫۱ ۲٫۲ ۲٫۳ Hashem, S. "Optimal linear combinations of neural networks." Neural Networks 10, no. 4 (1997): 599–614.
- ↑ ۳٫۰ ۳٫۱ Naftaly, U., N. Intrator, and D. Horn. "Optimal ensemble averaging of neural networks." Network: Computation in Neural Systems 8, no. 3 (1997): 283–296.
- ↑ Geman, S., E. Bienenstock, and R. Doursat. "Neural networks and the bias/variance dilemma." Neural computation 4, no. 1 (1992): 1–58.
- ↑ Clemen, R. T. "Combining forecasts: A review and annotated bibliography." International Journal of Forecasting 5, no. 4 (1989): 559–583.
- ↑ Y. Liu and X. Yao, Ensemble Learning via Negative Correlation Neural Networks, Volume 12, Issue 10, December 1999, pp. 1399-1404. doi:10.1016/S0893-6080(99)00073-8
- ↑ Pearlmutter, B. A., and R. Rosenfeld. "Chaitin–Kolmogorov complexity and generalization in neural networks." In Proceedings of the 1990 conference on Advances in neural information processing systems 3, 931. Morgan Kaufmann Publishers Inc., 1990.
برای مطالعه بیشتر[ویرایش]
- Perrone, M. P. (1993), Improving regression estimation: Averaging methods for variance reduction with extensions to general convex measure optimization
- Wolpert, D. H. (1992), "Stacked generalization", Neural Networks, 5 (2): 241–259, CiteSeerX 10.1.1.133.8090, doi:10.1016/S0893-6080(05)80023-1
- Hashem, S. (1997), "Optimal linear combinations of neural networks", Neural Networks, 10 (4): 599–614, doi:10.1016/S0893-6080(96)00098-6, PMID 12662858
- Hashem, S. and B. Schmeiser (1993), "Approximating a function and its derivatives using MSE-optimal linear combinations of trained feedforward neural networks", Proceedings of the Joint Conference on Neural Networks, 87: 617–620
- مشارکتکنندگان ویکیپدیا. «Ensemble averaging (machine learning)». در دانشنامهٔ ویکیپدیای انگلیسی، بازبینیشده در ۱۴ آوریل ۲۰۲۴.