میانگین‌گیری گروهی‌(یادگیری ماشین)

      برای کاربردهای دیگر، جهت مشاهده، لطفاً به میانگین گروهی (ابهام‌زدایی) مراجعه کنید.

در یادگیری ماشین، به خصوص در ایجاد شبکه‌های عصبی مصنوعی، میانگین‌گیری گروهی به فرآیندی گفته می‌شود که در آن چندین مدل ایجاد شده و به‌طور ترکیبی برای تولید خروجی مطلوب به جای ساخت یک مدل تنها استفاده می‌شوند. اغلب یک گروه یا انجمن از مدل‌ها عملکرد بهتری نسبت به هر مدل تکی ارائه می‌دهد، زیرا خطاهای مختلف مدل‌ها "میانگین گرفته‌ می‌شوند".

مروری بر موضوع[ویرایش]

میانگین‌گیری گروهی یکی از ساده‌ترین انواع ماشین‌های کمیته است. همراه با تکنیک بوستینگ، در‌واقع این یکی از دو نوع اصلی ماشین‌های کمیته ثابت^[۱] محسوب می‌شود. برخلاف روش‌های معمولی طراحی شبکه، که در آن بیشتر شبکه‌های تولید شده حذف می‌شوند و فقط یکی باقی می‌ماند، میانگین‌گیری گروهی شبکه‌های کمتر مطلوب را با وزن کمتر ^[۲]حفظ می‌کند. اصول میانگین‌گیری گروهی بر دو خاصیت اصلی از شبکه‌های عصبی مصنوعی تکیه دارد:^[۳]

۱. در هر شبکه، انحراف یا بایاس می‌تواند با افزایش واریانس کاهش یابد.

۲. در یک گروه از شبکه‌ها، واریانس می‌تواند بدون هزینه اضافی در انحراف یا بایاس کاهش یابد.

میانگین‌گیری گروهی یک گروه از شبکه‌ها را با انحراف و بایاس کم و واریانس بالا ایجاد می‌کند، سپس آن‌ها را به یک شبکه جدید با (با امید به آن) انحراف کم و واریانس کمتر ترکیب می‌کند. بنابراین، این روش یک راه‌حل برای مبادله بایاس و واریانس^[۴] در مدل‌های آموزش دیده است. ایده ترکیب متخصص‌ها به دوران پیر سایمون لاپلاس^[۵] بازمی‌گردد.

روش[ویرایش]

تئوری مطرح شده در بالا، یک استراتژی واضح و آشکار ارائه می‌دهد: یک مجموعه از متخصص‌ها با انحراف و بایاس کم و واریانس بالا ایجاد کنید، و سپس آن‌ها را میانگین‌گیری کنید. به طور کلی، این بدان معناست که یک مجموعه از متخصص‌ها با پارامترهای متفاوت ایجاد کنید؛ معمولاً، این پارامترها وزن‌های عصبی اولیه هستند، اگرچه ممکن است عوامل دیگری (مانند نرخ یادگیری، تکانه و غیره) نیز تغییر کنند. برخی از نویسندگان توصیه می‌کنند که از تغییرات کاهش وزن و متوقف کردن زودهنگام خودداری شود.^[۳] بنابراین، مراحل به شرح زیر است:

N متخصص‌ تولید کنید که هرکدام مقادیر اولیه خود را دارند. (معمولاً مقادیر اولیه به طور تصادفی از یک توزیع انتخاب می‌شوند.)
هر متخصص‌ را به طور جداگانه آموزش دهید.
متخصص‌‌ها را با هم ترکیب کرده و مقادیر آن‌ها را میانگین‌گیری کنید.

به عنوان یک رویکرد جایگزین، ممکن است از دانش دامنه برای تولید چندین دسته از متخصص‌ها استفاده شود. یک متخصص‌ از هر دسته آموزش داده می‌شود و سپس ترکیب می‌شوند. یک نسخه پیچیده‌تر از میانگین گروهی نتیجه نهایی را به عنوان یک مجموع وزن‌دار از همه متخصص‌ها در نظر می‌گیرد، نه فقط به عنوان میانگین ساده آن‌ها. اگر هر متخصص‌ y_i باشد، آنگاه، نتیجه کلی یعنی ${\tilde {y}}$ می‌تواند به شکل زیر تعریف شود:

{\tilde {y}}(\mathbf {x} ;\mathbf {\alpha } )=\sum _{j=1}^{p}\alpha _{j}y_{j}(\mathbf {x} )

که α مجموعه‌ای از وزن‌هاست. مسئله بهینه‌سازی برای یافتن α به راحتی توسط شبکه‌های عصبی حل می‌شود. بنابراین، یک "متا-شبکه" به وجود می‌آید که هر "نورون" آن در واقع یک شبکه عصبی کامل است و می‌توان آن‌ها را آموزش داد. وزن‌های سیناپسی در شبکه نهایی، وزنی است که بر هر متخصص‌ اعمال می‌شود. این به عنوان ترکیب خطی متخصص‌ها شناخته می‌شود.^[۲]

می‌توان دید که بیشتر اشکال شبکه‌های عصبی، یک زیرمجموعه از ترکیب خطی هستند: شبکه عصبی استاندارد (جایی که تنها یک متخصص‌ استفاده می‌شود) به سادگی یک ترکیب خطی با همه $\alpha _{j}=0$ و یک $\alpha _{k}=1$ است. یک میانگین خام، زمانی اتفاق می‌افتد که همه $\alpha _{j}$ ها برابر با یک مقدار ثابت هستند، به عبارتی یک برابر تقسیم بر تعداد کل متخصص‌ها.^[۲]

یک روش میانگین‌گیری گروهی به تازگی، یادگیری منفی همبستگی^[۶] است که توسط Y. Liu و X. Yao پیشنهاد شده است. این روش اکنون به طور گسترده در رایانش فرگشتی استفاده می‌شود.

مزایا[ویرایش]

کمیته‌ای که به دست می‌آید تقریباً همیشه کمی پیچیده‌تر از یک شبکه تکی است که به همان سطح عملکرد می‌رسد.^[۷]
این کمیته‌ای که به دست می‌آید می‌تواند بر روی مجموعه‌های ورودی کوچک‌تر به راحتی آموزش ببیند.^[۱]
کمیته‌ای که به دست می‌آید اغلب عملکرد بهبود یافته و بهتری نسبت به هر شبکه تکی دارد.^[۲]
خطر بیش‌برازش کاهش می‌یابد، زیرا تعداد کمتری پارامتر (وزن‌ها) باید تنظیم شود.^[۱]

جستار وابسته[ویرایش]

یادگیری گروهی

منابع[ویرایش]

↑ ^۱٫۰ ^۱٫۱ ^۱٫۲ Haykin, Simon. Neural networks : a comprehensive foundation. 2nd ed. Upper Saddle River N.J.: Prentice Hall, 1999.
↑ ^۲٫۰ ^۲٫۱ ^۲٫۲ ^۲٫۳ Hashem, S. "Optimal linear combinations of neural networks." Neural Networks 10, no. 4 (1997): 599–614.
↑ ^۳٫۰ ^۳٫۱ Naftaly, U., N. Intrator, and D. Horn. "Optimal ensemble averaging of neural networks." Network: Computation in Neural Systems 8, no. 3 (1997): 283–296.
↑ Geman, S., E. Bienenstock, and R. Doursat. "Neural networks and the bias/variance dilemma." Neural computation 4, no. 1 (1992): 1–58.
↑ Clemen, R. T. "Combining forecasts: A review and annotated bibliography." International Journal of Forecasting 5, no. 4 (1989): 559–583.
↑ Y. Liu and X. Yao, Ensemble Learning via Negative Correlation Neural Networks, Volume 12, Issue 10, December 1999, pp. 1399-1404. doi:10.1016/S0893-6080(99)00073-8
↑ Pearlmutter, B. A., and R. Rosenfeld. "Chaitin–Kolmogorov complexity and generalization in neural networks." In Proceedings of the 1990 conference on Advances in neural information processing systems 3, 931. Morgan Kaufmann Publishers Inc., 1990.

برای مطالعه بیشتر[ویرایش]

Perrone, M. P. (1993), Improving regression estimation: Averaging methods for variance reduction with extensions to general convex measure optimization
Wolpert, D. H. (1992), "Stacked generalization", Neural Networks, 5 (2): 241–259, CiteSeerX 10.1.1.133.8090, doi:10.1016/S0893-6080(05)80023-1
Hashem, S. (1997), "Optimal linear combinations of neural networks", Neural Networks, 10 (4): 599–614, doi:10.1016/S0893-6080(96)00098-6, PMID 12662858
Hashem, S. and B. Schmeiser (1993), "Approximating a function and its derivatives using MSE-optimal linear combinations of trained feedforward neural networks", Proceedings of the Joint Conference on Neural Networks, 87: 617–620

مشارکت‌کنندگان ویکی‌پدیا. «Ensemble averaging (machine learning)». در دانشنامهٔ ویکی‌پدیای انگلیسی، بازبینی‌شده در ۱۴ آوریل ۲۰۲۴.

[one-1] ۱٫۰ ^۱٫۱ ^۱٫۲ Haykin, Simon. Neural networks : a comprehensive foundation. 2nd ed. Upper Saddle River N.J.: Prentice Hall, 1999.

[two-2] ۲٫۰ ^۲٫۱ ^۲٫۲ ^۲٫۳ Hashem, S. "Optimal linear combinations of neural networks." Neural Networks 10, no. 4 (1997): 599–614.

[three-3] ۳٫۰ ^۳٫۱ Naftaly, U., N. Intrator, and D. Horn. "Optimal ensemble averaging of neural networks." Network: Computation in Neural Systems 8, no. 3 (1997): 283–296.

[four-4] Geman, S., E. Bienenstock, and R. Doursat. "Neural networks and the bias/variance dilemma." Neural computation 4, no. 1 (1992): 1–58.

[five-5] Clemen, R. T. "Combining forecasts: A review and annotated bibliography." International Journal of Forecasting 5, no. 4 (1989): 559–583.

[six-6] Y. Liu and X. Yao, Ensemble Learning via Negative Correlation Neural Networks, Volume 12, Issue 10, December 1999, pp. 1399-1404. doi:10.1016/S0893-6080(99)00073-8

[7] Pearlmutter, B. A., and R. Rosenfeld. "Chaitin–Kolmogorov complexity and generalization in neural networks." In Proceedings of the 1990 conference on Advances in neural information processing systems 3, 931. Morgan Kaufmann Publishers Inc., 1990.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]