واریانس حفظشده
در علم آمار، واریانس حفظشده (انگلیسی: Explained variation) ابزاری برای سنجش مقدار واریانس مد نظر گرفته شده توسط یک مدل ریاضیاتی روی یک مجموعه دادهٔ خاص است. هر چه میزان واریانس حفظشده بیشتر باشد، آن مدل بیشتر میتواند تنوع دادهها در مجموعهٔ دادهها را توضیح دهد.
به قسمت دیگر از واریانس کل، واریانس باقیمانده میگویند.
موارد خاص و کاربرد کلی[ویرایش]
رگرسیون خطی[ویرایش]
در رگرسیون خطی مبحث کسری از واریانس باقی مانده (به انگلیسی: Fraction of variance unexplained) مفهومی جا افتاده است. همچنین ضریب تعیین بر پایه مبانی پایهای واریانس حفظ شده تعریف میشود.
ضریب همبستگی بهعنوان معیار واریانس حفظشده[ویرایش]
فرض کنید برداری تصادفی و متغیری تصادفی که از یک توزیع نرمال با میانگین تولید میشود، میباشند. در این حالت واریانس حفظ شده برابر توان دو ضریب تعیین است.
توجه کنید که فرضیه مهم این مدل، خطی بودن مرکز توزیع نسبت به است.[۱]
تحلیل مؤلفه اصلی[ویرایش]
واریانس حفظ شده برای انتخاب مدل مناسب در بخشهایی از یادگیری ماشین استفاده میشود. از مثالهای آن میتوان به کاربرد آن در کاهش ابعاد در تحلیل مؤلفههای اصلی اشاره کرد. در این روش از واریانس حفظ شده برای انتخاب مؤلفههای اصلیای که بیشترین اطلاعات را از مجموعه داده اولیه نگهداری میکنند، استفاده میشود.[۲]
در روش تحلیل مؤلفههای اصلی مقادیر و بردارهای ویژه ماتریس کوواریانس مجموعه دادهها محاسبه میشود و بردارهای ویژه با بیشترین مقدار واریانس حفظ شده نگهداری میشوند (به اندازهای که مجموع مقدار واریانس حفظ شده به مقداری مناسب، معمولاً بالا ۹۰ درصد برسد) و مجموعه داده جدید را تشکیل میدهند. واریانس حفظ شده برای هر بردار ویژه به صورت زیر محاسبه میشود:
جستارهای وابسته[ویرایش]
منابع[ویرایش]
- ↑ Winer, Mark D. (1983). "Review of Interpreting and Using Regression". Journal of Policy Analysis and Management. 3 (1): 152–152. doi:10.2307/3324049. ISSN 0276-8739.
- ↑ Kumar، Ajitesh (۲۰۲۲-۰۸-۱۱). «PCA Explained Variance Concepts with Python Example». Data Analytics (به انگلیسی). دریافتشده در ۲۰۲۲-۱۲-۳۰.