واریانس حفظ‌شده

از ویکی‌پدیا، دانشنامهٔ آزاد

در علم آمار، واریانس حفظ‌شده (انگلیسی: Explained variation) ابزاری برای سنجش مقدار واریانس مد نظر گرفته شده توسط یک مدل ریاضیاتی روی یک مجموعه دادهٔ خاص است. هر چه میزان واریانس حفظ‌شده بیشتر باشد، آن مدل بیشتر می‌تواند تنوع داده‌ها در مجموعهٔ داده‌ها را توضیح دهد.

به قسمت دیگر از واریانس کل، واریانس باقی‌مانده می‌گویند.

موارد خاص و کاربرد کلی[ویرایش]

رگرسیون خطی[ویرایش]

در رگرسیون خطی مبحث کسری از واریانس باقی مانده (به انگلیسی: Fraction of variance unexplained) مفهومی جا افتاده است. همچنین ضریب تعیین بر پایه مبانی پایه‌ای واریانس حفظ شده تعریف می‌شود.

ضریب همبستگی به‌عنوان معیار واریانس حفظ‌شده[ویرایش]

فرض کنید برداری تصادفی و متغیری تصادفی که از یک توزیع نرمال با میانگین تولید می‌شود، می‌باشند. در این حالت واریانس حفظ شده برابر توان دو ضریب تعیین است.

توجه کنید که فرضیه مهم این مدل، خطی بودن مرکز توزیع نسبت به است.[۱]

تحلیل مؤلفه اصلی[ویرایش]

نمودار مجموع میزان واریانس حفظ شده بر اساس تعداد بردار ویژه انتخاب شده (در این شکل هدف نگه‌داشتن ۸۰٪ از واریانس بوده)

واریانس حفظ شده برای انتخاب مدل مناسب در بخش‌هایی از یادگیری ماشین استفاده می‌شود. از مثال‌های آن می‌توان به کاربرد آن در کاهش ابعاد در تحلیل مؤلفه‌های اصلی اشاره کرد. در این روش از واریانس حفظ شده برای انتخاب مؤلفه‌های اصلی‌ای که بیشترین اطلاعات را از مجموعه داده اولیه نگه‌داری می‌کنند، استفاده می‌شود.[۲]

در روش تحلیل مؤلفه‌های اصلی مقادیر و بردارهای ویژه ماتریس کوواریانس مجموعه داده‌ها محاسبه می‌شود و بردارهای ویژه با بیشترین مقدار واریانس حفظ شده نگه‌داری می‌شوند (به اندازه‌ای که مجموع مقدار واریانس حفظ شده به مقداری مناسب، معمولاً بالا ۹۰ درصد برسد) و مجموعه داده جدید را تشکیل می‌دهند. واریانس حفظ شده برای هر بردار ویژه به صورت زیر محاسبه می‌شود:

که مقدار ویژه متناظر با بردار ویژه i ام و برابر میزان واریانس حفظ شده توسط آن بردار ویژه است.

جستارهای وابسته[ویرایش]

منابع[ویرایش]

  1. Winer, Mark D. (1983). "Review of Interpreting and Using Regression". Journal of Policy Analysis and Management. 3 (1): 152–152. doi:10.2307/3324049. ISSN 0276-8739.
  2. Kumar، Ajitesh (۲۰۲۲-۰۸-۱۱). «PCA Explained Variance Concepts with Python Example». Data Analytics (به انگلیسی). دریافت‌شده در ۲۰۲۲-۱۲-۳۰.

پیوند به بیرون[ویرایش]