پرش به محتوا

تابع هزینه

از ویکی‌پدیا، دانشنامهٔ آزاد

تابع هزینه یا تابع زیان (به انگلیسی: Loss function) در علم آمار و بهینه‌سازی تابعی است که مقدار زیان را در یک پیشامد نشان می‌دهد. تابع هزینه همچنین در علم اقتصاد، کنترل بهینه و مدیریت ریسک کاربرد دارد. این ایده توسط آبراهام والد در اواسط قرن بیستم، همزمان با پیر سیمون لاپلاس مطرح شد.

در علم آمار معمولا تابع هزینه برای اینکه مشخص شود تخمین پارامترمان تا چه حد موفق بوده استفاده می‌شود و تابعی که برای سنجش میزان موفقیت تخمینگر از تخمین پارامتر نسبت به مقادیر واقعی از آن استفاده می‌شود که به تابع هزینه معروف است یک تابعی است که مقدار تفاوت بین مقادیر تخمین زده شده توسط تخمینگر و مقادیر واقعی یک متغیر موجود در دادگان را نمایش می‌دهد. در مسائل طبقه‌بندی تابع هزینه در اصل به نوعی تعداد طبقه‌‌بندی های اشتباه توسط تحمنگیر را نمایان می‌کند زیرا دیگر مانند مسائل رگرسیون با جواب‌های عددی مواجه نیستیم که بتوانیم مقدار تفاوت از جواب واقعی و جواب تخمینگر را اندازه بگیریم ؛ از انواع توابع هزینه برای مسائل طبقه‌بندی آماری می‌توان به تابع هزینه لاجستیک و تابع هزینه هینج اشاره کرد.

توابع هزینه متفاوت رگرسیون

تعریف

[ویرایش]

برای تعریف تابع هزینه (به انگلیسی: Cost function)، از متغیر تصادفی X استفاده می‌شود و تابع هزینه به شکل بیان می‌شوند. در یک مسئله بهینه‌سازی هدف مینیمم‌سازی تابع هزینه است و این کار معمولاً با الگوریتم‌های تخمینی انجام می‌شود.[۱] تابع هزینه می‌تواند شامل چند مرحله مرتبه‌بندی باشد.

نمونه‌هایی از توابع هزینه مشهور

[ویرایش]

انواع مختلفی از توابع زیان وجود دارد که هر یک برای انواع مختلف وظایف مناسب هستند. برخی از نمونه‌های رایج عبارتند از:

خطای میانگین مربعات

[ویرایش]

در علم آمار، خطای میانگین مربعات (به انگلیسی: Mean Squared Error) یه تخمینگر مقدار میانگین خطای مربعات خطاها را اندازه میگیرد، به عبارت دیگر میانگین مربع فاصله مقادیر تخمین زده شده با مقادیر واقعی را به ما نشان می‌دهد. خطای میانگین مربعات کیفیت یک تخمینگر را اندازه‌گیری می‌کند؛ به خاطر ماهیت درجه دومی که دارد همواره مثبت است و در حالتی کاهش می‌یابد که خطای ما در حال کاهش یافتن باشد. خطای میانگین مربعات، معمولاً در وظایف رگرسیون استفاده می‌شود و میانگین مربعات تفاوت بین مقادیر پیش‌بینی شده و واقعی را اندازه‌گیری می‌کند.



خطای میانگین مطلق

[ویرایش]

در علم آمار، خطای میانگین مطلق ، میانگین فاصله قدر مطلقی مقدار تخمین زده تا مقدار واقعی را نشان می‌دهد. خطای میانگین مطلق از همان مقیاسی که در دیتا اندازه‌گیری می‌شود استفاده می‌کند، برای همین به عنوان یک معیار مقیاس-آزاد برای اندازه‌گیری دقت معروف است.


زیان متقاطع (Cross-Entropy Loss)

[ویرایش]

زیان متقاطع (به انگلیسی: Cross-Entropy Loss) که معمولاً در وظایف دسته‌بندی استفاده می‌شود و تفاوت بین دو توزیع احتمالی - احتمالات پیش‌بینی شده و برچسب‌های دسته‌بندی واقعی - را اندازه‌گیری می‌کند.

زیان لبه‌ای (Hinge Loss)

[ویرایش]

زیان لبه‌ای (به انگلیسی: Hinge Loss) که برای دسته‌بندی با حداکثر حاشیه استفاده می‌شود، عمدتاً برای ماشین‌های بردار پشتیبانی.

انتخاب تابع هزینه مناسب

[ویرایش]

در مسائل آماری نیاز است که توابع هزینه با توجه به شرایط موجود در مسئله و کاربرد هر تابع هزینه در هر مسئله تعیین شوند؛پس مدل‌سازی مسئله به این وابسته است که هر تابع هزینه در شرایط متفاوت و خاص هر مسئله چه مقادیری را از خود نشان می‌دهد.

با در نظر گرفتن گزینه های موجود در الگوریتم‌های بهینه سازی،SGD و ADAM(Adaptive Moment Estimation) روش هایی هستند که به طور گسترده ای در حال استفاده می‌باشند. انتخاب تابع هزینه به کاری که می‌خواهیم انجام دهیم بستگی دارد؛ ممکن است از تابع هزینه خطای میانگین مربعات برای یک مسئله رگرسیون خطی استفاده کنیم. خانواده توابع هزینه‌های مشابه آنتروپی متقاطع برای مسئله های طبقه‌بندی مناسب می‌باشند. در اکثر الگوریتم‌های بهینه سازی مطلوب است که توابع هزینه همواره پیوسته و مشتق‌پذیر داشته باشیم.

ویلیام ادورادز دمینگ و نسیم نیکولاس طالب بحث می‌کنند که در واقعیت توابع هزینه دارای ویژگی های خوب ریاضیاتی محض مانند پیوستگی، مشتق‌پذیری و یا عدم تقارن نیستند و این توابع نباید پایه اصلی انتخاب توابع هزینه ما در مدل سازی مسائل باشند؛ برای مثال فردی که قبل ازز بسته شدن درب ورودی هواپیما به آن می‌رسد می‌تواند که سوار هواپیما شود و کسی که بعد از بسته شدن درب ورودی به هواپیما برسد از سوار شدن باز‌‌می‌ماند؛ یک ناپیوستگی که به شدت تابع هزینه را برای کسی که قبل یا بعد از بسته شدن درب هواپیما به آن رسیده تغییر می‌دهد. در عملیات تست دوز مناسب داروها معمولا مقدار بسیار کمی از دارو اثرگذار نخواهد بود و مقدار بسیار زیادی از آن ممکن است مرگ‌آور باشد که مثال دیگری از عدم تقارن در توابع هزینه است.



اهمیت کاهش زیان

[ویرایش]

فهمیدن و کاهش زیان برای توسعه مدل‌های یادگیری ماشین دقیق و قابل اطمینان بسیار مهم است.

منابع

[ویرایش]
  1. Berger, James O. (1985). Statistical Decision Theory and Bayesian Analysis (Second edition. ed.). New York, NY: Springer New York. ISBN 978-1-4757-4286-2.

Peter_J._Bickel Doksum, Kjell A. (2015). Mathematical Statistics: Basic Ideas and Selected Topics. Vol. I (Second ed.). p. 20

"Advantages of the mean absolute error (MAE) over the root mean square error (RMSE) in assessing average model performance"

"2.5 Evaluating forecast accuracy | OTexts"