رگرسیون لجستیک

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

وایازش لوجستیک یک مدل آماری رگرسیون برای متغیرهای وابسته دوسویی مانند بیماری یا سلامت، مرگ یا زندگی است. این مدل را می‌توان به عنوان مدل خطی تعمیم‌یافته‌ای که از تابع لوجیت به عنوان تابع پیوند استفاده می‌کند و خطایش از توزیع چندجمله‌ای پیروی می‌کند، به‌حساب‌آورد. منظور از دو سویی بودن، رخ داد یک واقعه تصادفی در دو موقعیت ممکنه است. به عنوان مثال خرید یا عدم خرید، ثبت نام یا عدم ثبت نام، ورشکسته شدن یا ورشکسته نشدن و ... متغیر هایی هستند که فقط دارای دو موقعیت هستند و مجموع احتمال هر یک آنها در نهایت یک خواهد شد. کاربرد این روش عمدتا در ابتدای ظهور در مورد کاربرد های پزشکی برای احتمال وقوع یک بیماری مورد استفاده قرار می گرفت. لیکن امروزه در تمام زمینه های علمی کاربرد وسیعی یافته است. به عنوان مثال مدیر سازمانی می خواهد بداند در مشارکت یا عدم مشارکت کارمندان کدام متغیر ها نقش پیش بینی دارند؟ مدیر تبلیغاتی می خواهد بداند در خرید یا عدم خرید یک محصول یا برند چه متغیر هایی مهم هستند؟ یک مرکز تحقیقات پزشکی می خواهد بداند در مبتلا شدن به بیماری عروق کرنری قلب چه متغیر هایی نقش پیش بینی کننده دارند؟ تا با اطلاع رسانی از احتمال وقوع کاسته شود.

رگرسیون لوجستیک می تواند یک مورد خاص از مدل خطی عمومی و رگرسیون خطی دیده شود. مدل رگرسیون لوجستیک،بر اساس فرض های کاملا متفاوتی (درباره رابطه متغیرهای وابسته و مستقل )از رگرسیون خطی است.تفاوت مهم این دو مدل در دو ویژگی رگرسیون لوجستیک می تواند دیده شود.اول توزیع شرطی y|x یک توزیع برنولی به جای یک توزیع گوسی است چونکه متغیر وابسته دودویی است. دوم مقادیر پیش بینی احتمالاتی است و محدود بین بازه صفر و یک و به کمک تابع توزیع لوجستیک بدست می آید رگرسیون لوجستیک احتمال خروجی پیش بینی می کند.


این مدل به صورت

\operatorname{logit}(p)=\ln\left(\frac{p}{1-p}\right) = \alpha + \beta_1 x_{1,i} + \cdots + \beta_k x_{k,i},
i = 1, \dots, n,\,

است که

p = \Pr(Y_i = 1).\,
p = \Pr(Y_i = 1|X) = \frac{e^{\alpha + \beta_1 x_{1,i} + \cdots + \beta_k x_{k,i}}}{1+e^{\alpha + \beta_1 x_{1,i} + \cdots + \beta_k x_{k,i}}}.


جستارهای وابسته[ویرایش]

منابع[ویرایش]