در آمار ، رگرسیون پواسون نوعی از تحلیل رگرسیون و زیرمجموعهای از مدلهای خطی تعمیمیافته است که برای تحلیل دادههای حاصل از شمارش به کار میرود. اگر
x
∈
R
n
{\displaystyle \mathbf {x} \in \mathbb {R} ^{n}}
برداری از متغیر وابسته و مستقل باشد، فرم زیر را میگیرد:[۱]
log
(
E
(
Y
|
x
)
)
=
a
′
x
+
b
,
{\displaystyle \log(\operatorname {E} (Y|\mathbf {x} ))=\mathbf {a} '\mathbf {x} +b,\,}
که در آن
a
∈
R
n
{\displaystyle \mathbf {a} \in \mathbb {R} ^{n}}
و
b
∈
R
{\displaystyle b\in \mathbb {R} }
. میتوان فرم بالا را به این صورت نیز نوشت:
log
(
E
(
Y
|
x
)
)
=
θ
′
x
,
{\displaystyle \log(\operatorname {E} (Y|\mathbf {x} ))={\boldsymbol {\theta }}'\mathbf {x} ,\,}
که در آن x بردار (
n
+
1
{\displaystyle \mathbf {n+1} }
)-بعدی از متغیرهاست. با داشتن پارامتر رگرسیون پواسون
θ
{\displaystyle \mathbf {\theta } }
و بردار ورودی
x
{\displaystyle \mathbf {x} }
، میتوان پیشبینی را به اینصورت بدست آورد:
E
(
Y
|
x
)
=
e
(
θ
′
x
)
.
{\displaystyle \operatorname {E} (Y|\mathbf {x} )=e^{\left({{\boldsymbol {\theta }}'\mathbf {x} }\right)}.\,}
تخمین پارامترها بر اساس بیشینه درست نمایی [ ویرایش ]
بردار متغیر وابسته
x
{\displaystyle x}
است و
θ
{\displaystyle \theta }
پارامتر مدل رگرسیون پوسان است،
Y
{\displaystyle Y}
متغیر مستقل است که آنرا با یک توزیع پوسان شبیهسازی میکنیم که میانگین آن در معادله پایین آمدهاست:[۲]
λ
:=
E
(
Y
∣
x
)
=
e
θ
′
x
,
{\displaystyle \lambda :=\operatorname {E} (Y\mid x)=e^{\theta 'x},\,}
از این رو تابع احتمال این توزیع برابر است با:
p
(
y
∣
x
;
θ
)
=
λ
y
y
!
e
−
λ
=
e
y
θ
′
x
e
−
e
θ
′
x
y
!
{\displaystyle p(y\mid x;\theta )={\frac {\lambda ^{y}}{y!}}e^{-\lambda }={\frac {e^{y\theta 'x}e^{-e^{\theta 'x}}}{y!}}}
حال اگر فرض کنیم که
m
{\displaystyle m}
داده داریم یعنی
(
x
1
,
y
1
)
,
⋯
,
(
x
m
,
y
m
)
{\displaystyle (x_{1},y_{1}),\cdots ,(x_{m},y_{m})}
و مقادیر متغیر مستقل از مجموعه اعداد طبیعی میآید یعنی
y
1
,
…
,
y
m
∈
N
{\displaystyle y_{1},\ldots ,y_{m}\in \mathbb {N} }
و متغیرهای وابسته
n
+
1
{\displaystyle n+1}
هستند یعنی
x
i
∈
R
n
+
1
,
i
=
1
,
…
,
m
{\displaystyle x_{i}\in \mathbb {R} ^{n+1},\,i=1,\ldots ,m}
آنگاه احتمال متغیرهای مستقل به شرط مشاهده متغیرهای وابسته برابر خواهد شد با:
p
(
y
1
,
…
,
y
m
∣
x
1
,
…
,
x
m
;
θ
)
=
∏
i
=
1
m
e
y
i
θ
′
x
i
e
−
e
θ
′
x
i
y
i
!
.
{\displaystyle p(y_{1},\ldots ,y_{m}\mid x_{1},\ldots ,x_{m};\theta )=\prod _{i=1}^{m}{\frac {e^{y_{i}\theta 'x_{i}}e^{-e^{\theta 'x_{i}}}}{y_{i}!}}.}
حال بر حسب اصل بیشینهسازی درست نمایی باید به دنبال پارامتری بگردیم که این درست نمایی به بیشترین مقدار خود برسد، یعنی تابع پایین بیشینه شود:
L
(
θ
∣
X
,
Y
)
=
∏
i
=
1
m
e
y
i
θ
′
x
i
e
−
e
θ
′
x
i
y
i
!
.
{\displaystyle L(\theta \mid X,Y)=\prod _{i=1}^{m}{\frac {e^{y_{i}\theta 'x_{i}}e^{-e^{\theta 'x_{i}}}}{y_{i}!}}.}
از آنجا که تابع لگاریتم مطلقاً صعودی است بهجای بیشینه کردن تابع درست نمایی میتوان لگاریتم آن را بیشینه کرد که تابع را سادهتر میکند. به عبارتی دیگر همان پارامتری که لگاریتم تابع درست نمایی را بیشینه میکند، همان پارامتر، خودِ تابع درست نمایی را نیز بیشنه میکند. لگاریتم تابع با معادله پایین برابر خواهد شد:
ℓ
(
θ
∣
X
,
Y
)
=
log
L
(
θ
∣
X
,
Y
)
=
∑
i
=
1
m
(
y
i
θ
′
x
i
−
e
θ
′
x
i
−
log
(
y
i
!
)
)
.
{\displaystyle \ell (\theta \mid X,Y)=\log L(\theta \mid X,Y)=\sum _{i=1}^{m}\left(y_{i}\theta 'x_{i}-e^{\theta 'x_{i}}-\log(y_{i}!)\right).}
از آنجا که
∑
i
=
1
m
log
(
y
i
!
)
{\displaystyle \sum _{i=1}^{m}\log(y_{i}!)}
ثابت است و پارامتر
θ
{\displaystyle \theta }
را در خود ندارد میتوان آنرا از تابع حذف کرد و به تابع پایین رسید[۲]
ℓ
(
θ
∣
X
,
Y
)
=
∑
i
=
1
m
(
y
i
θ
′
x
i
−
e
θ
′
x
i
)
.
{\displaystyle \ell (\theta \mid X,Y)=\sum _{i=1}^{m}\left(y_{i}\theta 'x_{i}-e^{\theta 'x_{i}}\right).}
حال برای پیدا کردن بیشینه تابعِ
ℓ
(
θ
∣
X
,
Y
)
{\displaystyle \ell (\theta \mid X,Y)}
باید گرادیان آنرا با صفر یکی کرد، یعنی
∂
ℓ
(
θ
∣
X
,
Y
)
∂
θ
=
0
{\displaystyle {\frac {\partial \ell (\theta \mid X,Y)}{\partial \theta }}=0}
. این معادله اما جوابی در فرم بسته ندارد و باید جواب آنرا از روشی دیگر پیدا کرد. از آنجا که
−
ℓ
(
θ
∣
X
,
Y
)
{\displaystyle -\ell (\theta \mid X,Y)}
تابعی محّدب است، میتوان به پارامتر بهینه یعنی پارامتری که
−
ℓ
(
θ
∣
X
,
Y
)
{\displaystyle -\ell (\theta \mid X,Y)}
را کمینه و
ℓ
(
θ
∣
X
,
Y
)
{\displaystyle \ell (\theta \mid X,Y)}
را بیشینه کند با روشهای بهینهسازی محّدب مانند گرادیان کاهشی رسید.
رگرسیون پواسون تنظیم شده [ ویرایش ]
برای جلوگیری از بیشبرازش در رگرسیون پواسون، جریمهای برای پارامترهای بزرگ در نظر گرفته میشود و تابع پایین بهجای تابع
∑
i
=
1
m
log
(
p
(
y
i
;
e
θ
′
x
i
)
)
{\displaystyle \sum _{i=1}^{m}\log(p(y_{i};e^{\theta 'x_{i}}))}
بهینه میگردد:[۳]
∑
i
=
1
m
log
(
p
(
y
i
;
e
θ
′
x
i
)
)
−
λ
‖
θ
‖
2
2
{\displaystyle \sum _{i=1}^{m}\log(p(y_{i};e^{\theta 'x_{i}}))-\lambda \left\|\theta \right\|_{2}^{2}}
جستارهای وابسته [ ویرایش ]
کمترین مربعات و تحلیل رگرسیون
Computational statistics
کمترین مربعات
Linear least squares
Non-linear least squares
Iteratively reweighted least squares
ضریب همبستگی
ضریب همبستگی پیرسون
ضریب همبستگی رتبهای (ضریب همبستگی رتبهای اسپیرمن
تای کندال)
همبستگی جزئی
اختلاط
تحلیل رگرسیون
حداقل مربعات معمولی
حداقل مربعات جزئی
Total least squares
Ridge regression
رگرسیون به عنوان مدل آماری
رگرسیون خطی
Simple linear regression
حداقل مربعات معمولی
روش تعمیمیافته کمترین مربعات
Weighted least squares
رگرسیون چندمتغیره
Predictor structure
Polynomial regression
Growth curve (statistics)
Segmented regression
Local regression
Non-standard
Nonlinear regression
Nonparametric
Semiparametric
رگرسیون باثبات
Quantile
Isotonic
Non-normal errors
مدل خطی تعمیمیافته
Binomial
رگرسیون پواسون
رگرسیون لجستیک
Decomposition of variance
تحلیل واریانس
تحلیل کوواریانس
تحلیل واریانس چندمتغیره
Model exploration
Stepwise regression
Model selection
Mallows's Cp
معیار اطلاعاتی آکائیکه
معیار اطلاع بیزی-شوارتز
تصریح مدل
Regression validation
پیشزمینه
Mean and predicted response
قضیه گوس-مارکف
Errors and residuals
نیکویی برازش
Studentized residual
Minimum mean-square error
طراحی آزمایش
روششناسی سطح پاسخ
طراحی بهینه
Bayesian design
آنالیز عددی نظریه تقریب
آنالیز عددی
نظریه تقریب
انتگرال عددی
Gaussian quadrature
چندجملهایهای متعامد
چندجملهای چبیشف
Chebyshev nodes
کاربردها
برازش منحنی
Calibration curve
Numerical smoothing and differentiation
شناسایی سیستم
Moving least squares
:رده:تحلیل رگرسیون
:رده:آمار
درگاه:آمار
Statistics outline
Statistics topics