معادله برآورد تعمیمیافته
در آمار، یک معادله برآورد تعمیمیافته (GEE) برای تخمین پارامترهای یک مدل خطی تعمیمیافته با یک همبستگی اندازهگیری نشده احتمالی، بین مشاهدات از نقاط زمانی مختلف استفاده میشود.[۱][۲] اگرچه برخی معتقدند که معادلات برآورد تعمیم یافته در همه چیز حتی با انتخاب نادرست ماتریس همبستگی کاری، کارایی دارند، اما این معادلات تنها در برابر از دست دادن سازگاری با انتخاب اشتباه، کارا هستند.
تخمینهای ضریب بتای رگرسیون که از GEE Liang Zeger تخمین زده شده باشند تحت شرایط منظم، سازگار، بدون سوگیری، بهطور مجانبی نرمال، حتی زمانی که همبستگی کاری به درستی مشخص شده باشد، هستند. GEE در کارایی از مدل تکرار شونده خطی تعمیمیافته GLIM (نرمافزار) در حضور خودهمبستگی بالا، بالاتر است.[۱] زمانی که همبستگی کاری واقعی شناخته شود، سازگاری نیازی به MCAR ندارد.[۱] خطاهای استاندارد Huber-White کارایی GEE Liang Zeger را در غیاب خودهمبستگی پیاپی بهبود میبخشند اما ممکن است تفسیر حاشیه ای را حذف کنند. GEE میانگین پاسخ را برای جمعیت (اثرات «متوسط جمعیت») با خطاهای استاندارد Liang Zeger تخمین میزند، و همچنین در افرادی که از خطاهای استاندارد Huber-White استفاده میکنند، به عنوان تخمین «خطای استاندارد قوی» یا «واریانس ساندویچ» شناخته میشود.[۳]
GEEها به دسته ای از تکنیکهای رگرسیون تعلق دارند که به عنوان نیمه پارامتریک شناخته میشوند زیرا تنها بر مشخصات دو گشتاور اول تکیه دارند. آنها یک جایگزین محبوب برای مدل ترکیبی خطی تعمیم یافته مبتنی بر احتمال هستند که بیشتر در معرض خطر از دست دادن ثبات در مشخصات ساختار واریانس است.[۴] دستاورد تعیین نادرست ساختار واریانس و برآوردهای ضریب رگرسیون سازگار از دست دادن کارایی است، بنابراین مقادیر p آزمون والد در نتیجه واریانس بالاتر خطاهای استاندارد نسبت به بهینهترین خطاها متورم میشود.[۵] GEEها معمولاً در مطالعات بزرگ اپیدمیولوژی، به ویژه در مطالعات هم گروهی که در چند محل انجام میشود استفاده میشوند، زیرا میتوانند انواع زیادی از وابستگی اندازهگیری نشده بین نتایج را کنترل کنند.
فرمول بندی[ویرایش]
با توجه به مدل متوسط برای موضوع و زمان که به پارامترهای رگرسیون و ساختار واریانس بستگی دارد، معادله تخمینی از طریق زیر تشکیل میشود:[۶]
پارامترهای با حل تخمین زده میشوند و معمولاً از طریق الگوریتم نیوتن-رافسون به دست میآیند. ساختار واریانس برای بهبود کارایی تخمین پارامترها انتخاب شدهاست. ماتریس هسین راه حل برای GEEها در فضای پارامتر میتواند برای محاسبه تخمینهای خطای استاندارد قوی استفاده شود. اصطلاح «ساختار واریانس» به شکل جبری ماتریس کوواریانس بین نتایج، Y، در نمونه اشاره دارد. نمونههایی از مشخصات ساختار واریانس عبارتند از: مستقل، مبادله پذیر، خودبازگشت، وابسته به m ثابت و بدون ساختار. محبوبترین شکل استنباط بر روی پارامترهای رگرسیون GEE، آزمون والد است که با استفاده از خطاهای استاندارد ضعیف یا قوی است، اگرچه آزمون نمره نیز زمانی معتبر و حتی ارجح است که به دست آوردن تخمین از اطلاع فیشر تحت فرضیه جایگزین مشکل باشد. آزمون نسبت درستنمایی دراین موقعیت معتبر نیست زیرا معادلات تخمینی لزوماً معادلات درستنمایی نیستند. انتخاب مدل را میتوان با معادل GEE برای معیار اطلاعاتی آکائیکه (AIC)، یعنی «شبه احتمال تحت معیار مدل مستقل» (QIC) انجام داد.[۷]
رابطه با روش تعمیم گشتاورها[ویرایش]
معادله تخمین تعمیم یافته یک مورد خاص از روش تعمیم یافته گشتاورها (GMM) است.[۸] این رابطه از شرطی که تابع امتیاز معادله را برآورده کند پدید میآید:
محاسبات[ویرایش]
از نرمافزارهای متلب،[۹] ساس (proc genmod[۱۰]), SPSS (the gee procedure[۱۱]), استتا (the xtgee command[۱۲]), آر (packages gee,[۱۳] geepack[۱۴] و multgee[۱۵]), جولیا (package GEE.jl[۱۶]) و پایتون (package statsmodels[۱۷]) میتوان برای حل معادلات تخمین تعمیم یافته استفاده کرد.
مقایسه بین بستههای نرمافزاری برای تجزیه و تحلیل دادههای همبسته باینری[۱۸][۱۹] و دادههای همبسته ترتیبی[۲۰] از طریق GEE در دسترس است.
جستارهای وابسته[ویرایش]
منابع[ویرایش]
- ↑ ۱٫۰ ۱٫۱ ۱٫۲ Kung-Yee Liang; Scott Zeger (1986). "Longitudinal data analysis using generalized linear models". Biometrika. 73 (1): 13–22. doi:10.1093/biomet/73.1.13.
- ↑ Hardin, James; Hilbe, Joseph (2003). Generalized Estimating Equations. London: Chapman and Hall/CRC. ISBN 978-1-58488-307-4.
- ↑ Abadie, Alberto; Athey, Susan; Imbens, Guido W.; Wooldridge, Jeffrey (2017). "When Should You Adjust Standard Errors for Clustering?".
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Fong, Y; Rue, H; Wakefield, J (2010). "Bayesian inference for generalized linear mixed models". Biostatistics. 11 (3): 397–412. doi:10.1093/biostatistics/kxp053. PMC 2883299. PMID 19966070.
- ↑ O'Brien, Liam M.; Fitzmaurice, Garrett M.; Horton, Nicholas J. (October 2006). "Maximum Likelihood Estimation of Marginal Pairwise Associations with Multiple Source Predictors". Biometrical Journal (به انگلیسی). 48 (5): 860–875. doi:10.1002/bimj.200510227. ISSN 0323-3847. PMC 1764610. PMID 17094349.
- ↑ Diggle, Peter J.; Patrick Heagerty; Kung-Yee Liang; Scott L. Zeger (2002). Analysis of Longitudinal Data. Oxford Statistical Science Series. ISBN 978-0-19-852484-7.
- ↑ Pan, W. (2001), "Akaike's information criterion in generalized estimating equations", Biometrics, 57 (1): 120–125, doi:10.1111/j.0006-341X.2001.00120.x, PMID 11252586, S2CID 7862441.
- ↑ Breitung, Jörg; Chaganty, N. Rao; Daniel, Rhian M.; Kenward, Michael G.; Lechner, Michael; Martus, Peter; Sabo, Roy T.; Wang, You-Gan; Zorn, Christopher (2010). "Discussion of 'Generalized Estimating Equations: Notes on the Choice of the Working Correlation Matrix'". Methods of Information in Medicine. 49 (5): 426–432. doi:10.1055/s-0038-1625133. S2CID 3213776.
- ↑ Sarah J. Ratcliffe; Justine Shults (2008). "GEEQBOX: A MATLAB Toolbox for Generalized Estimating Equations and Quasi-Least Squares". Journal of Statistical Software. 25 (14): 1–14.
- ↑ "The GENMOD Procedure". The SAS Institute.
- ↑ "IBM SPSS Advanced Statistics". IBM SPSS website.
- ↑ "Stata's implementation of GEE" (PDF). Stata website.
- ↑ "gee: Generalized Estimation Equation solver". CRAN. 7 November 2019.
- ↑ geepack: Generalized Estimating Equation Package, CRAN, 18 December 2020
- ↑ multgee: GEE solver for correlated nominal or ordinal multinomial responses using a local odds ratios parameterization, CRAN, 13 May 2021
- ↑ Shedden, Kerby (23 June 2022). "Generalized Estimating Equations in Julia". GitHub. Retrieved 24 June 2022.
- ↑ "Generalized Estimating Equations — statsmodels".
- ↑ Andreas Ziegler; Ulrike Grömping (1998). "The generalised estimating equations: a comparison of procedures available in commercial statistical software packages". Biometrical Journal. 40 (3): 245–260. doi:10.1002/(sici)1521-4036(199807)40:3<245::aid-bimj245>3.0.co;2-n.
- ↑ Nicholas J. HORTON; Stuart R. LIPSITZ (1999). "Review of software to fit generalized estimating equation regression models". The American Statistician. 53 (2): 160–169. CiteSeerX 10.1.1.22.9325. doi:10.1080/00031305.1999.10474451.
- ↑ Nazanin Nooraee; Geert Molenberghs; Edwin R. van den Heuvel (2014). "GEE for longitudinal ordinal data: Comparing R-geepack, R-multgee, R-repolr, SAS-GENMOD, SPSS-GENLIN" (PDF). Computational Statistics & Data Analysis. 77: 70–83. doi:10.1016/j.csda.2014.03.009. S2CID 15063953.