معادله برآورد تعمیم‌یافته

از ویکی‌پدیا، دانشنامهٔ آزاد

در آمار، یک معادله برآورد تعمیم‌یافته (GEE) برای تخمین پارامترهای یک مدل خطی تعمیم‌یافته با یک همبستگی اندازه‌گیری نشده احتمالی، بین مشاهدات از نقاط زمانی مختلف استفاده می‌شود.[۱][۲] اگرچه برخی معتقدند که معادلات برآورد تعمیم یافته در همه چیز حتی با انتخاب نادرست ماتریس همبستگی کاری، کارایی دارند، اما این معادلات تنها در برابر از دست دادن سازگاری با انتخاب اشتباه، کارا هستند.

تخمین‌های ضریب بتای رگرسیون که از GEE Liang Zeger تخمین زده شده باشند تحت شرایط منظم، سازگار، بدون سوگیری، به‌طور مجانبی نرمال، حتی زمانی که همبستگی کاری به درستی مشخص شده باشد، هستند. GEE در کارایی از مدل تکرار شونده خطی تعمیم‌یافته GLIM (نرم‌افزار) در حضور خودهمبستگی بالا، بالاتر است.[۱] زمانی که همبستگی کاری واقعی شناخته شود، سازگاری نیازی به MCAR ندارد.[۱] خطاهای استاندارد Huber-White کارایی GEE Liang Zeger را در غیاب خودهمبستگی پیاپی بهبود می‌بخشند اما ممکن است تفسیر حاشیه ای را حذف کنند. GEE میانگین پاسخ را برای جمعیت (اثرات «متوسط جمعیت») با خطاهای استاندارد Liang Zeger تخمین می‌زند، و همچنین در افرادی که از خطاهای استاندارد Huber-White استفاده می‌کنند، به عنوان تخمین «خطای استاندارد قوی» یا «واریانس ساندویچ» شناخته می‌شود.[۳]

GEEها به دسته ای از تکنیک‌های رگرسیون تعلق دارند که به عنوان نیمه پارامتریک شناخته می‌شوند زیرا تنها بر مشخصات دو گشتاور اول تکیه دارند. آنها یک جایگزین محبوب برای مدل ترکیبی خطی تعمیم یافته مبتنی بر احتمال هستند که بیشتر در معرض خطر از دست دادن ثبات در مشخصات ساختار واریانس است.[۴] دستاورد تعیین نادرست ساختار واریانس و برآوردهای ضریب رگرسیون سازگار از دست دادن کارایی است، بنابراین مقادیر p آزمون والد در نتیجه واریانس بالاتر خطاهای استاندارد نسبت به بهینه‌ترین خطاها متورم می‌شود.[۵] GEEها معمولاً در مطالعات بزرگ اپیدمیولوژی، به ویژه در مطالعات هم گروهی که در چند محل انجام می‌شود استفاده می‌شوند، زیرا می‌توانند انواع زیادی از وابستگی اندازه‌گیری نشده بین نتایج را کنترل کنند.

فرمول بندی[ویرایش]

با توجه به مدل متوسط برای موضوع و زمان که به پارامترهای رگرسیون و ساختار واریانس بستگی دارد، معادله تخمینی از طریق زیر تشکیل می‌شود:[۶]

پارامترهای با حل تخمین زده می‌شوند و معمولاً از طریق الگوریتم نیوتن-رافسون به دست می‌آیند. ساختار واریانس برای بهبود کارایی تخمین پارامترها انتخاب شده‌است. ماتریس هسین راه حل برای GEEها در فضای پارامتر می‌تواند برای محاسبه تخمین‌های خطای استاندارد قوی استفاده شود. اصطلاح «ساختار واریانس» به شکل جبری ماتریس کوواریانس بین نتایج، Y، در نمونه اشاره دارد. نمونه‌هایی از مشخصات ساختار واریانس عبارتند از: مستقل، مبادله پذیر، خودبازگشت، وابسته به m ثابت و بدون ساختار. محبوب‌ترین شکل استنباط بر روی پارامترهای رگرسیون GEE، آزمون والد است که با استفاده از خطاهای استاندارد ضعیف یا قوی است، اگرچه آزمون نمره نیز زمانی معتبر و حتی ارجح است که به دست آوردن تخمین از اطلاع فیشر تحت فرضیه جایگزین مشکل باشد. آزمون نسبت درست‌نمایی دراین موقعیت معتبر نیست زیرا معادلات تخمینی لزوماً معادلات درست‌نمایی نیستند. انتخاب مدل را می‌توان با معادل GEE برای معیار اطلاعاتی آکائیکه (AIC)، یعنی «شبه احتمال تحت معیار مدل مستقل» (QIC) انجام داد.[۷]

رابطه با روش تعمیم گشتاورها[ویرایش]

معادله تخمین تعمیم یافته یک مورد خاص از روش تعمیم یافته گشتاورها (GMM) است.[۸] این رابطه از شرطی که تابع امتیاز معادله را برآورده کند پدید می‌آید:

محاسبات[ویرایش]

از نرم‌افزارهای متلب،[۹] ساس (proc genmod[۱۰]), SPSS (the gee procedure[۱۱]), استتا (the xtgee command[۱۲]), آر (packages gee,[۱۳] geepack[۱۴] و multgee[۱۵]), جولیا (package GEE.jl[۱۶]) و پایتون (package statsmodels[۱۷]) می‌توان برای حل معادلات تخمین تعمیم یافته استفاده کرد.

مقایسه بین بسته‌های نرم‌افزاری برای تجزیه و تحلیل داده‌های همبسته باینری[۱۸][۱۹] و داده‌های همبسته ترتیبی[۲۰] از طریق GEE در دسترس است.

جستارهای وابسته[ویرایش]

منابع[ویرایش]

  1. ۱٫۰ ۱٫۱ ۱٫۲ Kung-Yee Liang; Scott Zeger (1986). "Longitudinal data analysis using generalized linear models". Biometrika. 73 (1): 13–22. doi:10.1093/biomet/73.1.13.
  2. Hardin, James; Hilbe, Joseph (2003). Generalized Estimating Equations. London: Chapman and Hall/CRC. ISBN 978-1-58488-307-4.
  3. Abadie, Alberto; Athey, Susan; Imbens, Guido W.; Wooldridge, Jeffrey (2017). "When Should You Adjust Standard Errors for Clustering?". {{cite journal}}: Cite journal requires |journal= (help)
  4. Fong, Y; Rue, H; Wakefield, J (2010). "Bayesian inference for generalized linear mixed models". Biostatistics. 11 (3): 397–412. doi:10.1093/biostatistics/kxp053. PMC 2883299. PMID 19966070.
  5. O'Brien, Liam M.; Fitzmaurice, Garrett M.; Horton, Nicholas J. (October 2006). "Maximum Likelihood Estimation of Marginal Pairwise Associations with Multiple Source Predictors". Biometrical Journal (به انگلیسی). 48 (5): 860–875. doi:10.1002/bimj.200510227. ISSN 0323-3847. PMC 1764610. PMID 17094349.
  6. Diggle, Peter J.; Patrick Heagerty; Kung-Yee Liang; Scott L. Zeger (2002). Analysis of Longitudinal Data. Oxford Statistical Science Series. ISBN 978-0-19-852484-7.
  7. Pan, W. (2001), "Akaike's information criterion in generalized estimating equations", Biometrics, 57 (1): 120–125, doi:10.1111/j.0006-341X.2001.00120.x, PMID 11252586, S2CID 7862441.
  8. Breitung, Jörg; Chaganty, N. Rao; Daniel, Rhian M.; Kenward, Michael G.; Lechner, Michael; Martus, Peter; Sabo, Roy T.; Wang, You-Gan; Zorn, Christopher (2010). "Discussion of 'Generalized Estimating Equations: Notes on the Choice of the Working Correlation Matrix'". Methods of Information in Medicine. 49 (5): 426–432. doi:10.1055/s-0038-1625133. S2CID 3213776.
  9. Sarah J. Ratcliffe; Justine Shults (2008). "GEEQBOX: A MATLAB Toolbox for Generalized Estimating Equations and Quasi-Least Squares". Journal of Statistical Software. 25 (14): 1–14.
  10. "The GENMOD Procedure". The SAS Institute.
  11. "IBM SPSS Advanced Statistics". IBM SPSS website.
  12. "Stata's implementation of GEE" (PDF). Stata website.
  13. "gee: Generalized Estimation Equation solver". CRAN. 7 November 2019.
  14. geepack: Generalized Estimating Equation Package, CRAN, 18 December 2020
  15. multgee: GEE solver for correlated nominal or ordinal multinomial responses using a local odds ratios parameterization, CRAN, 13 May 2021
  16. Shedden, Kerby (23 June 2022). "Generalized Estimating Equations in Julia". GitHub. Retrieved 24 June 2022.
  17. "Generalized Estimating Equations — statsmodels".
  18. Andreas Ziegler; Ulrike Grömping (1998). "The generalised estimating equations: a comparison of procedures available in commercial statistical software packages". Biometrical Journal. 40 (3): 245–260. doi:10.1002/(sici)1521-4036(199807)40:3<245::aid-bimj245>3.0.co;2-n.
  19. Nicholas J. HORTON; Stuart R. LIPSITZ (1999). "Review of software to fit generalized estimating equation regression models". The American Statistician. 53 (2): 160–169. CiteSeerX 10.1.1.22.9325. doi:10.1080/00031305.1999.10474451.
  20. Nazanin Nooraee; Geert Molenberghs; Edwin R. van den Heuvel (2014). "GEE for longitudinal ordinal data: Comparing R-geepack, R-multgee, R-repolr, SAS-GENMOD, SPSS-GENLIN" (PDF). Computational Statistics & Data Analysis. 77: 70–83. doi:10.1016/j.csda.2014.03.009. S2CID 15063953.