استنتاج الگوریتمی

استنتاج الگوریتمی پیشرفت‌های جدیدی را در روش‌های استنباط آماری حاصل می‌کند تا توسط دستگاه‌های محاسباتی قوی که به طور گسترده در دسترس هر تحلیلگر داده ای است، امکان‌پذیر باشد. سنگ بنای این رشته شامل تئوری یادگیری محاسباتی ، محاسبات دانه ای ، بیوانفورماتیک است و برای مدت ها پیش، احتمال ساختاری (فرزر 1966) نیز جزء این دسته بود . تمرکز اصلی بر روی الگوریتم‌هایی است که آمار را بر اساس یک پدیده تصادفی ریشه‌یابی می‌کنند و مقدار داده‌هایی را که باید از آنها تغذیه شود تا نتایج قابل اعتمادی بدست آید، محاسبه می‌کنند. این موضوع علاقه ریاضیدانان را از مطالعه قوانین توزیع به ویژگی های عملکردی آمار و علاقه دانشمندان کامپیوتر را از الگوریتم های پردازش داده ها به اطلاعاتی که آنها پردازش می کنند تغییر داد.

مسئله استنتاج پارامتریکی فیشر[ویرایش]

در مورد شناسایی پارامترهای یک قانون توزیع، خواننده آگاه ممکن است مناقشات طولانی را در اواسط قرن بیستم در مورد تفسیر تنوع آن ها از نظر توزیع اعتباری (فیشر 1956)، احتمالات ساختاری (فرزر 1966)، پیشین/پسین ها(رمزی 1925) و . . . به یاد آورد. از دیدگاه معرفت‌شناسی ، این امر مستلزم اختلاف نظر در مورد ماهیت احتمال بود: آیا این ویژگی فیزیکی پدیده‌ها است که از طریق متغیرهای تصادفی توصیف می شود یا یک روش برای سنتز داده ها درباره یک پدیده است؟ فیشر با انتخاب دومین مورد، قانون توزیع اعتباری پارامترهای یک متغیر تصادفی معین را که توسط نمونه ای از مشخصات آن استنباط کرد تعریف می کند . برای مثال، او با این قانون محاسبه می‌کند: «احتمالی که μ (میانگین یک متغیر گوسی – یادداشت omeur) کمتر از هر مقدار تخصیص داده شده باشد یا احتمالی که بین هر مقدار تخصیص داده شده باشد، یا به طور خلاصه، توزیع احتمال آن در نمونه در نظر گرفته شده».

راه حل کلاسیک[ویرایش]

فیشر سخت مبارزه کرد تا از تفاوت و برتری مفهوم خود از توزیع پارامتر در مقایسه با مفاهیم مشابه ای چون توزیع پسین بیز، احتمال سازنده فرزر و فواصل اطمینان نیمن دفاع کند. برای نیم قرن، فواصل اطمینان نیمن برای تمام اهداف عملی برنده شد و ماهیت پدیدارشناختی احتمالات را اعتبار بخشید. با این دیدگاه، وقتی با یک متغیر گوسی سروکار دارید، میانگین μ توسط ویژگی‌های فیزیکی پدیده‌ای که مشاهده می‌کنید در واقع در جایی که مشاهدات، عملگرهای تصادفی هستند ثابت می‌شود. بنابراین مقادیر مشاهده‌شده، مشخصات یک نمونه تصادفی هستند. به دلیل تصادفی بودن آن‌ها، می‌توانید فواصل زمانی خاص نمونه حاوی μ ثابت را با احتمال معینی که نشان دهنده اطمینان است، محاسبه کنید.

مثال[ویرایش]

فرض کنید X، متغیری گوسی ^[۱] با پارامتر $\mu$ و $\sigma ^{2}$ است و $\{X_{1},\ldots ,X_{m}\}$ نمونه ای که از آن گرفته شده است، می باشد . کار با آماره :

S_{\mu }=\sum _{i=1}^{m}X_{i}

و

S_{\sigma ^{2}}=\sum _{i=1}^{m}(X_{i}-{\overline {X}})^{2},{\text{ where }}{\overline {X}}={\frac {S_{\mu }}{m}}

میانگین نمونه است، پی می بریم که

T={\frac {S_{\mu }-m\mu }{\sqrt {S_{\sigma ^{2}}}}}{\sqrt {\frac {m-1}{m}}}={\frac {{\overline {X}}-\mu }{\sqrt {S_{\sigma ^{2}}/(m(m-1))}}}

از توزیع تی-استیودنت (ویلکس 1962) با پارامتر (درجه های آزادی) m - 1 پیروی می کند، به طوری که

f_{T}(t)={\frac {\Gamma (m/2)}{\Gamma ((m-1)/2)}}{\frac {1}{\sqrt {\pi (m-1)}}}\left(1+{\frac {t^{2}}{m-1}}\right)^{m/2}.

T را بین دو چندک اندازه گیری کرده و عبارت آن را به عنوان تابعی از $\mu$ نمایش دهید و فواصل اطمینان را برای $\mu$ بدست آورید.

با مشخصات نمونه:

\mathbf {x} =\{7.14,6.3,3.9,6.46,0.2,2.94,4.14,4.69,6.02,1.58\}

با داشتن m = 10، آماره $s_{\mu }=43.37$ و $s_{\sigma ^{2}}=46.07$ را محاسبه می کنید، و فاصله اطمینان 0.90 را برای $\mu$ با حدود (3.03,5.65) بدست می آورید.

استنتاج توابع با کمک کامپیوتر[ویرایش]

از دیدگاه مدل سازی، اختلاف کلی مانند دوراهی مرغ و تخم مرغ به نظر می رسد:

اول داده های ثابت و توزیع احتمال ویژگی آنها به عنوان یک نتیجه و یا اول ویژگی های ثابت و توزیع احتمال داده های مشاهده شده به عنوان نتیجه در نظر می گیریم. راه حل کلاسیک یک مزیت و یک اشکال دارد. زمانی که مردم هنوز محاسبات را با کاغذ و مداد انجام می‌دادند، از مورد اول به ویژه استقبال شد. فی النفسه، کار محاسبه فاصله اطمینان نیمن برای پارامتر ثابت θ سخت است: شما θ را نمی‌دانید، اما به دنبال از بین بردن فاصله‌ای با احتمالی بسیار کم شکست هستید. راه حل تحلیلی برای تعداد بسیار محدودی از موارد تئوری، قابل اجرا است. درمقابل، طیف وسیعی از نمونه‌ها را می‌توان سریع به روشی تقریبی با قضیه حد مرکزی از نظر فاصله اطمینان حول یک توزیع گوسی حل کرد - این خود یک مزیت محسوب می شود. مشکل در این است که قضیه حد مرکزی زمانی قابل اعمال خواهد بود که حجم نمونه به اندازه کافی بزرگ باشد. بنابراین برای نمونه مربوط به نمونه های استنتاج نوین کاربرد بسیار کمی دارد. در واقع مشکل به خودی خود در اندازه نمونه نیست بلکه این اندازه به دلیل پیچیدگی مسئله استنتاج به اندازه کافی بزرگ نیست.

منابع[ویرایش]

Fraser, D. A. S. (1966), "Structural probability and generalization", Biometrika, 53 (1/2): 1–9, doi:10.2307/2334048, JSTOR 2334048.
Fisher, M. A. (1956), Statistical Methods and Scientific Inference, Edinburgh and London: Oliver and Boyd
Apolloni, B.; Malchiodi, D.; Gaito, S. (2006), Algorithmic Inference in Machine Learning, International Series on Advanced Intelligence, vol. 5 (2nd ed.), Adelaide: Magill, Advanced Knowledge International
Apolloni, B.; Bassis, S.; Malchiodi, D.; Witold, P. (2008), The Puzzle of Granular Computing, Studies in Computational Intelligence, vol. 138, Berlin: Springer, ISBN 9783540798637
Ramsey, F. P. (1925), "The Foundations of Mathematics", Proceedings of the London Mathematical Society: 338–384, doi:10.1112/plms/s2-25.1.338.
Wilks, S.S. (1962), Mathematical Statistics, Wiley Publications in Statistics, New York: John Wiley
- Fraser, D. A. S. (1966), "Structural probability and generalization", Biometrika, 53 (1/2): 1–9, doi:10.2307/2334048, JSTOR 2334048.
- Fisher, M. A. (1956), Statistical Methods and Scientific Inference, Edinburgh and London: Oliver and Boyd
- Apolloni, B.; Malchiodi, D.; Gaito, S. (2006), Algorithmic Inference in Machine Learning, International Series on Advanced Intelligence, vol. 5 (2nd ed.), Adelaide: Magill, Advanced Knowledge International
- Apolloni, B.; Bassis, S.; Malchiodi, D.; Witold, P. (2008), The Puzzle of Granular Computing, Studies in Computational Intelligence, vol. 138, Berlin: Springer, ISBN 9783540798637
- Ramsey, F. P. (1925), "The Foundations of Mathematics", Proceedings of the London Mathematical Society: 338–384, doi:10.1112/plms/s2-25.1.338.
- Wilks, S.S. (1962), Mathematical Statistics, Wiley Publications in Statistics, New York: John Wiley

↑ By default, capital letters (such as U, X) will denote random variables and small letters (u, x) their corresponding specifications.

[1] By default, capital letters (such as U, X) will denote random variables and small letters (u, x) their corresponding specifications.

[۱]