فرایند گاوسی: تفاوت میان نسخه‌ها

از ویکی‌پدیا، دانشنامهٔ آزاد
محتوای حذف‌شده محتوای افزوده‌شده
Rezabot (بحث | مشارکت‌ها)
جز ربات:مرتب‌سازی عنوان‌ها+املا+مرتب+تمیز+
Ehsan.montahaie (بحث | مشارکت‌ها)
ایجاد شده توسط ترجمهٔ صفحهٔ «Gaussian process»
خط ۱: خط ۱:
در [[نظریه احتمالات|نظریه احتمال]] و [[آمار]]<nowiki/>یک '''فرایند گاوسی''' یک مدل آماری که در آن مشاهدات در دامنه پیوسته رخ می دهد ،به عنوان مثال زمان و یا فضا. در یک فرایند گاوسی هر نقطه از فضای ورودی یک [[متغیر تصادفی]] با [[توزیع نرمال]] است. علاوه بر این هر مجموعه متناهی از این متغیر های تصادفی دارای توزیع گاوسی چند متغیره است. توزیع فرایند گاوسی توزیع مشترک از تمام این متغیرهای تصادفی(شمارا و نامحدود) است.
{{در دست ساخت|notready=true}}
در [[نظریه احتمالات|نظریه احتمال]] و [[آمار]]<nowiki/>یک '''فرایند گاوسی''' یک مدل آماری که در آن مشاهدات در فضای پیوسته رخ می دهد ،به عنوان مثال زمان و یا فضا. در یک فرایند گاوسی هر نقطه از فضا یک [[متغیر تصادفی]] با [[توزیع نرمال]] است. علاوه بر این هر مجموعه متناهی از متغیر های تصادفی دارای توزیع گاوسی چند متغیره است. توزیع فرایند گاوسی توزیع مشترک از آن متغیرهای تصادفی(شمارا و نامحدود) است.


از دید یک الگوریتم یادگیری ماشین ، یک فرایند گاوسی از lazy learning و اندازه گیری شباهت بین نقاط (همان تابع کرنل) برای پیش بینی نقاط جدید از داده های آموزشی است. پیش بینی فقط برای یک تخمین برای آن نقطه نیست، همچنین حاوی اطلاعات عدم قطعیت است که یک [[توزیع گاوسی]] تک بعدی(که تابع حاشیه ای توزیع در آن نقطه است).<ref>{{cite web|url=http://platypusinnovation.blogspot.co.uk/2016/05/a-simple-intro-to-gaussian-processes.html|title=Platypus Innovation: A Simple Intro to Gaussian Processes (a great data modelling tool)|publisher=}}</ref>


از دید یک الگوریتم یادگیری ماشین ، یک فرایند گاوسی از lazy learning و اندازه گیری شباهت بین نقاط (همان تابع کرنل) برای پیش بینی نقاط جدید از داده های آموزشی است.
برای برخی از توابع kernel ، جبر ماتریس را می توان برای محاسبه پیش بینی استفاده شود همانطور که در مقاله کریجینگ توضیح دادهش شده است. هنگامی که از یک مدل پارامتری کرنل استفاده می شود، نرم‌افزار های بهینه سازی به طور معمول برای تخمین فرایند گاوسی مورد استفاده قرار میگیرد.



فرایند گاوسی به افتخار کارل فریدریش گاوس به نام وی نام گذاری شده است زیرا از نماد گذاری  [[توزیع گاوسی]] ([[توزیع طبیعی|توزیع نرمال]]) در آن استفاده شده است. فرایندهای گاوسی را می تواند به عنوان یک توزیع بی نهایت بعدی چند متغیره نرمال دید.

فرایند گاوسی به افتخار کارل فریدریش گاوس به نام وی نام گذاری شده است زیرا از نماد گذاری  [[توزیع گاوسی]] ([[توزیع طبیعی|توزیع نرمال]]) در آن استفاده شده است. فرایندهای گاوسی را می تواند به عنوان یک توزیع بی نهایت بعدی چند متغيره نرمال دید.


فرایند گاوسی برای مدل کردن ها ی اماری مفید است ، این فرایند از مزایا ی ذاتی توزیع نرمال استفاده میکند.
فرایند گاوسی برای مدل کردن ها ی اماری مفید است ، این فرایند از مزایا ی ذاتی توزیع نرمال استفاده میکند.

برای مثال ، اگر فرایند تصادفی با فرایند گاوسی مدل شود 


== تعریف ==
== تعریف ==
یک فرایند گاوسی توزیع آماری است Xt, t ∈ T ، برای هر ترکیب خطی از نمونه ها یک توزیع مشترک گاوسی دارد.<ref name="prml">{{Cite book|title=Pattern Recognition and Machine Learning|last=Bishop|first=C.M.|publisher=[[Springer Science+Business Media|Springer]]|year=2006|isbn=0-387-31073-8}}</ref>
یک '''فرایند گاوسی''' توزیع آماری ''X''<sub>''t''</sub>با ''t''''T است ''که برای هر تعداد متناهی [[ترکیب خطی]] از نمونه ها دارای یک توزیه مشترک گاوسی است. به طور دقیق تر ، هر تابع خطی اعمال شده بر روی ''X''<sub>''t''</sub> یک توزیع شده گاوسی نتیجه میدهد. می توانیم بنویسیم (''X'' ~ GP(''m,K'' به معنی اینکه [[فرایند تصادفی|تابع تصادفی]] ''X'' دارای توزیع فرایند گاوسی با تابع ميانگين  ''m'' و تابع کوواریانس ''K است''.<ref>{{Cite book|title=Advanced Lectures on Machine Learning|last=Rasmussen|first=C. E.|year=2004|isbn=978-3-540-23122-6|series=Lecture Notes in Computer Science|volume=3176|pages=63–71|chapter=Gaussian Processes in Machine Learning|doi=10.1007/978-3-540-28650-9_4}}</ref> 


برخی از نویسندگان<ref>{{cite book|title=Functional Integration and Quantum Physics|last=Simon|first=Barry|publisher=Academic Press|year=1979}}</ref> فرض میکنند که [[متغیر تصادفی|متغیرهای تصادفی]] ''X''<sub>''t''</sub> میانگین صفر را دارد; این کار باعث ساده سازی محاسبات بدون از دست دادن کلیت می شود.<ref name="seegerGPML">{{cite journal|title=Gaussian Processes for Machine Learning|journal=International Journal of Neural Systems|issue=2|doi=10.1142/s0129065704001899|year=2004|volume=14|pages=69–104|last1=Seeger|first1=Matthias}}</ref>
برخی از نویسندگان<ref>{{cite book|title=Functional Integration and Quantum Physics|last=Simon|first=Barry|publisher=Academic Press|year=1979}}</ref> فرض میکنند که [[متغیر تصادفی|متغیرهای تصادفی]] ''X''<sub>''t''</sub> ميانگين صفر را دارد; این کار باعث ساده سازی محاسبات بدون از دست دادن کلیت می شود.<ref name="seegerGPML">{{Cite journal|title=Gaussian Processes for Machine Learning|last=Seeger|first=Matthias|journal=International Journal of Neural Systems|issue=2|doi=10.1142/s0129065704001899|year=2004|volume=14|pages=69–104}}</ref>


== تعاریف جایگزین ==
== تعاریف دیگر ==
به عنوان تعریفی جایگزین یک فرایند پیوسته در زمان گاوسی است [[اگر و تنها اگر]] برای هر [[مجموعه متناهی]] از شاخص های <math/> در مجموعه شاخص <math/>
به عنوان تعریفی دیگر یک فرایند پیوسته در زمان گاوسی است [[اگر و تنها اگر]] برای هر [[مجموعه متناهی]] از شاخص های <math /> در مجموعه ی شاخص <math />
: <math/>
: <math />
یک متغیر تصادفی گاوسی چند متغیره است.<ref name="DrMacKayGPNN">{{cite book|url=http://www.inference.phy.cam.ac.uk/itprnn/book.pdf|title=Information Theory, Inference, and Learning Algorithms|last=MacKay|first=David, J.C.|authorlink=David J.C. MacKay|publisher=[[انتشارات دانشگاه کمبریج|Cambridge University Press]]|year=2003|isbn=9780521642989|pages=540|quote="The probability distribution of a function <math>y(\mathbf{x})</math> is a Gaussian processes if for any finite selection of points <math>\mathbf{x}^{(1)},\mathbf{x}^{(2)},\ldots,\mathbf{x}^{(N)}</math>, the density <math>P(y(\mathbf{x}^{(1)}),y(\mathbf{x}^{(2)}),\ldots,y(\mathbf{x}^{(N)}))</math>is a Gaussian"}}</ref> با استفاده از [[Characteristic function (probability theory)|تابع مشخصه]] ی متغیرهای تصادفی ویژگی گاوسی می تواند به شرح زیر بیان شود: <math/> گاوسی است اگر و تنها اگر برای هر مجموعه متناهی از شاخص های <math/>وجود داشته باشد<math/> <math/> که <math/> به طوری که معادله زیر برای همه ی برای همه <math/>
یک متغیر تصادفی گاوسی چند متغیره است.<ref name="DrMacKayGPNN">{{cite book|url=http://www.inference.phy.cam.ac.uk/itprnn/book.pdf|title=Information Theory, Inference, and Learning Algorithms|last=MacKay|first=David, J.C.|authorlink=David J.C. MacKay|publisher=[[Cambridge University Press]]|year=2003|isbn=9780521642989|pages=540|quote="The probability distribution of a function <math>y(\mathbf{x})</math> is a Gaussian processes if for any finite selection of points <math>\mathbf{x}^{(1)},\mathbf{x}^{(2)},\ldots,\mathbf{x}^{(N)}</math>, the density <math>P(y(\mathbf{x}^{(1)}),y(\mathbf{x}^{(2)}),\ldots,y(\mathbf{x}^{(N)}))</math>is a Gaussian"}}</ref> با استفاده از [[Characteristic function (probability theory)|تابع مشخصه]] ی متغیرهای تصادفی ویژگی گاوسی می تواند به شرح زیر بیان شود: <math /> گاوسی است اگر و تنها اگر برای هر مجموعه متناهی از شاخص های <math />مقادیر حقیقی <math /> <math /> که <math /> وجود داشته باشد به طوری که معادله زیر برای همه ی برای همه <math />
: <math> \operatorname{E}\left(\exp\left(i \ \sum_{\ell=1}^k s_\ell \ \mathbf{X}_{t_\ell}\right)\right) = \exp \left(-\frac{1}{2} \, \sum_{\ell, j} \sigma_{\ell j} s_\ell s_j + i \sum_\ell \mu_\ell s_\ell\right). </math>
: <math> \operatorname{E}\left(\exp\left(i \ \sum_{\ell=1}^k s_\ell \ \mathbf{X}_{t_\ell}\right)\right) = \exp \left(-\frac{1}{2} \, \sum_{\ell, j} \sigma_{\ell j} s_\ell s_j + i \sum_\ell \mu_\ell s_\ell\right). </math>
که <math>i</math><math>\sqrt{-1}</math>
که <math>i</math><math>\sqrt{-1}</math>


<math>\sigma_{\ell j}</math><math>\mu_\ell</math> به ترتیب بیانگر [[کواریانس]] و [[میانگین]] متغیر های تصادفی در فرایند است.<ref>{{Cite book|title=Real Analysis and Probability|last=Dudley|first=R.M.|publisher=Wadsworth and Brooks/Cole|year=1989}}</ref>
<math>\sigma_{\ell j}</math><math>\mu_\ell</math> به ترتیب بیانگر کوواریانس و میانگین متغیر های تصادفی در فرایند است.<ref>{{Cite book|title=Real Analysis and Probability|last=Dudley|first=R.M.|publisher=Wadsworth and Brooks/Cole|year=1989}}</ref>


== توابع کوواریانس ==
== توابع کوواریانس ==
یک ویژگی کلیدی در فرایندهای گاوسی این است که آنها را می توان به صورت کامل با ممان مرتبه دومشان تعریف کرد.<ref name="prml">{{Cite book|title=Pattern Recognition and Machine Learning|last=Bishop|first=C.M.|publisher=[[Springer Science+Business Media|Springer]]|year=2006|isbn=0-387-31073-8}}</ref> بنابراین اگر فرض شود میانگین صفر است ، با تعریف تابع کوواریانس به صورت کامل رفتار فرایند مشخص می شود.<ref name="brml">{{Cite book|url=http://web4.cs.ucl.ac.uk/staff/D.Barber/pmwiki/pmwiki.php?n=Brml.HomePage|title=Bayesian Reasoning and Machine Learning|last=Barber|first=David|publisher=[[انتشارات دانشگاه کمبریج|Cambridge University Press]]|year=2012|isbn=978-0-521-51814-7}}</ref><ref name="gpml">{{Cite book|url=http://www.gaussianprocess.org/gpml/|title=Gaussian Processes for Machine Learning|last=Rasmussen|first=C.E.|last2=Williams, C.K.I|publisher=[[انتشارات ام‌آی‌تی|MIT Press]]|year=2006|isbn=0-262-18253-X}}</ref>
یک ویژگی کلیدی در فرایندهای گاوسی این است که آنها را می توان به صورت کامل با ممان مرتبه دومشان تعریف کرد.<ref name="prml">{{Cite book|title=Pattern Recognition and Machine Learning|last=Bishop|first=C.M.|publisher=[[Springer Science+Business Media|Springer]]|year=2006|isbn=0-387-31073-8}}</ref> بنابراین اگر فرض شود میانگین صفر است ، با تعریف تابع کوواریانس به صورت کامل رفتار فرایند مشخص می شود.<ref name="brml">{{Cite book|url=http://web4.cs.ucl.ac.uk/staff/D.Barber/pmwiki/pmwiki.php?n=Brml.HomePage|title=Bayesian Reasoning and Machine Learning|last=Barber|first=David|publisher=[[Cambridge University Press]]|year=2012|isbn=978-0-521-51814-7}}</ref><ref name="gpml">{{Cite book|url=http://www.gaussianprocess.org/gpml/|title=Gaussian Processes for Machine Learning|last=Rasmussen|first=C.E.|last2=Williams, C.K.I|publisher=[[MIT Press]]|year=2006|isbn=0-262-18253-X}}</ref>

اگر فرایند ایستا باشد آن فقط به اختلاف، ''x'<nowiki/>''&#x20;&#x2212;'' x بستگی دارد ،''در حالی که اگر غیر ایستا باشد آن بستگی به موقعیت واقعی نقاط ''x'' و '''x دارد''. برای مثال حالت خاص فرایند Ornstein&#x2013;Uhlenbeck ،یعنی [[حرکت براونی]] ایستا است.

اگر فرایند تنها به |''x'<nowiki/>''&#x20;&#x2212;&#x20;''x''| بستگی داشته باشد، یعنی فاصله اقلیدسی بین ''x'' و '''x (بدون اهمیت جهت) ''، فرایند [[همسانگرد]] محسوب میشود. یک فرایند است که هم ایستا و هم همسانگرد است همگن نامیده میشود;<ref name="PRP">{{Cite book|title=Probability and Random Processes|last=Grimmett|first=Geoffrey|last2=David Stirzaker|publisher=[[Oxford University Press]]|year=2001|isbn=0198572220}}</ref>





=== توابع کوواریانس متداول ===
[[پرونده:Gaussian_process_draws_from_prior_distribution.png|چپ|بندانگشتی|اثر انتخاب kernel های مختلف بر روی توزیع تابع پیشین فرایند گاوسی. ]]
تعدادی از توابع کوواریانس معروف:<ref name="gpml">{{Cite book|url=http://www.gaussianprocess.org/gpml/|title=Gaussian Processes for Machine Learning|last=Rasmussen|first=C.E.|last2=Williams, C.K.I|publisher=[[MIT Press]]|year=2006|isbn=0-262-18253-X}}</ref>
* : <math> K_\text{C}(x,x') = C </math>
* خطی: <math> K_\text{L}(x,x') = x^T x'</math>
* نویز گاوسی: <math> K_\text{GN}(x,x') = \sigma^2 \delta_{x,x'}</math>
* نمایی: <math> K_\text{SE}(x,x') = \exp \Big(-\frac{||d||^2}{2l^2} \Big)</math>
* Ornstein&#x2013;Uhlenbeck: <math> K_\text{OU}(x,x') = \exp \Big(-\frac{|d| }{l} \Big)</math>
* Matérn: <math> K_\text{Matern}(x,x') = \frac{2^{1-\nu}}{\Gamma(\nu)} \Big(\frac{\sqrt{2\nu}|d|}{l} \Big)^\nu K_{\nu}\Big(\frac{\sqrt{2\nu}|d|}{l} \Big)</math>
* متناوب: <math> K_\text{P}(x,x') = \exp\Big(-\frac{ 2\sin^2(\frac{d}{2})}{ l^2} \Big)</math>
* گویا درجه دو: <math> K_\text{RQ}(x,x') = (1+|d|^2)^{-\alpha}, \quad \alpha \geq 0</math>{{Reflist}}در اینجا <math />. پارامتر <math /> مشخصه مقیاس فرایند است, δ [[دلتای کرونکر]] و σ [[انحراف معیار|انحراف استاندارد]] نویز هستند. علاوه بر این, <math /> تغییر یافته [[تابع  بسل]] با مرتبه ی <math /> است و <math /> <math />. یک تابع کوواريانس می تواند از ترکیل خطی توابع کوواریانس ساده تر استفاده کرد.

واضح است که نتایج استنتاج وابسته به مقادیر پارامتر توزیع پیشین θ (به عنوان مثال <math /> و ''σ'') رفتار مدل را تعیین میکند. یک انتخاب خوب برای θ استفاده از ''[[برآوردگر بیشینه‌گر احتمال پسین|maximum a posteriori]]'' است. برآورد آن با برخی از انتخاب های قبل. اگر قبل از نزدیکی,,,,, این همان است که به حداکثر رساندن احتمال حاشیه ای از روند; حاشیه نشینی در حال انجام بیش از مشاهده روند ارزش <math />.<ref name="gpml">{{Cite book|url=http://www.gaussianprocess.org/gpml/|title=Gaussian Processes for Machine Learning|last=Rasmussen|first=C.E.|last2=Williams, C.K.I|publisher=[[MIT Press]]|year=2006|isbn=0-262-18253-X}}</ref> این رویکرد نیز شناخته شده به عنوان ''حداکثر احتمال دوم''با ''شواهد حداکثر''یا ''Empirical Bayes''.<ref name="seegerGPML">{{Cite journal|title=Gaussian Processes for Machine Learning|last=Seeger|first=Matthias|journal=International Journal of Neural Systems|issue=2|doi=10.1142/s0129065704001899|year=2004|volume=14|pages=69–104}}</ref>

یک [[فرایند وینر|فرآیند وینر]] (با نام مستعار حرکت براونی) است جدایی ناپذیر از یک نویز سفید گوسی روند. آن است که [[فرایند مانا|ثابت]]<nowiki/>اما آن را ثابت سازیم.

این [[فرایند اورنستین-یولنبک|Ornstein–Uhlenbeck فرایند]] است [[فرایند مانا|ثابت]] Gaussian روند.

این Brownian پل است جدایی ناپذیر از فرایند گاوسی که افزایش هستند و نه [[متغیرهای تصادفی مستقل|مستقل]].

این جزء به جزء حرکت براونی است جدایی ناپذیر از فرایند گاوسی که کوواريانس تابع generalisation از وینر روند.


== کاربردها ==
== کاربردها ==
یک فرایند گاوسی می تواند به عنوان یک تابع پیشین روی [[تابع|توابع]] در [[استنباط بیزی|ا]]<nowiki/>ستنتاج بیزین مورد استفاده قرار گیرد.<ref name="gpml">{{Cite book|url=http://www.gaussianprocess.org/gpml/|title=Gaussian Processes for Machine Learning|last=Rasmussen|first=C.E.|last2=Williams, C.K.I|publisher=[[انتشارات ام‌آی‌تی|MIT Press]]|year=2006|isbn=0-262-18253-X}}</ref><ref>{{cite book|url=http://www.cnel.ufl.edu/~weifeng/publication.htm|title=Kernel Adaptive Filtering: A Comprehensive Introduction|last=Liu|first=W.|publisher=[[John Wiley & Sons|John Wiley]]|year=2010|isbn=0-470-44753-2|author2=Principe, J.C.|author3=Haykin, S.}}</ref>


== حرکت براونی به عنوان جدایی ناپذیر از فرایندهای گاوسی ==
== منابع ==
یک فرایند گاوسی می تواند به عنوان یک تابع پیشین روی [[تابع|توابع]] در [[استنباط بیزی|ا]]<nowiki/>ستنتاج بیزین مورد استفاده قرار گیرد.<ref name="gpml">{{Cite book|url=http://www.gaussianprocess.org/gpml/|title=Gaussian Processes for Machine Learning|last=Rasmussen|first=C.E.|last2=Williams, C.K.I|publisher=[[MIT Press]]|year=2006|isbn=0-262-18253-X}}</ref><ref>{{cite book|url=http://www.cnel.ufl.edu/~weifeng/publication.htm|title=Kernel Adaptive Filtering: A Comprehensive Introduction|last=Liu|first=W.|publisher=[[John Wiley & Sons|John Wiley]]|year=2010|isbn=0-470-44753-2|author2=Principe, J.C.|author3=Haykin, S.}}</ref>
{{پانویس|۲|چپ‌چین=بله}}


استنتاج مستمر ارزش با یک فرایند گاوسی قبل شناخته شده است به عنوان فرایند گاوسی رگرسيون یا کريجينگ; گسترش فرایند گاوسی رگرسيون به چندین هدف متغیرهای شناخته شده است به عنوان ''cokriging''.<ref>{{Cite book|title=Interpolation of Spatial Data: Some Theory for Kriging|last=Stein|first=M.L.|publisher=[[Springer Science+Business Media|Springer]]|year=1999}}</ref> Gaussian فرآیندهای نتیجه مفید به عنوان یک قدرت غیر خطی چند متغیره [[درون‌یابی|الحاق]] و از نمونه فرمت<ref name="gpr">Barkan, O., Weill, J., & Averbuch, A. (2016). </ref> ابزار. Gaussian process رگرسیون می تواند گسترده تر به آدرس یادگیری وظایف در هر دو [[یادگیری با نظارت|تحت نظارت]] (به عنوان مثال احتمالی طبقه بندی<ref name="gpml">{{Cite book|url=http://www.gaussianprocess.org/gpml/|title=Gaussian Processes for Machine Learning|last=Rasmussen|first=C.E.|last2=Williams, C.K.I|publisher=[[MIT Press]]|year=2006|isbn=0-262-18253-X}}</ref>) و [[یادگیری بی‌نظارت|بدون نظارت]] (به عنوان مثال [[کاهش غیرخطی ابعاد|چند برابر یادگیری]]<ref name="prml">{{Cite book|title=Pattern Recognition and Machine Learning|last=Bishop|first=C.M.|publisher=[[Springer Science+Business Media|Springer]]|year=2006|isbn=0-387-31073-8}}</ref>) یادگیری میباشد.
[[رده:توزیع نرمال]]
[[پرونده:Gaussian_Process_Regression.png|چپ|بندانگشتی|<br>
]]

: <math />

: <math />

: <math />

== یادداشت ==
{{Reflist}}
[[رده:روش‌های بیزی ناپارامتری]]
[[رده:روش‌های بیزی ناپارامتری]]
[[رده:توزیع نرمال]]
[[رده:فرایندهای تصادفی]]
[[رده:فرایندهای تصادفی]]

نسخهٔ ‏۱۹ ژانویهٔ ۲۰۱۷، ساعت ۱۹:۵۹

در نظریه احتمال و آماریک فرایند گاوسی یک مدل آماری که در آن مشاهدات در دامنه پیوسته رخ می دهد ،به عنوان مثال زمان و یا فضا. در یک فرایند گاوسی هر نقطه از فضای ورودی یک متغیر تصادفی با توزیع نرمال است. علاوه بر این هر مجموعه متناهی از این متغیر های تصادفی دارای توزیع گاوسی چند متغیره است. توزیع فرایند گاوسی توزیع مشترک از تمام این متغیرهای تصادفی(شمارا و نامحدود) است.


از دید یک الگوریتم یادگیری ماشین ، یک فرایند گاوسی از lazy learning و اندازه گیری شباهت بین نقاط (همان تابع کرنل) برای پیش بینی نقاط جدید از داده های آموزشی است.


فرایند گاوسی به افتخار کارل فریدریش گاوس به نام وی نام گذاری شده است زیرا از نماد گذاری  توزیع گاوسی (توزیع نرمال) در آن استفاده شده است. فرایندهای گاوسی را می تواند به عنوان یک توزیع بی نهایت بعدی چند متغيره نرمال دید.

فرایند گاوسی برای مدل کردن ها ی اماری مفید است ، این فرایند از مزایا ی ذاتی توزیع نرمال استفاده میکند.


تعریف

یک فرایند گاوسی توزیع آماری Xtبا tT است که برای هر تعداد متناهی ترکیب خطی از نمونه ها دارای یک توزیه مشترک گاوسی است. به طور دقیق تر ، هر تابع خطی اعمال شده بر روی Xt یک توزیع شده گاوسی نتیجه میدهد. می توانیم بنویسیم (X ~ GP(m,K به معنی اینکه تابع تصادفی X دارای توزیع فرایند گاوسی با تابع ميانگين  m و تابع کوواریانس K است.[۱] 

برخی از نویسندگان[۲] فرض میکنند که متغیرهای تصادفی Xt ميانگين صفر را دارد; این کار باعث ساده سازی محاسبات بدون از دست دادن کلیت می شود.[۳]

تعاریف دیگر

به عنوان تعریفی دیگر یک فرایند پیوسته در زمان گاوسی است اگر و تنها اگر برای هر مجموعه متناهی از شاخص های در مجموعه ی شاخص 

یک متغیر تصادفی گاوسی چند متغیره است.[۴] با استفاده از تابع مشخصه ی متغیرهای تصادفی ویژگی گاوسی می تواند به شرح زیر بیان شود:  گاوسی است اگر و تنها اگر برای هر مجموعه متناهی از شاخص های مقادیر حقیقی   که  وجود داشته باشد به طوری که معادله زیر برای همه ی برای همه

که 

 به ترتیب بیانگر کوواریانس و میانگین متغیر های تصادفی در فرایند است.[۵]

توابع کوواریانس

یک ویژگی کلیدی در فرایندهای گاوسی این است که آنها را می توان به صورت کامل با ممان مرتبه دومشان تعریف کرد.[۶] بنابراین اگر فرض شود میانگین صفر است ، با تعریف تابع کوواریانس به صورت کامل رفتار فرایند مشخص می شود.[۷][۸]

اگر فرایند ایستا باشد آن فقط به اختلاف، x' x بستگی دارد ،در حالی که اگر غیر ایستا باشد آن بستگی به موقعیت واقعی نقاط x و 'x دارد. برای مثال حالت خاص فرایند Ornstein–Uhlenbeck ،یعنی حرکت براونی ایستا است.

اگر فرایند تنها به |x'x| بستگی داشته باشد، یعنی فاصله اقلیدسی بین x و 'x (بدون اهمیت جهت) ، فرایند همسانگرد محسوب میشود. یک فرایند است که هم ایستا و هم همسانگرد است همگن نامیده میشود;[۹]



توابع کوواریانس متداول

اثر انتخاب kernel های مختلف بر روی توزیع تابع پیشین فرایند گاوسی. 

تعدادی از توابع کوواریانس معروف:[۸]

  • :
  • خطی:
  • نویز گاوسی:
  • نمایی:
  • Ornstein–Uhlenbeck:
  • Matérn:
  • متناوب:
  • گویا درجه دو:
  1. Rasmussen, C. E. (2004). "Gaussian Processes in Machine Learning". Advanced Lectures on Machine Learning. Lecture Notes in Computer Science. Vol. 3176. pp. 63–71. doi:10.1007/978-3-540-28650-9_4. ISBN 978-3-540-23122-6.
  2. Simon, Barry (1979). Functional Integration and Quantum Physics. Academic Press.
  3. Seeger, Matthias (2004). "Gaussian Processes for Machine Learning". International Journal of Neural Systems. 14 (2): 69–104. doi:10.1142/s0129065704001899.
  4. MacKay, David, J.C. (2003). Information Theory, Inference, and Learning Algorithms (PDF). Cambridge University Press. p. 540. ISBN 9780521642989. The probability distribution of a function is a Gaussian processes if for any finite selection of points , the density is a Gaussian
  5. Dudley, R.M. (1989). Real Analysis and Probability. Wadsworth and Brooks/Cole.
  6. Bishop, C.M. (2006). Pattern Recognition and Machine Learning. Springer. ISBN 0-387-31073-8.
  7. Barber, David (2012). Bayesian Reasoning and Machine Learning. Cambridge University Press. ISBN 978-0-521-51814-7.
  8. ۸٫۰ ۸٫۱ Rasmussen, C.E.; Williams, C.K.I (2006). Gaussian Processes for Machine Learning. MIT Press. ISBN 0-262-18253-X.
  9. Grimmett, Geoffrey; David Stirzaker (2001). Probability and Random Processes. Oxford University Press. ISBN 0198572220.

در اینجا . پارامتر مشخصه مقیاس فرایند است, δ دلتای کرونکر و σ انحراف استاندارد نویز هستند. علاوه بر این,  تغییر یافته تابع  بسل با مرتبه ی  است و  . یک تابع کوواريانس می تواند از ترکیل خطی توابع کوواریانس ساده تر استفاده کرد.

واضح است که نتایج استنتاج وابسته به مقادیر پارامتر توزیع پیشین θ (به عنوان مثال و σ) رفتار مدل را تعیین میکند. یک انتخاب خوب برای θ استفاده از maximum a posteriori است. برآورد آن با برخی از انتخاب های قبل. اگر قبل از نزدیکی,,,,, این همان است که به حداکثر رساندن احتمال حاشیه ای از روند; حاشیه نشینی در حال انجام بیش از مشاهده روند ارزش .[۱] این رویکرد نیز شناخته شده به عنوان حداکثر احتمال دومبا شواهد حداکثریا Empirical Bayes.[۲]

یک فرآیند وینر (با نام مستعار حرکت براونی) است جدایی ناپذیر از یک نویز سفید گوسی روند. آن است که ثابتاما آن را ثابت سازیم.

این Ornstein–Uhlenbeck فرایند است ثابت Gaussian روند.

این Brownian پل است جدایی ناپذیر از فرایند گاوسی که افزایش هستند و نه مستقل.

این جزء به جزء حرکت براونی است جدایی ناپذیر از فرایند گاوسی که کوواريانس تابع generalisation از وینر روند.

کاربردها

حرکت براونی به عنوان جدایی ناپذیر از فرایندهای گاوسی

یک فرایند گاوسی می تواند به عنوان یک تابع پیشین روی توابع در استنتاج بیزین مورد استفاده قرار گیرد.[۱][۳]

استنتاج مستمر ارزش با یک فرایند گاوسی قبل شناخته شده است به عنوان فرایند گاوسی رگرسيون یا کريجينگ; گسترش فرایند گاوسی رگرسيون به چندین هدف متغیرهای شناخته شده است به عنوان cokriging.[۴] Gaussian فرآیندهای نتیجه مفید به عنوان یک قدرت غیر خطی چند متغیره الحاق و از نمونه فرمت[۵] ابزار. Gaussian process رگرسیون می تواند گسترده تر به آدرس یادگیری وظایف در هر دو تحت نظارت (به عنوان مثال احتمالی طبقه بندی[۱]) و بدون نظارت (به عنوان مثال چند برابر یادگیری[۶]) یادگیری میباشد.


یادداشت

  1. ۱٫۰ ۱٫۱ ۱٫۲ Rasmussen, C.E.; Williams, C.K.I (2006). Gaussian Processes for Machine Learning. MIT Press. ISBN 0-262-18253-X.
  2. Seeger, Matthias (2004). "Gaussian Processes for Machine Learning". International Journal of Neural Systems. 14 (2): 69–104. doi:10.1142/s0129065704001899.
  3. Liu, W.; Principe, J.C.; Haykin, S. (2010). Kernel Adaptive Filtering: A Comprehensive Introduction. John Wiley. ISBN 0-470-44753-2.
  4. Stein, M.L. (1999). Interpolation of Spatial Data: Some Theory for Kriging. Springer.
  5. Barkan, O., Weill, J., & Averbuch, A. (2016).
  6. Bishop, C.M. (2006). Pattern Recognition and Machine Learning. Springer. ISBN 0-387-31073-8.