خودهمبستگی

خودهمبستگی^[۱] (به انگلیسی: autocorrelation)، همبستگیِ متقابلِ سیگنال (داده‌ها) با خودش است. به‌طور غیررسمی، خودهمبستگی، همسانیِ (شباهت) سیگنال (داده‌ها) با نسخهٔ شیفت‌یافتهٔ خود است.

خودهمبستگی، ابزاری ریاضی برای یافتن الگوهای تکراری (مانند حضور یک سیگنال متناوب در نویز)، یا شناسایی یک فرکانس مشخص در سیگنالی دارای فرکانس‌های هارمونیک است. از خودهمبستگی، اغلب در پردازش سیگنال برای تحلیل توابع یا داده‌ها از جمله تحلیل حوزه زمان سیگنال‌ها استفاده می‌شود.

آمار

در آمار، خودهمبستگی یک فرایند تصادفی، همبستگیِ مقادیر فرایند در زمان‌های مختلف را به عنوان تابعی دو-متغیّره (زمان و شیفت زمانی)، یا تابعی تک‌متغیّره (شیفت زمانی) توصیف می‌کند. اگر X فرایندی تکرارپذیر باشد و i نقطه‌ای از زمان بعد از آغاز فرایند (i عددی صحیح برای فرایند زمان‌گسسته یا عددی حقیقی برای فرایند زمان‌پیوسته) است؛ بنابراین X_i مقدار (یا تحقق) فرایند در زمان i است.

فرض کنیم فرایند، با میانگین μ_i و واریانس σ^۲_i برای همه زمان‌های i تعریف شده‌است. خودهمبستگی فرایند در دو زمان s و t عبارت است از:

R(s,t)={\frac {\operatorname {E} [(X_{t}-\mu _{t})(X_{s}-\mu _{s})]}{\sigma _{t}\sigma _{s}}}\,,

که E عملگر امید ریاضی است. این بیان برای همه فرایندها یا سری‌های زمانی، خوش‌تعریف نیست، چون ممکن است واریانس برابر صفر (برای یک فرایند ثابت) یا بینهایت باشد. اگر تابع R خوش‌تعریف باشد، مقدار آن باید در محدوده [۱٬۱-] قرار گیرد، که ۱ نشان دهنده همبستگی کامل و ۱- نشان دهنده ضدهمبستگی کامل است. اگر X_t یک فرایند ایستا (به انگلیسی: Stationary) باشد، میانگین μ و واریانس σ^۲ مستقل از زمان هستند و خودهمبستگی فقط به تفاضل t و s بستگی دارد نه به مقدار مطلق آن‌ها. این موضوع بیان می‌کند که خودهمبستگی یک فرایند ایستا می‌تواند به عنوان تابعی از تأخیر (شیفت) زمانی بیان شود، و همچنین باید یک تابع زوج از τ = s − t باشد.

R(\tau )={\frac {\operatorname {E} [(X_{t}-\mu )(X_{t+\tau }-\mu )]}{\sigma ^{2}}}\,,

و با توجه به زوج بودن این تابع، می‌توانیم بگوییم:

R(\tau )=R(-\tau ).\,

این عمل مشترک در برخی رشته‌ها به غیر از آمار و تحلیل سری‌های زمانی، برای نرمال کردن به وسیله σ^۲ و استفاده از «خودهمبستگی» مترادف با «اتو کوواریانس» است. به هر حال، نرمال کردن به دو دلیل اهمیت دارد: به علت تفسیر خودهمبستگی به عنوان یک همبستگی که مقدار بدون مقیاس «قدرت وابستگی آماری» را فراهم می‌کند و چون نرمال کردن روی خصوصیات آماری خودهمبستگی‌های برآورد شده مؤثر است.

پردازش سیگنال

در پردازش سیگنال، تعریف بالا اغلب بدون نرمال کردن استفاده می‌شود؛ یعنی بدون کسر میانگین و تقسیم بر واریانس. وقتی تابع خودهمبستگی به وسیله میانگین و واریانس نرمال شده‌است، گاهی اوقات به ضریب خودهمبستگی مربوط می‌شود.^[۲]

برای سیگنال معین (به انگلیسی: deterministic) $f(t)$ ، خودهمبستگی پیوسته $R_{ff}(\tau )$ غالباً به صورت انتگرال همبستگی متقابل $f(t)$ با نسخه تأخیریافته خودش به مقدار $\tau$ تعریف می‌شود:

R_{ff}(\tau )=(f(t)*{\overline {f}}(-t))(\tau )=\int _{-\infty }^{\infty }f(t+\tau ){\overline {f}}(t)\,{\rm {d}}t=\int _{-\infty }^{\infty }f(t){\overline {f}}(t-\tau )\,{\rm {d}}t

که ${\overline {f}}$ مزدوج مختلط و $*$ عمل کانوُلوشن است. برای یک تابع حقیقی، ${\overline {f}}=f$ .

خودهمبستگی گسسته R با تأخیر j برای یک سیگنال گسسته $x_{n}$ به صورت زیر است:

R_{xx}(j)=\sum _{n}x_{n}\,{\overline {x}}_{n-j}.

تعریف‌های بالا برای سیگنال‌هایی کاربرد دارند که دو بار انتگرال پذیرند یا دو بار جمع پذیرند.

برای فرایندهای ایستا، خودهمبستگی بر اساس مقادیر مورد انتظار تعریف می‌شوند:

R_{ff}(\tau )=\operatorname {E} \left[f(t){\overline {f}}(t-\tau )\right]

R_{xx}(j)=\operatorname {E} \left[x_{n}\,{\overline {x}}_{n-j}\right].

برای فرایندهایی که ایستا نیستند این روابط، توابعی از t و n نیز خواهند بود. برای فرایندهایی که ارگودیک نیز هستند، امید می‌تواند توسط حد یک میانگین زمانی جایگزین شود. خودهمبستگی یک فرایند ارگودیک گاهی به صورت زیر تعریف می‌شود:^[۲]

R_{ff}(\tau )=\lim _{T\rightarrow \infty }{\frac {1}{T}}\int _{0}^{T}f(t+\tau ){\overline {f}}(t)\,{\rm {d}}t

R_{xx}(j)=\lim _{N\rightarrow \infty }{\frac {1}{N}}\sum _{n=0}^{N-1}x_{n}\,{\overline {x}}_{n-j}.

این تعاریف، برای فرایندهای متناوب، نتایج تک پارامتری خوش‌تعریف معقولی می‌دهند، حتی وقتی فرایند ارگودیک ایستا نیست.

سیگنالهایی که همیشه می‌توانند به وسیله تحلیل یک تابع خودهمبستگی کوتاه مدت اجرا شوند (برای یک فرایند وابسته، به تبدیل فوریه کوتاه مدت نگاه کنید) خودهمبستگی چند بعدی به‌طور مشابه تعریف شده‌است. برای مثال، در سه بعد، خودهمبستگی یک سیگنال گسسته دو بار جمع پذیر عبارت است از:

R(j,k,\ell )=\sum _{n,q,r}x_{n,q,r}\,x_{n-j,q-k,r-\ell }.

وقتی مقدارهای میانگین از سیگنال‌ها کسر می‌شوند قبل از محاسبه یک تابع خودهمبستگی، تابع نتیجه معمولاً یک تابع کوواریانس نامیده می‌شود.

خصوصیات

در ادامه، تنها خصوصیات خودهمبستگی‌های تک بعدی شرح داده می‌شود، چون بیشتر خصوصیات به آسانی از یک مورد تک بعدی به موارد چند بعدی قابل تبدیل است.

ویژگی اساسی خودهمبستگی، تقارن است، $R(i)=R(-i)$ ، که اثبات آن از تعریف به سادگی به دست می‌آید. در موارد پیوسته، خودهمبستگی یک تابع زوج است.

R_{f}(-\tau )=R_{f}(\tau )\,

وقتی f یک تابع حقیقی و خودهمبستگی یک تابع هرمیتی است.

R_{f}(-\tau )=R_{f}^{*}(\tau )\,

وقتی f یک تابع مختلط است.

تابع خودهمبستگی پیوسته در مبدأ به قله خود می‌رسد، که در آن یک مقدار حقیقی را می‌دهد. برای مثال برای هر تأخیر $\tau$ ، $|R_{f}(\tau )|\leq R_{f}(0)$ . این، یک نتیجه نامساوی کوشی-شوارتز است. همین نتیجه در مورد گسسته نیز بدست می‌آید.
خودهمبستگی یک تابع متناوب، متناوب است با همان دوره تناوب.
خودهمبستگی مجموع دو تابع کاملاً غیر همبسته (همبستگی متقابل برای همه $\tau$ ها صفر است)، برابر مجموع خودهمبستگی‌های هر تابع به‌طور جداگانه است.
چون خودهمبستگی نوع خاصی از همبستگی متقابل است، همه خصوصیات همبستگی متقابل را حفظ می‌کند.
خودهمبستگی یک سیگنال نویز سفید با پیوستگی زمانی، یک پیک شدید خواهد داشت (بوسیله یک تابع دلتای دیراک نشان داده شده) در $\tau =0$ و برای همه $\tau$ های دیگر مطلقاً صفر خواهد بود.
قضیه کینچین-وینر، تابع خودهمبستگی را به چگالی طیفی توان به وسیله تبدیل فوریه مرتبط می‌سازد:

R(\tau )=\int _{-\infty }^{\infty }S(f)e^{j2\pi f\tau }\,{\rm {d}}f

S(f)=\int _{-\infty }^{\infty }R(\tau )e^{-j2\pi f\tau }\,{\rm {d}}\tau .

برای توابع با مقدار حقیقی، تابع خودهمبستگی متقارن یک تبدیل متقارن حقیقی دارد؛ بنابراین قضیه وینر-کینچین می‌تواند تنها بر حسب کسینوس حقیقی دوباره بیان شود:

R(\tau )=\int _{-\infty }^{\infty }S(f)\cos(2\pi f\tau )\,{\rm {d}}f

S(f)=\int _{-\infty }^{\infty }R(\tau )\cos(2\pi f\tau )\,{\rm {d}}\tau .

محاسبه کارایی

برای داده‌های زمان‌گسسته لازم است خودهمبستگی با کارایی بالا محاسبه کنیم. هنگامی‌که الگوریتم brute force مرتبه $n^{2}$ است، چندین الگوریتم کارا وجود دارد که می‌تواند خودهمبستگی را در مرتبه $n\,\log(n)$ محاسبه کند. برای مثال، قضیه وینر-کیچین، محاسبه خودهمبستگی از داده‌های خام $X(t)$ با دو تبدیل سریع فوریه (FFT)را ممکن می‌سازد.^[۳]

S(f)=F_{R}(f){F_{R}}^{*}(f)

R(\tau )={\text{IFFT}}(S(f))

که IFFT، معکوس FFT را نشان می‌دهد، * نشان دهنده مزدوج مختلط است. یک همبستگی چندگانه $\tau$ می‌تواند با استفاده از محاسبه جستجوی فراگیر (به انگلیسی: brute-force) برای مقدارهای پایین $\tau$ اجرا شود، و سپس به‌طور تدریجی استخراج داده‌های $X(t)$ با یک چگالی لگاریتمی برای محاسبه مقدارهای بزرگتر، با همان کارایی $n\,\log(n)$ اما با حافظه مورد نیاز کمتر.

برآورد

برای یک فرایند گسسته به طول n که به صورت $\{X_{1},\,X_{2},\,\ldots ,\,X_{n}\}$ با میانگین و واریانس معلوم، تخمین خودهمبستگی به صورت زیر بدست می‌آید:

{\hat {R}}(k)={\frac {1}{(n-k)\sigma ^{2}}}\sum _{t=1}^{n-k}(X_{t}-\mu )(X_{t+k}-\mu )

برای هر عدد صحیح مثبت $k<n$ . وقتی میانگین صحیح $\mu$ و واریانس $\sigma$ معلومند، این برآورد، بدون تورش است. اگر میانگین و واریانس فرایند نامعلوم باشند چند احتمال وجود دارد:

اگر $\mu$ و $\sigma$ به وسیله فرمول استاندارد برای میانگین نمونه و واریانس نمونه جایگزین شده باشد، این برآورد تورش دار است.
یک برآورد بر اساس دوره نگار (به انگلیسی: periodogram)، $n-k$ در فرمول بالا را با $n$ جایگزین می‌کند. این برآورد همیشه تورش دار است، به هر حال معمولاً میانگین مربعات خطای کمتری دارد^[۴]^[۵]
احتمال دیگر از رفتار دو بخش از داده‌های $\{X_{1},\,X_{2},\,\ldots ,\,X_{n-k}\}$ و $\{X_{k+1},\,X_{2},\,\ldots ,\,X_{n}\}$ به‌طور جداگانه و محاسبه میانگین‌های نمونه و/یا واریانس‌های نمونه برای استفاده در تعریف برآورد، مشتق می‌شود.

مزیت این برآوردها این است که مجموعه خودهمبستگی‌های برآوردشده، به عنوان تابعی از k، به صورت تابعی است که دارای خودهمبستگی معتبر است به این معنی که می‌توان فرایند تئوریکی تعریف کرد که دقیقاً همان خودهمبستگی را داشته باشد. برآوردهای دیگر می‌توانند از این مسئله رنج ببرند که اگر برای محاسبه واریانس یک ترکیب خطی از Xها استفاده شوند، واریانس محاسبه شده ممکن است منفی بدست آید.

تحلیل رگرسیون

در تحلیل رگرسیون داده‌های سری زمانی، خودهمبستگی خطاها، یک مشکل است. خودهمبستگی خطاهایی که غیرقابل مشاهده اند، می‌تواند به‌طور کلی بخاطر تولید خودهمبستگی درمانده‌های قابل مشاهده نمایان شود. (خطاها در اقتصادسنجی، «عناصر خطا» نامیده می‌شوند) خودهمبستگی، فرض حداقل مربعات معمولی (OLS) که عناصر خطا ناهمبسته‌اند را نقض می‌کند. زمانی که برآورد ضرایب OLS بدون تورش است، خطاهای استاندارد وقتی خودهمبستگی خطاها در lagهای پایین مثبت است، کمتر از مقدار واقعی تخمین زده می‌شود (و t-مقدار بیشتر از مقدار واقعی). آزمون مرسوم برای وجود خودهمبستگی مرتبه اول، آماره دوربین-واتسون است، یا اگر متغیرهای توضیح دهنده شامل متغیر وابسته لنگی باشد، آزمون انعطاف‌پذیرتر برای پوشش خودهمبستگی مراتب بالاتر و برای اینکه آیا رگرسورهای شامل متغیر وابسته لنگی قابل اجراست یا نه، تست براش-گادفری است. این شامل یک رگرسیون کمکی است، در جایی که مانده‌های (به انگلیسی: residual) به دست آمده از برآورد مدل مورد علاقه روی (الف) رگرسور اصلی و (ب) k باقی‌مانده لنگی، رگرس شده‌اند، که k مرتبه آزمون می‌باشد. ساده‌ترین تفسیر آماره آزمون از این رگرسیون کمکی، TR^۲ است که T اندازه نمونه و R^۲ ضریب تعیین هستند. تحت فرضیه صفر (عدم وجود خودهمبستگی) این آماره به‌طور مجانبی، توزیع $\chi ^{2}$ با k درجه آزادی دارد. پاسخ به خودهمبستگی غیر صفر شامل حداقل مربعات تعمیم یافته و تخمین زن Newey-West HAC (واریانس ناهمسانی و خودهمبستگی سازگار) می‌باشد.^[۶]

کاربردها

بعضی از کاربردهای خودهمبستگی به شرح زیر است:

اندازه‌گیری طیف نوری و اندازه‌گیری پالس‌های نوری خیلی کوتاه مدت تولید شده به وسیله لیزرها است. هردو با استفاده از خودهمبستگی نوری انجام می‌شوند.
برای اندازه‌گیری توزیع اندازه ذرات میسل (به انگلیسی: micelles) یا ذرات بسیار ریز معلق در مایع. یک لیزر به مخلوط می‌تابانند که با حرکت ذرات در ارتباط است.
در پردازش سیگنال، خودهمبستگی می‌تواند در رویدادهای تکرار شونده مانند ضربان موسیقی (برای مثال، برای تعیین گام) یا فرکانس پولسار باشد، اگرچه نمی‌تواند موقعیت را در زمان ضربه بگوید. همچنین می‌تواند برای برآورد گام تن موسیقی استفاده شود.
در اپتیک، خودهمبستگی نرمال شده و همبستگی متقابل، درجه انسجام یک فیلد الکترومغناطیس را می‌دهد.
در ضبط موسیقی، خودهمبستگی به عنوان یک الگوریتم تعیین گام قبل از پردازش صوتی، به عنوان یک اثر اعوجاج، یا برای حذف اشتباهات و خطاهای نامطلوب به کار می‌رود.^[۷]
خودهمبستگی در فضا نسبت به زمان، از طریق تابع پترسون، به وسیله انکسار پرتوی ایکس برای کمک به بهبود «اطلاعات فاز فوریه» روی موقعیت‌های غیرقابل دسترس اتم تنها از طریق پراش به کار می‌رود.
در آمار، خودهمبستگی فضایی بین موقعیت‌های نمونه به برآورد مقدار میانگین عدم قطعیت وقتی نمونه‌گیری از یک جامعه نا متجانس باشد، کمک می‌کند.
در داده‌های پانل، خودهمبستگی فضایی به همبستگی یک متغیر با خودش در تمام فضا اشاره دارد.

پیوست به بیرون

منابع

↑ «خودهمبستگی» [آمار، ریاضی] هم‌ارزِ «autocorrelation»؛ منبع: گروه واژه‌گزینی. جواد میرشکاری، ویراستار. دفتر چهارم. فرهنگ واژه‌های مصوب فرهنگستان. تهران: انتشارات فرهنگستان زبان و ادب فارسی. شابک ۹۶۴-۷۵۳۱-۵۹-۱ (ذیل سرواژهٔ خودهمبستگی)
↑ ^۲٫۰ ^۲٫۱ Patrick F. Dunn, ISBN 0-07-282538-3
↑ Box, G. E. P. , G. M. Jenkins, and G. C. Reinsel
↑ M.B. Priestley
↑ Percival,Donald B. ,Andrew T. 0-521-43541-2 pp190--195
↑ Christopher F. Baum
↑ Tyrangiel, Josh

Patrick F. Dunn, Measurement and Data Analysis for Engineering and Science, New York: McGraw–Hill, 2005 ISBN 0-07-282538-3
Box, G. E. P. ، G. M. Jenkins, and G. C. Reinsel. Time Series Analysis: Forecasting and Control. 3rd ed. Upper Saddle River, NJ: Prentice-Hall، ۱۹۹۴
Spectral analysis and time series, M.B. Priestley (London, New York: Academic Press، ۱۹۸۲)
Percival, Donald B. ; Andrew T. Walden (1993). Spectral Analysis for Physical Applications: Multitaper and Conventional Univariate Techniques. Cambridge University Press. ISBN 0-521-43541-2.
Christopher F. Baum (2006). An Introduction to Modern Econometrics Using Stata. Stata Press. ISBN 1-59718-013-0. http://books.google.com/?id=acxtAylXvGMC&pg=PA141&dq=newey-west-standard-errors+generalized-least-squares.
Tyrangiel, Josh (2009-02-05). "Auto-Tune: Why Pop Music Sounds Perfect". Time Magazine. http://www.time.com/time/magazine/article/0,9171,1877372,00.html بایگانی‌شده در ۲۰۱۲-۱۰-۲۳ توسط Wayback Machine.

|}

[1] «خودهمبستگی» [آمار، ریاضی] هم‌ارزِ «autocorrelation»؛ منبع: گروه واژه‌گزینی. جواد میرشکاری، ویراستار. دفتر چهارم. فرهنگ واژه‌های مصوب فرهنگستان. تهران: انتشارات فرهنگستان زبان و ادب فارسی. شابک ۹۶۴-۷۵۳۱-۵۹-۱ (ذیل سرواژهٔ خودهمبستگی)

[dunn-2] ۲٫۰ ^۲٫۱ Patrick F. Dunn, ISBN 0-07-282538-3

[dun-3] Box, G. E. P. , G. M. Jenkins, and G. C. Reinsel

[4] M.B. Priestley

[5] Percival,Donald B. ,Andrew T. 0-521-43541-2 pp190--195

[6] Christopher F. Baum

[7] Tyrangiel, Josh

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]