تغییر مقیاس ویژگی

تغییر مقیاس ویژگی روشی است که برای نرمال کردن(normalize) محدوده متغیرهای مستقل یا ویژگی های داده‌ها استفاده می شود. در پردازش داده ، به نرمال سازی داده نیز معروف است و عموماً در مرحله پیش پردازش داده‌ها انجام می شود.

انگیزه[ویرایش]

از آنجایی که دامنه مقادیر داده‌های خام پراکنده است، در برخی از الگوریتم‌های یادگیری ماشین-مانند خوشه بندی-، توابع هدف بدون نرمال سازی به درستی کار نمی کنند. به عنوان مثال، بسیاری از طبقه بندی کننده‌ها فاصله بین دو نقطه را با فاصله اقلیدسی محاسبه می کنند. اگر یکی از ویژگی‌ها دارای طیف وسیعی از مقادیر باشد، فاصله توسط این ویژگی خاص کنترل می شود. بنابراین، محدوده همه ویژگی‌ها باید به گونه‌ای نرمال شود که هر ویژگی تقریباً متناسب با فاصله نهایی در طبقه بندی مشارکت کند.

دلیل دیگری که چرا تغییر مقیاس ویژگی اعمال می شود این است که کاهش گرادیان(Gradient descent) با تغییر مقیاس ویژگی بسیار سریعتر از بدون آن همگرا می شود. ^[۱]

همچنین اگر منظم سازی(regularization) به عنوان بخشی از تابع ضرر استفاده شود استفاده از تغییر مقیاس ویژگی مهم است. (به طوری که ضرایب به‌طور مناسب تغییر کنند.)

روش ها[ویرایش]

تغییر مقیاس (نرمال سازی min-max )[ویرایش]

تغییر مقیاس ساده ترین روش است و شامل تغییر مقیاس دامنه ویژگی‌ها برای مقیاس بندی محدوده در [0، 1] یا [-1، 1] است. انتخاب محدوده هدف به ماهیت داده ها بستگی دارد. فرمول کلی برای تغییر مقیاس به [0، 1] به صورت زیر ارائه می شود: ^[۲]

x'={\frac {x-{\text{min}}(x)}{{\text{max}}(x)-{\text{min}}(x)}}

که $x$ مقدار اصلی است، $x'$ مقدار نرمال شده است. برای مثال، فرض کنید که داده‌های وزن دانش‌آموزان را داریم، و وزن دانش‌آموزان به [80 کیلوگرم، 120 کیلوگرم] می‌رسد. برای تغییر مقیاس این داده‌ها، ابتدا از وزن هر دانش آموز 80 کم می کنیم و نتیجه را بر 40 (تفاوت بین حداکثر و حداقل وزن) تقسیم می کنیم.

برای تغییر مقیاس یک محدوده بین یک مجموعه دلخواه از مقادیر [a, b]، فرمول به صورت زیر می شود:

x'=a+{\frac {(x-{\text{min}}(x))(b-a)}{{\text{max}}(x)-{\text{min}}(x)}}

که $a,b$ مقادیر کمینه و بیشینه هستند.

نرمال سازی میانگین[ویرایش]

x'={\frac {x-{\bar {x}}}{{\text{max}}(x)-{\text{min}}(x)}}

که $x$ یک مقدار اصلی است، $x'$ مقدار نرمال شده است، ${\bar {x}}={\text{average}}(x)$ میانگین آن بردار ویژگی است. شکل دیگری از نرمال سازی میانگین وجود دارد که بر انحراف معیار تقسیم می شود که به آن استانداردسازی نیز می گویند.

استانداردسازی (نرمال سازی Z-score)[ویرایش]

در یادگیری ماشینی، ما می‌توانیم انواع مختلفی از داده‌ها را مدیریت کنیم، به‌عنوان مثال سیگنال‌های صوتی و مقادیر پیکسل برای داده‌های تصویر، و این داده‌ها می‌تواند شامل چند بعد باشد. استانداردسازی ویژگی باعث می شود که مقادیر هر ویژگی در داده‌ها دارای میانگین صفر(zero-mean) (هنگام تفریق میانگین در عدد) و واریانس واحد باشد. این روش به‌طور گسترده برای نرمال سازی در بسیاری از الگوریتم های یادگیری ماشین (مانند ماشین‌های بردار پشتیبان ، رگرسیون لجستیک و شبکه های عصبی مصنوعی ) استفاده می شود. ^{^{[نیازمند منبع]}} روش کلی محاسبه، تعیین میانگین توزیع و انحراف استاندارد برای هر ویژگی است. سپس میانگین را از هر ویژگی کم می کنیم و مقادیر (میانگین قبلاً کم شده) هر ویژگی را بر انحراف معیار آن تقسیم می کنیم.

x'={\frac {x-{\bar {x}}}{\sigma }}

که $x$ بردار ویژگی اصلی است، ${\bar {x}}={\text{average}}(x)$ میانگین آن بردار ویژگی است و $\sigma$ انحراف معیار آن است.

تغییر مقیاس به طول واحد[ویرایش]

گزینه دیگری که به‌طور گسترده در یادگیری ماشینی استفاده می شود، تغییر مقیاس اجزای یک بردار ویژگی است به طوری که بردار دارای طول یک باشد. این معمولاً به معنای تقسیم هر جزء بر طول اقلیدسی بردار است:

x'={\frac {x}{\left\|{x}\right\|}}

در برخی کاربردها (مثلاً ویژگی های هیستوگرام) استفاده از نرم L ₁ (یعنی هندسه تاکسی ) بردار ویژگی می تواند عملی تر باشد. این امر به ویژه در صورتی مهم است که در مراحل یادگیری زیر از متریک اسکالر به عنوان اندازه‌گیری فاصله استفاده شود. توجه داشته باشید که این فقط برای $x\neq \mathbf {0}$ صدق میکند.

کاربرد[ویرایش]

در گرادیان کاهشی تصادفی (Stochastic gradient descent) ، مقیاس بندی ویژگی گاهی اوقات می تواند سرعت همگرایی الگوریتم را بهبود بخشد. ^[۳] در ماشین‌های بردار پشتیبان(SVM)، ^[۴] می‌تواند زمان یافتن بردارهای پشتیبان را کاهش دهد. توجه داشته باشید که نغییر مقیاس ویژگی، نتیجه SVM را تغییر می دهد.^{^{[نیازمند منبع]}}

همچنین ببینید[ویرایش]

منابع[ویرایش]

Ioffe, Sergey; Christian Szegedy (2015). "Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift". arXiv:1502.03167 [cs.LG].

"Min Max normalization". ml-concepts.com.

Grus, Joel (2015). Data Science from Scratch. Sebastopol, CA: O'Reilly. pp. 99, 100. ISBN 978-1-491-90142-7.

"Gradient Descent, the Learning Rate, and the importance of Feature Scaling".

Juszczak, P.; D. M. J. Tax; R. P. W. Dui (2002). "Feature scaling in support vector data descriptions". Proc. 8th Annu. Conf. Adv. School Comput. Imaging: 25–30. CiteSeerX 10.1.1.100.2524.

خواندن بیشتر[ویرایش]

[[رده:یادگیری ماشین]]

↑ Ioffe. "Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift". arXiv:1502.03167.
↑ "Min Max normalization". ml-concepts.com. Archived from the original on 5 April 2023. Retrieved 4 February 2023.
↑ "Gradient Descent, the Learning Rate, and the importance of Feature Scaling".
↑ Juszczak, P.; D. M. J. Tax; R. P. W. Dui (2002). "Feature scaling in support vector data descriptions". Proc. 8th Annu. Conf. Adv. School Comput. Imaging: 25–30. CiteSeerX 10.1.1.100.2524.

[1] Ioffe. "Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift". arXiv:1502.03167.

[2] "Min Max normalization". ml-concepts.com. Archived from the original on 5 April 2023. Retrieved 4 February 2023.

[3] "Gradient Descent, the Learning Rate, and the importance of Feature Scaling".

[4] Juszczak, P.; D. M. J. Tax; R. P. W. Dui (2002). "Feature scaling in support vector data descriptions". Proc. 8th Annu. Conf. Adv. School Comput. Imaging: 25–30. CiteSeerX 10.1.1.100.2524.

[۱]

[۲]

[۳]

[۴]