همگنسازی (ریاضیات)
در ریاضیات، آمار، مالی، علوم کامپیوتر، بهویژه در یادگیری ماشین و مسائل معکوس، همگنسازی فرایندی است که باعث تغییر پاسخ نهایی به سمت «سادهتر» میشود. این روش معمولاً برای بهدست آوردن پاسخ مسائل بیقید و شرط یا جلوگیری از بیشبرازش بهکار میرود.
اگر چه فرایند نرمالسازی را میتوان به چندین روش تقسیم کرد، اما تقسیمبندی زیر به خصوص مفید است:
- نرمالسازی صریح، نوعی نرمالسازی است که در آن یک عبارت به طور صریح به مسئله بهینهسازی اضافه میشود. این عبارات میتوانند شامل پیشینهها، جرائم و یا محدودیتها باشند. نرمالسازی صریح معمولاً در مسائل بهینهسازی بدون قید و شرط بهکار میرود. عبارت نرمالسازی یا جریمه، هزینهای را برای تابع بهینهسازی تحمیل میکند تا بهینهسازی فقط به یک پاسخ منحصر به فرد برسد.
- نرمالسازی ضمنی شامل هر نوع نرمالسازی دیگری است. به عنوان مثال، این شامل مواردی مانند توقف زودهنگام، استفاده از تابع هزینه قوی و رد کردن دادههای پرت است. نرمالسازی ضمنی در واقع در روشهای یادگیری ماشین مدرن، از جمله نزول تصادفی گرادیان برای آموزش شبکههای عصبی عمیق و روشهای مجموعه (مانند جنگلهای تصادفی و درختان گرادیان افزایشی)، به طور کلی وجود دارد.
در نرمالسازی صریح، مستقل از مسئله یا مدل، همیشه یک عبارت داده وجود دارد که مربوط به احتمال دادههای اندازهگیری شده است و یک عبارت نرمالسازی که مربوط به پیشینه مورد نظر است.با ترکیب هر دو روش با استفاده از آمار بیزین، میتوان پسین را محاسبه کرد که منابع اطلاعاتی هر دو را شامل میشود و در نتیجه فرایند برآورد را استحکام میبخشد. با تعادل بین هر دو هدف، انتخاب میشود که بیشتر به دادهها عادت کند یا تعمیمپذیری را اعمال کند (به منظور جلوگیری از بیشبرازش). یک شاخه تحقیقات کامل در حال پرداختن به تمام نوع نرمالسازی وجود دارد. در عمل، معمولاً ابتدا یک نرمالسازی خاص را امتحان میکنیم، سپس چگونگی توزیع چگالی احتمال مربوط به آن نرمالسازی را بررسی میکنیم تا انتخاب خود را توجیه کنیم. همچنین، میتوان از الهام گرفته شده از منطق عمومی یا شهود فیزیکی استفاده کرد.
در یادگیری ماشین، عبارت داده مربوط به دادههای آموزش است و نرمالسازی به انتخاب مدل و یا تغییرات در الگوریتم مربوط میشود. همیشه هدف کاهش خطای تعمیم، یعنی امتیاز خطای مدل آموزش دیده روی مجموعه ارزیابی و نه دادههای آموزش است.
یکی از قدیمیترین کاربردهای نرمالسازی، نرمالسازی تیخونوف است که مربوط به روش کمترین مربعات است.
دستهبندی
یادگیری استنتاجی دستهکننده (از یک مجموعه داده محدود) همیشه یک مسئله نامعین است، زیرا تلاش میکند تا با تنها بررسی نمونهها، یک تابعی را در مورد هر x مشخص کند.
یک عبارت نرمال سازی، به تابع خطای یک مدل یادگیری ماشین اضافه میشود.
مفاهیم محاسباتی مورد استفاده شامل محدودیت هایی برای صاف بودن و محدودیتهایی برای فضای برداری نرمدار (Normed Vector Space) هستند.
توجیه نظری برای استفاده از روش های نرمال سازی (بخشی از یادگیری ماشین است که برای جلوگیری از بیشبرازش استفاده میشود) این است که سعی میکند اصل اوکام (Occam's razor) را در راه حل اعمال کند (همانطور که در شکل بالا نشان داده شده است، تابع سبز، یعنی تابع ساده، ممکن است ترجیح داده شود). از دیدگاه بیزین، بسیاری از تکنیک های نرمال سازی با اعمال توزیع ها پیشین خاصی بر روی پارامترهای مدل، مطابقت دارند.
نرمالسازی میتواند به چندین هدف خدمت کند، از جمله یادگیری مدلهای سادهتر، تحریک کردن مدلها برای بودن پراکنده و معرفی ساختار گروهی در مسئله یادگیری.
این ایده در بسیاری از حوزه های علمی بروز پیدا کرده است. یک شکل ساده از نرمال سازی که به معادلات انتگرالی (Regularization Tikhonov) اعمال میشود، در واقع یک تعادل بین جور درآوردن داده ها و کاهش نرم حل است. در چند سال اخیر، روش های نرمال سازی غیر خطی شامل نرمال سازی تفاضل کلی، محبوب شده اند.
کلیسازی
نرمال سازی میتواند به عنوان یک تکنیک برای بهبود قابلیت کلیسازی مدل یادگیری تحریک شود.
هدف این مسئله یادگیری، پیدا کردن یک تابع است که با بیشترین دقت از همه ورودیها و برچسبها پیشبینی را انجام دهد. خطای مورد انتظار یک تابع f(n)، میانگین اختلاف بین پیشبینی شده توسط تابع f(n) و برچسب واقعی از تمام ورودیها است. این میانگین در طول فضای ورودی توزیع شده است و میتوان آن را به صورت زیر نوشت.
معمولاً در مسائل یادگیری، تنها زیرمجموعهای از دادههای ورودی و برچسبها با نویزی اندک در دسترس است. به همین دلیل، خطای مورد انتظار قابل اندازهگیری نیست و بهترین جایگزین موجود، خطای تجربی بر روی N نمونه موجود است.
در صورت عدم وجود محدودیتی برای پیچیدگی فضای توابع (به شکل رسانههای هیلبرت با هسته افزایشی) در دسترس، یک مدل یادگیری خواهیم داشت که هیچ خطایی در خطای تجربی کنونی ندارد. اگر اندازهگیریها با نویزی انجام شده باشند، این مدل ممکن است از بیشبرازش رنج ببرد و خطای مورد انتظار ضعیفی داشته باشد. رویهگذاری یک جریمه برای پوشش مناطق خاصی از فضای توابع مورد استفاده در ساخت مدل به کار میگیرد، که میتواند تعمیمپذیری را بهبود بخشد.
نرمالسازی تیخونوف
این تکنیکها به نام اندری نیکلایویچ تیخونوف نامگذاری شدهاند که نرمال سازی را برای معادلات انتگرالی به کار گرفت و در بسیاری از زمینههای دیگر مشارکتهای مهمی داشت.
هنگام یادگیری تابع خطی f، که توسط بردار ناشناختهی w به شکل f(x)=w*x مشخص میشود، میتوان به عبارت تلفات (Loss) نرم L2 بردار w را اضافه کرد تا به راهحلهایی با نرم کوچکتر تمایل داشت. یکی از رایجترین شکلهای این نوع نرمالسازی، رگرسیون ریدج (Ridge Regression) یا تنظیم (نرمالسازی) تیخونوف (Tikhonov Regularization) است. این روش به شکل زیر معرفی میشود:
در مورد یک تابع کلی، نرم آن در فضای هیلبرت بازتولیدی نواحی آن به شکل زیر است:
یادگیری میتواند با کمک گرادیان کاهشی پیشرفت کند.
حداقل مربعات منظمشدهی تیخونوف (Tikhonov-regularized least squares)
مسئلهٔ یادگیری با تابع هزینهی کمترین مربعات و تنظیم (نرمالسازی) تیخونوف، به صورت تحلیلی قابل حل است. به شکل ماتریسی، w بهینه، آن دسته از بردارهایی است که نسبت به آنها، گرادیان تابع هزینه نسبت به w برابر صفر است.
توقف زودهنگام
توقف زودهنگام به عنوان یک نوع نرمالسازی به معنای کنترل پیچیدگی مدل در طول زمان میتواند تلقی شود. با توجه به اینکه فرآیند آموزش، مانند گرادیان کاهشی، با افزایش تعداد بارهای آموزشی، تابعی همیشه پیچیدهتر را یاد میگیرد، در نتیجه، با استفاده از توقف زودهنگام، پیچیدگی مدل در طول زمان کنترل شده و تعمیمپذیری بهبود مییابد. در واقع، با نظارت بر عملکرد مدل در طول زمان، و متوقف کردن آموزش آن هنگامی که دیده میشود که عملکرد آن بر روی ست مجموعه اعتبارسنجی بهبود نمییابد، کنترل پیچیدگی مدل حفظ میشود و این میتواند به بهبود عملکرد مدل در پیشبینی دادههای جدید کمک کند.
توقف زودهنگام با استفاده از یک مجموعه داده برای آموزش، یک مجموعه داده آماری مستقل برای اعتبارسنجی و یک مجموعه داده دیگر برای آزمون پیادهسازی میشود. در این روش، مدل تا زمانی که عملکرد آن بر روی مجموعه اعتبارسنجی بهبود نیابد، آموزش میبیند و سپس بر روی مجموعه آزمون اعمال میشود.
انگیزه نظری در حداقل مربعات
در نظر گرفتن تقریب محدود سری نومان برای یک ماتریس برگشتپذیر A که اگر یک مقدار γ بیشتر از صفر به کار رود تا اطمینان حاصل شود که نرم کمتر از یک است، میتوان از این روش برای تقریب حل تحلیلی مربعها کمینه غیرمنظم استفاده کرد.
حل دقیق مسئله یادگیری مربع ها کمینه غیرمنظم، خطای تجربی را به حداقل میرساند اما ممکن است شکست خورده باشد. با محدود کردن T، پارامتر آزاد و تنها در الگوریتم بالا، مسئله به صورت منظم شده و این میتواند باعث بهبود عملکرد تعمیمی آن شود.
الگوریتم فوق معادل با محدود کردن تعداد تکرارهای نزول گرادیان برای خطای تجربی است.
نرمالسازیهای کمپیوستگی
فرض کنید یک دیکشنری با بعد p به نام phi{j} داده شده است به گونهای که یک تابع در فضای تابع میتواند به صورت زیر بیان شود.
عمال محدودیت اندکیت بر روی w میتواند منجر به مدلهای ساده تر و قابل تفسیرتر شود. این در بسیاری از کاربردهای واقعی مانند زیست شناسی محاسباتی، مفید است. یک مثال، طراحی یک آزمون پیشبینی ساده برای یک بیماری به منظور کاهش هزینه انجام آزمایشهای پزشکی و در عین حال بالا بردن قدرت پیشبینی است.
یک محدودیت معقولانهی اندکی بودن تنکی، نرم L0 ,||w||0 است که به عنوان تعداد عناصر غیر صفر در وی تعریف میشود. حل یک مسئله یادگیری با محدودیت تنکی L0، با این حال، به عنوان NP-hard ثابت شده است.
نرم L1 (همچنین مربوط به نرم ها) میتواند برای تقریب بهینه نرم L0 با استفاده از شکست محدب (convex) استفاده شود. میتوان نشان داد که نرم L1 تنکی را ایجاد میکند. در مورد کمترین مربعها، این مسئله در آمار و احتمالها به عنوان LASSO و در پردازش سیگنال به عنوان Basis pursuit شناخته میشود.
محدودیت L1 گاهی ممکن است باعث تولید راهحلهای غیر منحصر به فرد شود. یک مثال ساده در شکل ارائه شده است وقتی فضای راهحلهای ممکن بر روی یک خط 45 درجه قرار دارد. این مشکلها را میتوان در برخی از برنامهها داشت و با ترکیب محدودیت L1 با محدودیت L2 در محدودیت شبکه کرهای Overcoming Elastic Net، که به صورت زیر استفاده میشود، رفع میشود:
معمولاً محدودیت شبکه کرهای "Elastic Net" یک اثر گروهبندی دارد، به طوری که ویژگیهای ورودی همبسته با وزنهای مساوی تخصیص داده میشوند.
محدودیت شبکه کرهای "Elastic Net" به طور معمول در عمل استفاده میشود و در بسیاری از کتابخانههای یادگیری ماشین پیادهسازی شده است.
روشهای Proximal
با اینکه نرم L1 به مسئله NP-hard منجر نمی شود، اما به دلیل وجود گوشه در x = 0 مشتق دارایی برای آن بهصورت دقیق تعریف نمی باشد، اما چون نرم L1 به صورت محدب است، روش های زیرگروهی که بر اساس زیر مشتق کار می کنند می توانند برای حل مسائل یادگیری محدود شده با نرم L1 استفاده شوند. با این حال، با استفاده از روش های Proximal می توان به سرعت همگرایی بیشتری دست یافت.
برای یک مسئله به صورت min F(w)+R(w) که در آن F تابع خمیده، پیوسته، قابل تفرق و گرادیان لیپشیتس پایدار دارد (مانند تابع هزینه کمترین مربعها) و R کمینه، پیوسته و مجاز است، روش proximal برای حل مسئله به شرح زیر است. ابتدا اپراتور proximal را تعریف میکنیم.
پراکندگی گروهی بدون همپوشانی
گروههایی از ویژگیها میتوانند توسط یک محدودیتِ پراکندگی منظم شوند، که میتواند برای بیان دانش اولیهای خاص در یک مسئله بهینهسازی مفید باشد. به عبارت دیگر، محدودیتِ پراکندگی میتواند به عنوان یک روش در بهینهسازی استفاده شود تا دانش قبلی ما را در مورد ویژگیهایی که باید باشند، به بافت مسئله بهینهسازی اضافه کند.
در مورد یک مدل خطی با گروههای شناخته شده و بدون اشتراک، میتوان یک محدودیتِ پراکندگی تعریف کرد.
این میتواند به عنوان تحریککنندهی یک محدودکننده در مورد نرم L2 برای اعضای هر گروه و سپس نرم L1 برای گروهها دیده شود. این مسئله با استفاده از روش proximal قابل حل است، جایی که اپراتور proximal یک تابع فشاردهی بلوکی از نوع آستانه نرم (Soft-Thresholding) است. به این ترتیب، با اعمال این روش، میتوانیم ضرایب را به صورت مجموعهای از گروههای نامزد بهینهسازی کنیم و از این طریق به یک راهحل پایدار و بهینه برای مسئله بهینهسازی برای دادههای بزرگ دست پیدا کنیم.
پراکندگی گروهی با همپوشانی
الگوریتمی که برای حل مسئله اختلاف گروهها بدون اشتراک توصیف شده است، در برخی موارد قابل اعمال به مواردی است که گروهها با یکدیگر اشتراک دارند. با این حال، این کار ممکن است منجر به تولید برخی از گروهها با همه عناصرِ صفر و برخی دیگر با برخی عناصر غیر صفر و برخی دیگر صفر شود. به عبارت دیگر، این روش ممکن است نتایج نامطلوبی را در مورد اشتراک گروهها ارائه دهد.
در صورتی که میخواهید ساختار گروهی را حفظ کنید، میتوانید یک محدودیت جدید تعریف کنید.
برای هر (wg ، wg(bar به گونهای تعریف میشود که محدودیت wg(bar) برای گروه g برابر با wg است و تمامی عناصر دیگر {\bar {w}}_g صفر است. محدودیتی که اعمال میشود، به دنبال یافتن تجزیه بهینهِ w به بخشهای مختلف است. این میتواند به عنوان تکثیر همه عناصری که در چندین گروه وجود دارند، دیده شود. مسائل یادگیری با این محدودیت نیز میتوانند با استفاده از روش proximal حل شوند، با این حال، پیچیدگی وجود دارد. اپراتور proximal به صورت بسته به صورت دقیق محاسبه نمیشود، اما میتوان آن را توسط یک روش تکراری به خوبی حل کرد و باعث ایجاد یک تکرار داخلی در طول تکرار proximal میشود.
نرمالساز برای یادگیری نیمه نظارتی
وقتی جمع آوری برچسبها از ورودیهای نمونه گرفته شده، هزینه بیشتری دارد، یادگیری نیمهنظارتی میتواند مفید باشد. نرمالسازها (تنظیمکنندهها) برای هدایت الگوریتمهای یادگیری به یادگیری مدلهایی که ساختار نمونههای آموزش بدون نظارت را رعایت میکنند طراحی شدهاند. اگر ماتریس وزن همسان W داده شده باشد، میتوان یک نرمال ساز تعریف کرد.
نرمالساز برای یادگیری چند کاره
در روش یادگیری چند وظیفهای، T مسئله به صورت همزمان در نظر گرفته میشوند که هرکدام به نحوی با یکدیگر مرتبط هستند. هدف این است که T تابع را بهصورت همزمان یاد بگیریم و قوت پیشبینی آنها را از روابط موجود بین وظایف، بهرهمند سازیم. این برابر است با یادگیری ماتریس W:T*D.
تنظیم کننده پراکنده روی ستونها
این تنظیم کننده (Regularizer)، یک نرم L2 برای هر ستون و یک نرم L1 برای تمامی ستونها تعریف میکند. این مسئله با استفاده از روشهای پروکسیمال قابل حل است.
منظمسازی محدود به میانگین
این نرمال ساز، تابعهای یادگیری برای هر وظیفه را محدود به شباهت با میانگین کلی توابع در تمام وظایف نگه میدارد. این روش برای بیان اطلاعات پیشینی استفاده میشود که هر وظیفه انتظار دارد با سایر وظایف به اشتراک گذاشته شود. یک مثال این مسئله، پیشبینی سطح آهن خون در طول روز در زمانهای مختلف است، که هر وظیفه، یک فرد را نمایش میدهد.
منظمسازی با میانگین محدود خوشهای
این نرمالسازی شباهتی به مورد قبل، یعنی منظمسازی محدود به میانگین دارد، اما بهجای اعمال شباهت بین وظایف در یک خوشه (cluster)، شباهت بین وظایف در همان خوشه را اعمال میکند. این روش قادر است به اطلاعات پیشین پیچیدهتری دسترسی پیدا کند. این تکنیک برای پیشبینی پیشنهادهای نتفلیکس بهکار گرفته شدهاست. هر خوشه، گروهی از افراد با سلیقه مشابه است.
شباهت مبتنی بر نمودار
به طور کلی، شباهت بین وظایف را میتوان با یک تابع تعریف کرد. نرمال ساز مدل را تشویق میکند تا برای وظایف مشابه، توابع مشابهی یاد بگیرد.
سایر کاربردهای نرمال سازی در آمار و یادگیری ماشین
روش های یادگیری با استفاده از بیزین، از احتمال پیشینی استفاده می کنند که به طور معمول احتمال کمتری را به مدل های پیچیده تر اختصاص می دهد. روش های شناخته شده انتخاب مدل شامل معیار طلاعات آکایکه (AIC)، طول حداقل توصیف (MDL) و معیار اطلاعات بیزین (BIC) هستند. روش های جایگزین برای کنترل overfitting که شامل نرمال سازی نیستند، شامل cross-validation هستند.