کاربرد یادگیری ماشین در دادههای پروتئومیک
کشف تنوع پروتئینها، یک رویکرد مهم در تشخیص بیماری در علوم زیستی است. معیار فعلی برای بررسی و توضیح اطلاعات حاصل از متغیرهای بیولوژیکی متعدد، موضوعی است که در علوم زیستشناسی، امیکس (omics) نامیده میشود. با استفاده از تکنیکهای داده کاوی چند متغیره در دو رویکرد اصلی، یادگیری ماشین و مبتنی بر آمار، این تنوع مورد بررسی قرار میگیرد. بهطور معمول، مطالعات پروتئومیک، بسته به بستر تحلیلی یا روش استفاده شده برای تولید داده، میتوانند صدها یا هزاران متغیر (p) در هر مشاهده (n) تولید کنند. بسیاری از روشهای طبقهبندی به دلیل n≪p محدود میشوند و به همین ترتیب، پیش از طبقهبندی، نیاز به پیشپردازشی برای کاهش ابعاد دارند. یکی از محدودیتهای چنین روشهایی، عدم وجود یک مدل است که امکان تفسیر معنی دار ویژگیهای به کار رفته در طبقهبندی را فراهم میسازد. این مشکل، ممکن است با استفاده از یک رویکرد مبتنی بر مدل آماری حل شود که در آن، نه تنها اهمیت پروتئین مشخص است، بلکه میتوانند، به راحتی با یک قانون طبقهبندی قابل تفسیر، ترکیب شوند. بدین خاطر، اخیراً تکنیکهای یادگیری ماشین به دلیل توانایی طبقهبندی نمونههای ناشناخته، محبوبیت زیادی در این زمینه کسب کردهاند.
مقدمه[ویرایش]
در طی یک دهه گذشته، مطالعات پروتئینی با استفاده از روشهای سنتی پیشرفته، از تجزیه و تحلیل ژنهای واحد[۱] تا آزمایش پروتئینهای متعدد، رشد چشمگیری داشتهاست.
پروتئومیکس، یک رشته تحقیقاتی است که هدف آن، ارزیابی دقیق و توصیف پروتئینهای یک ارگانیسم، نمونه یا بافت است. فناوریهای فعلی این امکان را به دانشمندان میدهد تا در یک بستر واحد، اطلاعات صدها تا هزاران پروتئین یا پپتید[۲][۳] را بهطور همزمان جمعآوری کنند.[۴] چنین روشهایی، به دلیل توان بالا و اندازهگیری همزمان تعداد زیادی متغیر تولید شده در یک آزمایش، در پروژههای کشف نشانگرهای زیستی استفاده میشوند. با وجود آن که ارزیابی پروتئومیک، خروجی تحقیقات در رشتههای مختلف را بهبود بخشیدهاست، اما مشکلاتی در تفسیر و تجزیه تحلیل متغیرهای همزمان اندازهگیری شده، ایجاد کردهاست. این مشکلات، مشابه مشکلاتی است که در تحقیقات مربوط به بیان ژن، دیده میشود. هنگام تصمیمگیری در مورد تکنیک تحلیلی مناسب، باید تعدادی از خصوصیات یک مجموعه داده پروتئومیک در نظر گرفته شوند. از مهمترین خصوصیات که در اصطلاح نفرین ابعاد نامیده میشود، زمانی است که n≪p باشد.[۵][۶] یعنی، تعداد مشاهدات (n) به مراتب از تعداد متغیرها (p) که همان پروتئین یا پپتیدها هستند، کوچکتر باشد. این مسئله، میتواند منجر به مشکلاتی شود که قابلیت تعمیم و در نتیجه کاربرد بالینی ابزارهای تشخیص را محدود میکند. زمانیکه متغیرها بسیار همبسته هستند، این رشته، روشهای تجزیه و تحلیلی را ارائه میدهد که واحدهای جرمی را نامناسب دانسته و جزئیاتی که در مطالعات قبلی نادیده گرفته میشدهاند را بررسی میکند.[۷] همبستگی زیاد، در نتیجه تنظیم شدن پروتئینهای خاصی است که میتوانند در تنظیم بالا/پایین دیگر پروتئینها، تأثیر داشته باشند. به عنوان مثال یک پروتئین، ممکن است بین مردها و زنها متفاوت باشد اما به شدت، با وضعیت پاتولوژی یک بیماری همبستگی داشته باشد.
خواص دادههای پروتئومیک که در بالا مورد بحث قرار گرفت، میتواند مانع ایجاد یک طبقهبندی مناسب، برای تمایز بین گروههای مختلف شود (به عنوان مثال، تمایز بین افراد بیمار و غیر بیمار). یکی از راهحلهای این مشکل که اغلب، قبل از تحلیل چند متغیره استفاده میشد، کاهش ابعاد دادههای خام است.[۸] متداولترین روش فیلتر کردن است؛ به عنوان مثال میتوان به انتخاب متغیرهای آماری مرتبط (پروتئین یا پپتیدها)، پیش از ایجاد مدل اشاره کرد. این روش امکان حذف متغیرهای اضافی و زائد را فراهم میسازد.
از طرف دیگر، روش رایجتر در تحقیقات مربوط به کشف نشانگرهای زیستی، حذف همه متغیرهای مجموعه داده و سپس بهکارگیری رویکردهای کاهش ابعاد است. چنین تلاشهایی اجازه میدهد تا واحدهای جرمی که در طبقهبندی تأثیرگذار هستند، آشکار شده و بقیه در پسزمینه باقی بمانند. همچنین کاهش ابعاد، برای اثرات متغیرهای بسیار همبسته، به عنوان یک ویژگی کلیدی دادههای پروتئومی و ژنومی بهحساب میآید. علاوه بر این، تحلیلگر ممکن است از یک روش ترکیبی برای انتخاب متغیر و کاهش ابعاد استفاده کند تا بتواند مجموعهای از نشانگرهای زیستی را ارائه دهد که منجر به یک طبقهبندی با نتایج مناسب شود.[۹] با این حال، این تصمیم اغلب وابسته به رویکرد انتخابی تحلیلگران برای طبقهبندی است.[۱۰]
تاریخچه[ویرایش]
در گذشته، از تکنیکهای مختلفی برای تجزیه و تحلیل دادههای پروتئومیک استفاده شدهاست. روشهای محاسباتی از جمله ماشینهای بردار پشتیبانی (SVM)، شبکههای عصبی مصنوعی (ANN) و جنگلهای تصادفی (PLS-RF) و همچنین روشهای مبتنی بر مدل، مانند حداقل مربعات جزئی و واکنش زنجیرهای پلیمراز در آنالیز افتراقی خطی (PLS-LDA و PCR-LDA) هستند.
Willingale و همکاران در سال ۲۰۰۶، از SVM , ANN، الگوریتمهای ژنتیکی و درخت تصمیمگیری برای طبقهبندی دادههای تولید شده از بیماران مبتلا به نارسایی قلبی استفاده کردند. آنها برای طبقهبندی خود، مدلی بر اساس یک مجموعه داده آموزشی متشکل از ۱۰۰ نمونه نارسایی قلبی و ۱۰۰ نمونه تحت کنترل ایجاد کرده و آن را با ۳۲ نمونه نارسایی قلبی و ۲۰ نمونه تحت کنترل آزمون کردند. مدل نهایی توانست ۸۸٫۵ درصد از دادههای آزمونشده را به درستی طبقهبندی کند.[۱۱]
اسمیت و همکاران در سال ۲۰۰۷، از SVM برای طبقهبندی پاسخ فاز اول روشهای درمانی جدید برای بیماران مبتلا به تومور رکتال استفاده کردند. حساسیت این مدل بین ۲۵ تا ۸۷٫۵ درصد بود. با این حال، مشکل اصلی این مطالعه، تعداد کم مشاهداتی بود (۲۰ نفر) که طبقهبندی بر اساس آن انجام شد.[۱۲]
Purohit و Rocke در سال ۲۰۰۳ از تکنیکهای طبقهبندی نظارت شده و بدون نظارت و همچنین کاهش ابعاد به روش PCA استفاده کردند که در ادامه منجر به تجزیه و تحلیل خوشه ای برای طبقهبندی دادههای پروتئومیک بین نمونههای سالم و بیمار شد. علاوه بر این، آنها با استفاده از روشهای رگرسیون لجستیک و آنالیز افتراقی، ترکیبی از PLS و PCR برای طبقهبندی ارائه دادند.[۱۳]
لیو و همکاران در سال ۲۰۰۸ از روشهای مبتنی بر PLS برای طبقهبندی دادههای مربوط به سرطان تخمدان استفاده کردند. آنها PLS در آنالیز افتراقی خطی، PLS در کی نزدیکترین همسایه، PLS در رگرسیون لجستیک و PLS در شبکههای عصبی مصنوعی را با طیف گستردهای از روشهای طبقهبندی مبتنی بر PCA مقایسه کردند. یافتههای آنها حاکی از آن بود که کاهش بعد PLS حاصل از طبقهبندی رگرسیون لجستیک، نتایج بهتری را از روشهای مبتنی بر PCA و سایر رویکردهای PLS ایجاد میکند.[۱۴]
رجالتی و همکاران در سال ۲۰۰۹ از PLS استفاده کردند تا با کاهش ابعاد حاصل از آنالیز افتراقی، نمونههای مایع مغزی نخاعی (CSF) و نمونههای CSF جابهجاشده با استانداردهای پپتید را طبقهبندی کند.[۱۵]
روشهای یادگیری ماشین[ویرایش]
یک ماتریس داده پروتئومیک (Xij) شامل متغیرهای پاسخ به شکل پروتئین یا پپتید است. هر سطر آن نشاندهنده یک مشاهده یا یک نمونه بوده و هر ستون آن مربوط به یک پروتئین، پپتید یا نسبت جرم به وزن است. توجه کنید که اصطلاح واحد جرمی، برای نشاندادن پروتئینها، پپتیدها یا نسبت جرم به وزن استفاده میشود. در مسائل طبقهبندی، یک بردار از متغیرهای خام (yi) برای شناسایی کلاس نمونه مشاهدهشده، کدگذاری شدهاست. در موارد چند کلاسی، به جای بردار yi، از ماتریس Y استفاده میشود. در ادامه برخی از روشهای مختلف یادگیری ماشین برای طبقهبندی این دادهها شرح داده میشود:
- ماشینهای بردار پشتیبانی (SVM):
- ماشینهای بردار پشتیبانی (SVM) با استفاده از دادههای آموزش و وضعیت آن نسبت به مرزهای تصمیم، هایپر پلین بهینه بین کلاسها را تعیین میکنند. نقاطی که روی این مرزها قرار دارند به اصطلاح بردارهای پشتیبانی و فضای بین آنها، حاشیه نامیده میشوند. بردارهای پشتیبانی هر کلاس، زمانی به حداکثر مقدار خود میرسند که مرکز حاشیه به مرز تصمیم بهینه (هایپرپلین) تبدیل شود. این کار با نقشه یابی هر به یک فضای با ابعاد بالاتر با استفاده از یک تابع خطی یا غیر خطی صورت میگیرد. دادههای پروتئومیک معمولاً شامل تعداد کمی مشاهدات و با تعداد زیادی متغیر هستند. چنین شرایطی امکان جداکردن کلاسها به صورت خطی را فراهم نموده اما اغلب مدلی با مشکل بیشبرازش ایجاد میکند و در نتیجه برای دادههای آزمون، کاربردی ندارد. علاوه بر این، با توجه به پیچیدگی و همپوشانی کلاسها در دادههای واقعی ، انتظار اینکه کلاسهای دادههای آزمون از نظر خطی از هم جداپذیر باشد، غیر واقعی است. به همین دلیل دادههایی که به اشتباه طبقهبندی شدهاند با فرمول زیر، قابل پذیرش خواهند بود:
- با تنظیم مقدار ثابت ، تعادلی میان دقت طبقهبندی و اندازه حاشیه ایجاد میشود. اگر خیلی بزرگ باشد، جریمه زیادی برای نقاط غیرقابل تفکیک وجود دارد و در نتیجه ممکن است بسیاری از بردارهای پشتیبانی را ذخیره کرده و موجب بیشبرازش شود. اگر خیلی کوچک باشد، ممکن است موجب کمبرازش (underfitting) شود. در اینجا یک بردار ناشناخته با همان ابعاد است.
- معادله بالا با استفاده از ضریبهای لاگرانژ () و با کمک معادله زیر حل میشود:
- که تعداد بردارهای پشتیبانی را نشان میدهد، و تابعی است که امکان نمایش دادههای آموزش را در یک فضای ویژگی فراهم میسازد. تابع میتواند اشکال مختلفی از جمله خطی، گاوسی، چند جمله ای و پایههای شعاعی داشته باشد.[۱۶][۱۷]
- یک مزیت اساسی SVM نسبت به سایر روشها، توانایی آنها برای حل مسائل طبقهبندی خطی و غیر خطی است؛ اگرچه کاربرد این روش، در مسائل چنددستهای، به دلیل وابستگی آن به یک رویکرد یک به یک محدود است. این مشکل اغلب با نمایش یک مسئله چنددستهای به عنوان چندین مسئله طبقهبندی دودویی قابل حل است.
- تجزیه و تحلیل مؤلفههای اصلی (PCA):
- تجزیه و تحلیل مؤلفههای اصلی یکی از روشهای کاهش ابعاد است که برای کشف تغییرات در دادههای پیچیده استفاده میشود. هدف از تجزیه و تحلیل مؤلفههای اصلی، جمعآوری دادهها در حداقل ابعاد و بدون از دست دادن مقدار زیادی اطلاعات است. این کار با تجزیه ماتریس دادهها (Xij) و به عنوان محصول ماتریس امتیازات (Tik) و ماتریس بارگذاری (Pij) انجام میشود. توجه داشته باشید که kPCA، تعداد مؤلفهها یا متغیرهای موردنظر استخراج شده از دادهها را نشان میدهد، به گونه ای که هر مشاهده، به عنوان نقطه ای در فضای kPCA بعدی نشان داده میشود. این رابطه بهطور خلاصه به شرح زیر است:
- که E خطای باقیمانده است که تفاوت مقادیر اصلی از مقادیر پیشبینیشده در متغیرهای موردنظر را نشان میدهد.
- قبل از تعیین متغیرهای موردنظر، معمولاً ابتدا پیش پردازش مناسبی روی ماتریس اصلی صورت میگیرد. پردازش دادهها قبل از PCA معمولاً شامل یکی از موارد زیر است:
- گرفتن ماتریس کوواریانس و متمرکز کردن دادهها و سپس محاسبه حاصل خارجی (XXT).
- استفاده از ماتریس همبستگی که نتیجهٔ متمرکزسازی و کاهش X به واریانس واحد، پس از محاسبه XXT است.
- با حذف داده غیر متمرکزشده و غیراستانداردشده نسبت به واریانس واحد، نتیجه XXT، ماتریس مجموع مربعات و مجموع حاصلضربها است.
متمرکز سازی دادهها، شامل جابهجایی دادههای اصلی است به گونه ای که بردار میانگین کل، برابر با صفر باشد. این در حالی است که کاهش دادهها به واریانس واحد، باعث میشود همه متغیرها، بهطور مساوی و صرف نظر از واریانس هریک، در نحوه ارائه مشاهدات در فضای ابعادی کاهش یافته، سهیم باشند. این ویژگی، در صورتی مفید است که بزرگی واریانس هر واحد جرمی به اهمیت نسبی، آن مربوط نباشد؛ بنابراین اگر فقط دادههای متمرکز (ماتریس کواریانس) وارد الگوریتم PCA شوند، نسبت جرم به وزنهای هر داده، تأثیر بیشتری در چگونگی مشاهدهها در فضای ابعادی کمتر خواهد داشت. در حالی که متمرکز سازی و مقیاسبندی (همبستگی)، اثرات ناشی از نسبت جرم به وزن با واریانسهای بزرگ را کاهش میدهد. اگر همه متغیرها، واحد و نوع یکسان داشته باشند، از ماتریس کواریانس استفاده میشود. بهطور خلاصه، PCA سعی در ایجاد ترکیبات خطی در متغیرهای اصلی که بهطور خطی مستقل (متعامد) از یکدیگر هستند، دارد. این کار به گونهای انجام میشود که فاصله اقلیدسی در بین مشاهدات حفظ شود.
- حداقل مربعات جزئی (PLS):
- حداقل مربعات جزئی روشی است که برای کاهش ابعاد استفاده میشود. این تکنیک برای مجموعهای از دادههای شامل متغیرهای دارای کلاس (y) و متغیرهای پیشبینی کننده (X) استفاده میشود. برخلاف سایر تکنیکهای کاهش ابعاد، مانند تجزیه و تحلیل مؤلفههای اصلی، الگوریتم PLS، هر متغیر موردنظر را با استفاده از X و y محاسبه میکند. هدف در این روش، حداکثر کردن کواریانس بین X و y است. (بر خلاف PCA که به دنبال حداکثر کردن واریانس متغیرها (X) است). بنابراین PLS، بر خلاف PCA، برای کواریانسهای داخل مدل، کاربرد دارد.
- در PLS، متغیرهای موردنظر (kPLS مقداری بین ۱ تا p داشته و از k اصلی کوچکتر است) از تجزیه مکرر X و y محاسبه میشوند؛ به گونه ای که متغیرهای اصلی، به یک فضای ابعادی کوچکتر برنامهریزی میشوند، جایی که توالی مدلهای دوخطی با حداقل مربعات معمولی، برازش میشوند؛ بنابراین این روش، حداقل مربعات جزئی نامیده میشوند.[۱۸] این امر به ویژه در روش NIPALS صادق است. با این حال، پیادهسازیهای بعدی از روش تحلیلی ویژهای استفاده میکنند که آن را با بسیاری از روشهای چندمتغیره قدیمی هماهنگ میسازد. با توجه به اینکه هدف PLS، یافتن رابطه خطی بین متغیرهای توصیفی و پاسخ X و y است، بنابراین:
- T نشاندهنده امتیاز متغیرهای موردنظری است که دادهها، برای آن پیشبینی میشوند، P و C بارگذاری و Ex و Ey ماتریس باقیمانده حاصل از متغیرهای X و y اصلی هستند. برای تعیین مولفه در ابعاد پایین رابطه زیر نیاز است:
- به طوری که و [۱۹]
- الگوریتم PLS به شرح زیر است:
- اجزای PLS به گونهای محاسبه میشود که کوواریانس بین X و Y را حداکثر کند.
- واریانس، از دادههای اصلی X حذف میشود. این فرایند به عنوان کاهش داده (deflation) شناخته میشود. طول سطر و ستون ماتریس باقیمانده، با دادههای X برابر بوده و فقط ابعاد ماتریس یک واحد کاهش مییابد.
- مؤلفه بعدی PLS از ماتریس باقیمانده فعلی و با هدف همبستگی حداکثری بین X و y محاسبه میشود. این مرحله تا زمانی تکرار میشود که تغییرات کمی در y حاصل شده یا X به یک ماتریس تهی تبدیل شود.
منابع[ویرایش]
- ↑ Hagen, J.B. (2000). "PathVar: The Origins of Bioinformatics". NATURE REVIEWS/GENETICS. 1: 231–236. doi:10.1007/978-1-60761-987-1_4. PMID 11252753.
- ↑ Gonzales, Patricia A.; Pisitkun, Trairak; Hoffert, Jason D.; Tchapyjnikov, Dmitry; Star, Robert A.; Kleta, Robert; Sun Wang, Nam; Knepper, Mark A. (2009). "PathVar:Large-scale proteomics and phosphoproteomics of urinary exosomes". Bioinformatics. 20: 363–379. doi:10.1681/ASN.2008040406. PMID 19056867.
- ↑ Pisitkun, Trairak; Shen, Rong-Fong; Knepper, Mark A. (2004). "PathVar: Identification and Proteomic Profiling of Exosomes in Human Urine". Bioinformatics. 101: 13368–73. doi:10.1073/pnas.0403453101. PMID 15326289.
- ↑ Aebersold, Ruedi (2003). "PathVar: Mass Spectrometry-Based Proteomics". Nature. 422: 198–207. doi:10.1038/nature01511. PMID 12634793.
- ↑ Simon, Richard (2003). "PathVar: Supervised analysis when the number of candidate features (p) greatly exceeds the number of cases (n)". Bioinformatics. 5: 31–36. doi:10.1145/980972.980978.
- ↑ Somorjai, R.L.; Dolenko, B.; Baumgartner, R. (2003). "PathVar: Class Prediction and Discovery Using Gene Microarray and Proteomics Mass Spectroscopy Data: Curses, Caveats, Cautions". Bioinformatics. 19: 1484–91. doi:10.1093/bioinformatics/btg182. PMID 12912828.
- ↑ Meunier, Bruno; Bouley, Julien; Piec, Isabelle; Bernard, Carine; Picard, Brigitte; Hocquette, Jean-François (2005). "PathVar: Data Analysis Methods for Detection of Differential Protein Expression in Two-Dimensional Gel Electrophoresis". Anal Biochem. 15: 226–30. doi:10.1016/j.ab.2005.02.028. PMID 15840495.
- ↑ Hilario, Melanie; Kalousis, Alexandros (2008). "PathVar: Approaches to Dimensionality Reduction in Proteomic Biomarker Studies". Brief Bioinform. 9: 102–18. doi:10.1093/bib/bbn005. PMID 18310106.
- ↑ Lê Cao, Kim-Anh; Martin, Pascal G.P.; Robert-Granié, Christèle; Besse, Philippe (2009). "PathVar: Sparse Canonical Methods for Biological Data Integration: Application to a Cross-Platform Study". BMC Bioinformatics. doi:10.1186/1471-2105-10-34. PMID 19171069.
- ↑ Hand, David J. (2008). "PathVar: Sparse Canonical Methods for Biological Data Integration: Application to a Cross-Platform Study". Stat Appl Genet Mol Biol. 7. doi:10.2202/1544-6115.1435. PMID 19120032.
- ↑ Willingale, Richard; Jones, Donald J.L.; Lamb, John H.; Quinn, Paulene; Farmer, Peter B.; Ng, Leong L. (2006). "PathVar:Searching for Biomarkers of Heart Failure in the Mass Spectra of Blood Plasma". Proteomics. 6: 5903–14. doi:10.1002/pmic.200600375. PMID 17051648.
- ↑ Smith, Fraser M.; Gallagher, William M.; Fox, Edward; Stephens, Richard B.; Rexhepaj, Elton; Petricoin 3rd, Emanuel F.; Liotta, Lance; Kennedy, John; Reynolds, John V. (2007). "PathVar:Combination of SELDI-TOF-MS and Data Mining Provides Early-Stage Response Prediction for Rectal Tumors Undergoing Multimodal Neoadjuvant Therapy". Ann Surg. 245: 259–66. doi:10.1097/01.sla.0000245577.68151.bd. PMID 17245180.
- ↑ Purohit, Parul V.; Rocke, David M. (2003). "PathVar:Discriminant Models for High-Throughput Proteomics Mass Spectrometer Data". Proteomics. 3: 1699–703. doi:10.1002/pmic.200300518. PMID 12973728.
- ↑ Boulesteix, Anne-Laure; Porzelius, Christine; Daumer, Martin (2008). "PathVar:Microarray-based Classification and Clinical Predictors: On Combined Classifiers and Additional Predictive Value". Bioinformatics. 24: 1698–706. doi:10.1093/bioinformatics/btn262. PMID 18544547.
{{cite journal}}
: Cite has empty unknown parameter:|1=
(help) - ↑ Rajalahti, Tarja; Arneberg, Reidar; Kroksveen, Ann C.; Berle, Magnus; Myhr, Kjell-Morten; Kvalheim, Olav M. (2009). "PathVar:Discriminating Variable Test and Selectivity Ratio Plot: Quantitative Tools for Interpretation and Variable (Biomarker) Selection in Complex Spectral or Chromatographic Profiles". Anal Chem. 81: 2581–90. doi:10.1021/ac802514y. PMID 19228047.
{{cite journal}}
: Cite has empty unknown parameter:|1=
(help) - ↑ Jung, Eunkyoung; Choi, Seung-Hoon; Lee, Nam Kyung; Kang, Sang-Kee; Choi, Yun-Jaie; Shin, Jae-Min; Choi, Kihang; Jung, Dong Hyun (2011). "PathVar:Machine Learning Study for the Prediction of Transdermal Peptide". J Comput Aided Mol Des. 25: 339–47. doi:10.1007/s10822-011-9424-2. PMID 21448715.
{{cite journal}}
: Cite has empty unknown parameter:|1=
(help) - ↑ Slawski, Martin; Daumer, Martin; Boulesteix, Anne-Laure (2008). "PathVar:CMA: A Comprehensive Bioconductor Package for Supervised Classification With High Dimensional Data". BMC Bioinformatics. 9. doi:10.1186/1471-2105-9-439. PMID 18925941.
- ↑ Dai, Jian J.; Lieu, Linh; Rocke, David (2006). "Dimension Reduction for Classification With Gene Expression Microarray Data". Comparative Study Stat Appl Genet Mol Biol. 5. doi:10.2202/1544-6115.1147. PMID 16646870.
- ↑ Boulesteix, Anne-Laure; Porzelius, Christine; Daumer, Martin (2008). "Microarray-based Classification and Clinical Predictors: On Combined Classifiers and Additional Predictive Value". Bioinformatics. 24: 1698–706. doi:10.1093/bioinformatics/btn262. PMID 18544547.