کاربرد یادگیری ماشین در داده‌های پروتئومیک

از ویکی‌پدیا، دانشنامهٔ آزاد

کشف تنوع پروتئین‌ها، یک رویکرد مهم در تشخیص بیماری در علوم زیستی است. معیار فعلی برای بررسی و توضیح اطلاعات حاصل از متغیرهای بیولوژیکی متعدد، موضوعی است که در علوم زیست‌شناسی، امیکس (omics) نامیده می‌شود. با استفاده از تکنیک‌های داده کاوی چند متغیره در دو رویکرد اصلی، یادگیری ماشین و مبتنی بر آمار، این تنوع مورد بررسی قرار می‌گیرد. به‌طور معمول، مطالعات پروتئومیک، بسته به بستر تحلیلی یا روش استفاده شده برای تولید داده، می‌توانند صدها یا هزاران متغیر (p) در هر مشاهده (n) تولید کنند. بسیاری از روش‌های طبقه‌بندی به دلیل n≪p محدود می‌شوند و به همین ترتیب، پیش از طبقه‌بندی، نیاز به پیش‌پردازشی برای کاهش ابعاد دارند. یکی از محدودیت‌های چنین روش‌هایی، عدم وجود یک مدل است که امکان تفسیر معنی دار ویژگی‌های به کار رفته در طبقه‌بندی را فراهم می‌سازد. این مشکل، ممکن است با استفاده از یک رویکرد مبتنی بر مدل آماری حل شود که در آن، نه تنها اهمیت پروتئین مشخص است، بلکه می‌توانند، به راحتی با یک قانون طبقه‌بندی قابل تفسیر، ترکیب شوند. بدین خاطر، اخیراً تکنیک‌های یادگیری ماشین به دلیل توانایی طبقه‌بندی نمونه‌های ناشناخته، محبوبیت زیادی در این زمینه کسب کرده‌اند.

مقدمه[ویرایش]

در طی یک دهه گذشته، مطالعات پروتئینی با استفاده از روش‌های سنتی پیشرفته، از تجزیه و تحلیل ژن‌های واحد[۱] تا آزمایش پروتئین‌های متعدد، رشد چشمگیری داشته‌است.

پروتئومیکس، یک رشته تحقیقاتی است که هدف آن، ارزیابی دقیق و توصیف پروتئین‌های یک ارگانیسم، نمونه یا بافت است. فناوری‌های فعلی این امکان را به دانشمندان می‌دهد تا در یک بستر واحد، اطلاعات صدها تا هزاران پروتئین یا پپتید[۲][۳] را به‌طور همزمان جمع‌آوری کنند.[۴] چنین روش‌هایی، به دلیل توان بالا و اندازه‌گیری همزمان تعداد زیادی متغیر تولید شده در یک آزمایش، در پروژه‌های کشف نشانگرهای زیستی استفاده می‌شوند. با وجود آن که ارزیابی پروتئومیک، خروجی تحقیقات در رشته‌های مختلف را بهبود بخشیده‌است، اما مشکلاتی در تفسیر و تجزیه تحلیل متغیرهای همزمان اندازه‌گیری شده، ایجاد کرده‌است. این مشکلات، مشابه مشکلاتی است که در تحقیقات مربوط به بیان ژن، دیده می‌شود. هنگام تصمیم‌گیری در مورد تکنیک تحلیلی مناسب، باید تعدادی از خصوصیات یک مجموعه داده پروتئومیک در نظر گرفته شوند. از مهم‌ترین خصوصیات که در اصطلاح نفرین ابعاد نامیده می‌شود، زمانی است که n≪p باشد.[۵][۶] یعنی، تعداد مشاهدات (n) به مراتب از تعداد متغیرها (p) که همان پروتئین یا پپتیدها هستند، کوچکتر باشد. این مسئله، می‌تواند منجر به مشکلاتی شود که قابلیت تعمیم و در نتیجه کاربرد بالینی ابزارهای تشخیص را محدود می‌کند. زمانی‌که متغیرها بسیار همبسته هستند، این رشته، روش‌های تجزیه و تحلیلی را ارائه می‌دهد که واحدهای جرمی را نامناسب دانسته و جزئیاتی که در مطالعات قبلی نادیده گرفته می‌شده‌اند را بررسی می‌کند.[۷] همبستگی زیاد، در نتیجه تنظیم شدن پروتئین‌های خاصی است که می‌توانند در تنظیم بالا/پایین دیگر پروتئین‌ها، تأثیر داشته باشند. به عنوان مثال یک پروتئین، ممکن است بین مردها و زن‌ها متفاوت باشد اما به شدت، با وضعیت پاتولوژی یک بیماری همبستگی داشته باشد.

خواص داده‌های پروتئومیک که در بالا مورد بحث قرار گرفت، می‌تواند مانع ایجاد یک طبقه‌بندی مناسب، برای تمایز بین گروه‌های مختلف شود (به عنوان مثال، تمایز بین افراد بیمار و غیر بیمار). یکی از راه‌حل‌های این مشکل که اغلب، قبل از تحلیل چند متغیره استفاده می‌شد، کاهش ابعاد داده‌های خام است.[۸] متداول‌ترین روش فیلتر کردن است؛ به عنوان مثال می‌توان به انتخاب متغیرهای آماری مرتبط (پروتئین یا پپتیدها)، پیش از ایجاد مدل اشاره کرد. این روش امکان حذف متغیرهای اضافی و زائد را فراهم می‌سازد.

از طرف دیگر، روش رایج‌تر در تحقیقات مربوط به کشف نشانگرهای زیستی، حذف همه متغیرهای مجموعه داده و سپس به‌کارگیری رویکردهای کاهش ابعاد است. چنین تلاش‌هایی اجازه می‌دهد تا واحدهای جرمی که در طبقه‌بندی تأثیرگذار هستند، آشکار شده و بقیه در پس‌زمینه باقی بمانند. همچنین کاهش ابعاد، برای اثرات متغیرهای بسیار همبسته، به عنوان یک ویژگی کلیدی داده‌های پروتئومی و ژنومی به‌حساب می‌آید. علاوه بر این، تحلیلگر ممکن است از یک روش ترکیبی برای انتخاب متغیر و کاهش ابعاد استفاده کند تا بتواند مجموعه‌ای از نشانگرهای زیستی را ارائه دهد که منجر به یک طبقه‌بندی با نتایج مناسب شود.[۹] با این حال، این تصمیم اغلب وابسته به رویکرد انتخابی تحلیلگران برای طبقه‌بندی است.[۱۰]

تاریخچه[ویرایش]

در گذشته، از تکنیک‌های مختلفی برای تجزیه و تحلیل داده‌های پروتئومیک استفاده شده‌است. روش‌های محاسباتی از جمله ماشین‌های بردار پشتیبانی (SVM)، شبکه‌های عصبی مصنوعی (ANN) و جنگل‌های تصادفی (PLS-RF) و همچنین روش‌های مبتنی بر مدل، مانند حداقل مربعات جزئی و واکنش زنجیره‌ای پلیمراز در آنالیز افتراقی خطی (PLS-LDA و PCR-LDA) هستند.

Willingale و همکاران در سال ۲۰۰۶، از SVM , ANN، الگوریتم‌های ژنتیکی و درخت تصمیم‌گیری برای طبقه‌بندی داده‌های تولید شده از بیماران مبتلا به نارسایی قلبی استفاده کردند. آنها برای طبقه‌بندی خود، مدلی بر اساس یک مجموعه داده آموزشی متشکل از ۱۰۰ نمونه نارسایی قلبی و ۱۰۰ نمونه تحت کنترل ایجاد کرده و آن را با ۳۲ نمونه نارسایی قلبی و ۲۰ نمونه تحت کنترل آزمون کردند. مدل نهایی توانست ۸۸٫۵ درصد از داده‌های آزمون‌شده را به درستی طبقه‌بندی کند.[۱۱]

اسمیت و همکاران در سال ۲۰۰۷، از SVM برای طبقه‌بندی پاسخ فاز اول روش‌های درمانی جدید برای بیماران مبتلا به تومور رکتال استفاده کردند. حساسیت این مدل بین ۲۵ تا ۸۷٫۵ درصد بود. با این حال، مشکل اصلی این مطالعه، تعداد کم مشاهداتی بود (۲۰ نفر) که طبقه‌بندی بر اساس آن انجام شد.[۱۲]

Purohit و Rocke در سال ۲۰۰۳ از تکنیک‌های طبقه‌بندی نظارت شده و بدون نظارت و همچنین کاهش ابعاد به روش PCA استفاده کردند که در ادامه منجر به تجزیه و تحلیل خوشه ای برای طبقه‌بندی داده‌های پروتئومیک بین نمونه‌های سالم و بیمار شد. علاوه بر این، آنها با استفاده از روش‌های رگرسیون لجستیک و آنالیز افتراقی، ترکیبی از PLS و PCR برای طبقه‌بندی ارائه دادند.[۱۳]

لیو و همکاران در سال ۲۰۰۸ از روشهای مبتنی بر PLS برای طبقه‌بندی داده‌های مربوط به سرطان تخمدان استفاده کردند. آنها PLS در آنالیز افتراقی خطی، PLS در کی نزدیکترین همسایه، PLS در رگرسیون لجستیک و PLS در شبکه‌های عصبی مصنوعی را با طیف گسترده‌ای از روشهای طبقه‌بندی مبتنی بر PCA مقایسه کردند. یافته‌های آنها حاکی از آن بود که کاهش بعد PLS حاصل از طبقه‌بندی رگرسیون لجستیک، نتایج بهتری را از روشهای مبتنی بر PCA و سایر رویکردهای PLS ایجاد می‌کند.[۱۴]

رجالتی و همکاران در سال ۲۰۰۹ از PLS استفاده کردند تا با کاهش ابعاد حاصل از آنالیز افتراقی، نمونه‌های مایع مغزی نخاعی (CSF) و نمونه‌های CSF جابه‌جاشده با استانداردهای پپتید را طبقه‌بندی کند.[۱۵]

روش‌های یادگیری ماشین[ویرایش]

یک ماتریس داده پروتئومیک (Xij) شامل متغیرهای پاسخ به شکل پروتئین یا پپتید است. هر سطر آن نشان‌دهنده یک مشاهده یا یک نمونه بوده و هر ستون آن مربوط به یک پروتئین، پپتید یا نسبت جرم به وزن است. توجه کنید که اصطلاح واحد جرمی، برای نشان‌دادن پروتئین‌ها، پپتیدها یا نسبت جرم به وزن استفاده می‌شود. در مسائل طبقه‌بندی، یک بردار از متغیرهای خام (yi) برای شناسایی کلاس نمونه مشاهده‌شده، کدگذاری شده‌است. در موارد چند کلاسی، به جای بردار yi، از ماتریس Y استفاده می‌شود. در ادامه برخی از روش‌های مختلف یادگیری ماشین برای طبقه‌بندی این داده‌ها شرح داده می‌شود:

  • ماشین‌های بردار پشتیبانی (SVM):
ماشین‌های بردار پشتیبانی (SVM) با استفاده از داده‌های آموزش و وضعیت آن نسبت به مرزهای تصمیم، هایپر پلین بهینه بین کلاس‌ها را تعیین می‌کنند. نقاطی که روی این مرزها قرار دارند به اصطلاح بردارهای پشتیبانی و فضای بین آن‌ها، حاشیه نامیده می‌شوند. بردارهای پشتیبانی هر کلاس، زمانی به حداکثر مقدار خود می‌رسند که مرکز حاشیه به مرز تصمیم بهینه (هایپرپلین) تبدیل شود. این کار با نقشه یابی هر به یک فضای با ابعاد بالاتر با استفاده از یک تابع خطی یا غیر خطی صورت می‌گیرد. داده‌های پروتئومیک معمولاً شامل تعداد کمی مشاهدات و با تعداد زیادی متغیر هستند. چنین شرایطی امکان جداکردن کلاس‌ها به صورت خطی را فراهم نموده اما اغلب مدلی با مشکل بیش‌برازش ایجاد می‌کند و در نتیجه برای داده‌های آزمون، کاربردی ندارد. علاوه بر این، با توجه به پیچیدگی و همپوشانی کلاس‌ها در داده‌های واقعی ، انتظار اینکه کلاس‌های داده‌های آزمون از نظر خطی از هم جداپذیر باشد، غیر واقعی است. به همین دلیل داده‌هایی که به اشتباه طبقه‌بندی شده‌اند با فرمول زیر، قابل پذیرش خواهند بود:

با تنظیم مقدار ثابت ، تعادلی میان دقت طبقه‌بندی و اندازه حاشیه ایجاد می‌شود. اگر خیلی بزرگ باشد، جریمه زیادی برای نقاط غیرقابل تفکیک وجود دارد و در نتیجه ممکن است بسیاری از بردارهای پشتیبانی را ذخیره کرده و موجب بیش‌برازش شود. اگر خیلی کوچک باشد، ممکن است موجب کم‌برازش (underfitting) شود. در اینجا یک بردار ناشناخته با همان ابعاد است.
معادله بالا با استفاده از ضریب‌های لاگرانژ () و با کمک معادله زیر حل می‌شود:

که تعداد بردارهای پشتیبانی را نشان می‌دهد، و تابعی است که امکان نمایش داده‌های آموزش را در یک فضای ویژگی فراهم می‌سازد. تابع می‌تواند اشکال مختلفی از جمله خطی، گاوسی، چند جمله ای و پایه‌های شعاعی داشته باشد.[۱۶][۱۷]
یک مزیت اساسی SVM نسبت به سایر روش‌ها، توانایی آنها برای حل مسائل طبقه‌بندی خطی و غیر خطی است؛ اگرچه کاربرد این روش، در مسائل چنددسته‌ای، به دلیل وابستگی آن به یک رویکرد یک به یک محدود است. این مشکل اغلب با نمایش یک مسئله چنددسته‌ای به عنوان چندین مسئله طبقه‌بندی دودویی قابل حل است.
  • تجزیه و تحلیل مؤلفه‌های اصلی (PCA):
تجزیه و تحلیل مؤلفه‌های اصلی یکی از روش‌های کاهش ابعاد است که برای کشف تغییرات در داده‌های پیچیده استفاده می‌شود. هدف از تجزیه و تحلیل مؤلفه‌های اصلی، جمع‌آوری داده‌ها در حداقل ابعاد و بدون از دست دادن مقدار زیادی اطلاعات است. این کار با تجزیه ماتریس داده‌ها (Xij) و به عنوان محصول ماتریس امتیازات (Tik) و ماتریس بارگذاری (Pij) انجام می‌شود. توجه داشته باشید که kPCA، تعداد مؤلفه‌ها یا متغیرهای موردنظر استخراج شده از داده‌ها را نشان می‌دهد، به گونه ای که هر مشاهده، به عنوان نقطه ای در فضای kPCA بعدی نشان داده می‌شود. این رابطه به‌طور خلاصه به شرح زیر است:

که E خطای باقیمانده است که تفاوت مقادیر اصلی از مقادیر پیش‌بینی‌شده در متغیرهای موردنظر را نشان می‌دهد.
قبل از تعیین متغیرهای موردنظر، معمولاً ابتدا پیش پردازش مناسبی روی ماتریس اصلی صورت می‌گیرد. پردازش داده‌ها قبل از PCA معمولاً شامل یکی از موارد زیر است:
  1. گرفتن ماتریس کوواریانس و متمرکز کردن داده‌ها و سپس محاسبه حاصل خارجی (XXT).
  2. استفاده از ماتریس همبستگی که نتیجهٔ متمرکزسازی و کاهش X به واریانس واحد، پس از محاسبه XXT است.
  3. با حذف داده غیر متمرکزشده و غیراستانداردشده نسبت به واریانس واحد، نتیجه XXT، ماتریس مجموع مربعات و مجموع حاصل‌ضرب‌ها است.

متمرکز سازی داده‌ها، شامل جابه‌جایی داده‌های اصلی است به گونه ای که بردار میانگین کل، برابر با صفر باشد. این در حالی است که کاهش داده‌ها به واریانس واحد، باعث می‌شود همه متغیرها، به‌طور مساوی و صرف نظر از واریانس هریک، در نحوه ارائه مشاهدات در فضای ابعادی کاهش یافته، سهیم باشند. این ویژگی، در صورتی مفید است که بزرگی واریانس هر واحد جرمی به اهمیت نسبی، آن مربوط نباشد؛ بنابراین اگر فقط داده‌های متمرکز (ماتریس کواریانس) وارد الگوریتم PCA شوند، نسبت جرم به وزن‌های هر داده، تأثیر بیشتری در چگونگی مشاهده‌ها در فضای ابعادی کمتر خواهد داشت. در حالی که متمرکز سازی و مقیاس‌بندی (همبستگی)، اثرات ناشی از نسبت جرم به وزن با واریانس‌های بزرگ را کاهش می‌دهد. اگر همه متغیرها، واحد و نوع یکسان داشته باشند، از ماتریس کواریانس استفاده می‌شود. به‌طور خلاصه، PCA سعی در ایجاد ترکیبات خطی در متغیرهای اصلی که به‌طور خطی مستقل (متعامد) از یکدیگر هستند، دارد. این کار به گونه‌ای انجام می‌شود که فاصله اقلیدسی در بین مشاهدات حفظ شود.

  • حداقل مربعات جزئی (PLS):
حداقل مربعات جزئی روشی است که برای کاهش ابعاد استفاده می‌شود. این تکنیک برای مجموعه‌ای از داده‌های شامل متغیرهای دارای کلاس (y) و متغیرهای پیش‌بینی کننده (X) استفاده می‌شود. برخلاف سایر تکنیک‌های کاهش ابعاد، مانند تجزیه و تحلیل مؤلفه‌های اصلی، الگوریتم PLS، هر متغیر موردنظر را با استفاده از X و y محاسبه می‌کند. هدف در این روش، حداکثر کردن کواریانس بین X و y است. (بر خلاف PCA که به دنبال حداکثر کردن واریانس متغیرها (X) است). بنابراین PLS، بر خلاف PCA، برای کواریانس‌های داخل مدل، کاربرد دارد.
در PLS، متغیرهای موردنظر (kPLS مقداری بین ۱ تا p داشته و از k اصلی کوچکتر است) از تجزیه مکرر X و y محاسبه می‌شوند؛ به گونه ای که متغیرهای اصلی، به یک فضای ابعادی کوچکتر برنامه‌ریزی می‌شوند، جایی که توالی مدل‌های دوخطی با حداقل مربعات معمولی، برازش می‌شوند؛ بنابراین این روش، حداقل مربعات جزئی نامیده می‌شوند.[۱۸] این امر به ویژه در روش NIPALS صادق است. با این حال، پیاده‌سازی‌های بعدی از روش تحلیلی ویژه‌ای استفاده می‌کنند که آن را با بسیاری از روش‌های چندمتغیره قدیمی هماهنگ می‌سازد. با توجه به اینکه هدف PLS، یافتن رابطه خطی بین متغیرهای توصیفی و پاسخ X و y است، بنابراین:

T نشان‌دهنده امتیاز متغیرهای موردنظری است که داده‌ها، برای آن پیش‌بینی می‌شوند، P و C بارگذاری و Ex و Ey ماتریس باقیمانده حاصل از متغیرهای X و y اصلی هستند. برای تعیین مولفه در ابعاد پایین رابطه زیر نیاز است:

به طوری که و [۱۹]
الگوریتم PLS به شرح زیر است:
  1. اجزای PLS به گونه‌ای محاسبه می‌شود که کوواریانس بین X و Y را حداکثر کند.
  2. واریانس، از داده‌های اصلی X حذف می‌شود. این فرایند به عنوان کاهش داده (deflation) شناخته می‌شود. طول سطر و ستون ماتریس باقیمانده، با داده‌های X برابر بوده و فقط ابعاد ماتریس یک واحد کاهش می‌یابد.
  3. مؤلفه بعدی PLS از ماتریس باقیمانده فعلی و با هدف همبستگی حداکثری بین X و y محاسبه می‌شود. این مرحله تا زمانی تکرار می‌شود که تغییرات کمی در y حاصل شده یا X به یک ماتریس تهی تبدیل شود.

منابع[ویرایش]

  1. Hagen, J.B. (2000). "PathVar: The Origins of Bioinformatics". NATURE REVIEWS/GENETICS. 1: 231–236. doi:10.1007/978-1-60761-987-1_4. PMID 11252753.
  2. Gonzales, Patricia A.; Pisitkun, Trairak; Hoffert, Jason D.; Tchapyjnikov, Dmitry; Star, Robert A.; Kleta, Robert; Sun Wang, Nam; Knepper, Mark A. (2009). "PathVar:Large-scale proteomics and phosphoproteomics of urinary exosomes". Bioinformatics. 20: 363–379. doi:10.1681/ASN.2008040406. PMID 19056867.
  3. Pisitkun, Trairak; Shen, Rong-Fong; Knepper, Mark A. (2004). "PathVar: Identification and Proteomic Profiling of Exosomes in Human Urine". Bioinformatics. 101: 13368–73. doi:10.1073/pnas.0403453101. PMID 15326289.
  4. Aebersold, Ruedi (2003). "PathVar: Mass Spectrometry-Based Proteomics". Nature. 422: 198–207. doi:10.1038/nature01511. PMID 12634793.
  5. Simon, Richard (2003). "PathVar: Supervised analysis when the number of candidate features (p) greatly exceeds the number of cases (n)". Bioinformatics. 5: 31–36. doi:10.1145/980972.980978.
  6. Somorjai, R.L.; Dolenko, B.; Baumgartner, R. (2003). "PathVar: Class Prediction and Discovery Using Gene Microarray and Proteomics Mass Spectroscopy Data: Curses, Caveats, Cautions". Bioinformatics. 19: 1484–91. doi:10.1093/bioinformatics/btg182. PMID 12912828.
  7. Meunier, Bruno; Bouley, Julien; Piec, Isabelle; Bernard, Carine; Picard, Brigitte; Hocquette, Jean-François (2005). "PathVar: Data Analysis Methods for Detection of Differential Protein Expression in Two-Dimensional Gel Electrophoresis". Anal Biochem. 15: 226–30. doi:10.1016/j.ab.2005.02.028. PMID 15840495.
  8. Hilario, Melanie; Kalousis, Alexandros (2008). "PathVar: Approaches to Dimensionality Reduction in Proteomic Biomarker Studies". Brief Bioinform. 9: 102–18. doi:10.1093/bib/bbn005. PMID 18310106.
  9. Lê Cao, Kim-Anh; Martin, Pascal G.P.; Robert-Granié, Christèle; Besse, Philippe (2009). "PathVar: Sparse Canonical Methods for Biological Data Integration: Application to a Cross-Platform Study". BMC Bioinformatics. doi:10.1186/1471-2105-10-34. PMID 19171069.
  10. Hand, David J. (2008). "PathVar: Sparse Canonical Methods for Biological Data Integration: Application to a Cross-Platform Study". Stat Appl Genet Mol Biol. 7. doi:10.2202/1544-6115.1435. PMID 19120032.
  11. Willingale, Richard; Jones, Donald J.L.; Lamb, John H.; Quinn, Paulene; Farmer, Peter B.; Ng, Leong L. (2006). "PathVar:Searching for Biomarkers of Heart Failure in the Mass Spectra of Blood Plasma". Proteomics. 6: 5903–14. doi:10.1002/pmic.200600375. PMID 17051648.
  12. Smith, Fraser M.; Gallagher, William M.; Fox, Edward; Stephens, Richard B.; Rexhepaj, Elton; Petricoin 3rd, Emanuel F.; Liotta, Lance; Kennedy, John; Reynolds, John V. (2007). "PathVar:Combination of SELDI-TOF-MS and Data Mining Provides Early-Stage Response Prediction for Rectal Tumors Undergoing Multimodal Neoadjuvant Therapy". Ann Surg. 245: 259–66. doi:10.1097/01.sla.0000245577.68151.bd. PMID 17245180.
  13. Purohit, Parul V.; Rocke, David M. (2003). "PathVar:Discriminant Models for High-Throughput Proteomics Mass Spectrometer Data". Proteomics. 3: 1699–703. doi:10.1002/pmic.200300518. PMID 12973728.
  14. Boulesteix, Anne-Laure; Porzelius, Christine; Daumer, Martin (2008). "PathVar:Microarray-based Classification and Clinical Predictors: On Combined Classifiers and Additional Predictive Value". Bioinformatics. 24: 1698–706. doi:10.1093/bioinformatics/btn262. PMID 18544547.
  15. Rajalahti, Tarja; Arneberg, Reidar; Kroksveen, Ann C.; Berle, Magnus; Myhr, Kjell-Morten; Kvalheim, Olav M. (2009). "PathVar:Discriminating Variable Test and Selectivity Ratio Plot: Quantitative Tools for Interpretation and Variable (Biomarker) Selection in Complex Spectral or Chromatographic Profiles". Anal Chem. 81: 2581–90. doi:10.1021/ac802514y. PMID 19228047.
  16. Jung, Eunkyoung; Choi, Seung-Hoon; Lee, Nam Kyung; Kang, Sang-Kee; Choi, Yun-Jaie; Shin, Jae-Min; Choi, Kihang; Jung, Dong Hyun (2011). "PathVar:Machine Learning Study for the Prediction of Transdermal Peptide". J Comput Aided Mol Des. 25: 339–47. doi:10.1007/s10822-011-9424-2. PMID 21448715.
  17. Slawski, Martin; Daumer, Martin; Boulesteix, Anne-Laure (2008). "PathVar:CMA: A Comprehensive Bioconductor Package for Supervised Classification With High Dimensional Data". BMC Bioinformatics. 9. doi:10.1186/1471-2105-9-439. PMID 18925941.
  18. Dai, Jian J.; Lieu, Linh; Rocke, David (2006). "Dimension Reduction for Classification With Gene Expression Microarray Data". Comparative Study Stat Appl Genet Mol Biol. 5. doi:10.2202/1544-6115.1147. PMID 16646870.
  19. Boulesteix, Anne-Laure; Porzelius, Christine; Daumer, Martin (2008). "Microarray-based Classification and Clinical Predictors: On Combined Classifiers and Additional Predictive Value". Bioinformatics. 24: 1698–706. doi:10.1093/bioinformatics/btn262. PMID 18544547.