پرش به محتوا

پیش‌نویس:پیش پردازش داده ها

از ویکی‌پدیا، دانشنامهٔ آزاد


پیش پردازش داده‌ها می‌تواند به حذف داده‌ها قبل از استفاده به منظور افزایش عملکرد اشاره کند[۱] و مرحله مهمی در فرایند داده‌کاوی است. عبارت «زباله داخل، زباله بیرون» برای پروژه داده کاوی و یادگیری ماشینی استفاده می‌شود. روش‌های جمع‌آوری داده‌ها اغلب به‌صورت ضعیف کنترل می‌شود، که منجر به مقادیر خارج از محدوده (به عنوان مثال، درآمد: ۱۰۰-)، ترکیبی از داده‌های غیرممکن (به عنوان مثال، جنسیت: مرد، باردار: بله)، و مقادیر از دست رفته و دیگر موارد می‌شود. تجزیه و تحلیل داده‌هایی که برای چنین مشکلاتی غربالگری نشده‌اند، می‌تواند نتایج گمراه کننده ای داشته باشد؛ درنتیجه، نمایش و کیفیت داده‌ها قبل از اجرای هر تحلیلی در درجه اول است.[۲] اغلب، پیش پردازش داده از مهمترین مرحله پروژه یادگیری ماشینی است، به ویژه در زیست‌شناسی محاسباتی.[۳]مراحل آماده‌سازی داده‌ها و فیلتر کردن آن‌ها می‌تواند زمان طولانی برای پردازش طول بکشد. نمونه‌هایی از پیش پردازش داده‌ها شامل پاکسازی، انتخاب نمونه، کدگذاری، استخراج و انتخاب ویژگی و دیگر موارد است. پیش پردازش داده‌ها ممکن است بر نحوه تفسیر نتایج پردازش نهایی داده تأثیر داشته باشد.[۴] این جنبه باید با دقت زمانی که تفسیر نتایج یک نکته کلیدی است در نظر گرفته شود، مانند پردازش داده‌های شیمیایی (شیمی سنجی).

وظایف پیش پردازش داده‌ها[ویرایش]

  • پاکسازی داده‌ها
  • ویرایش داده‌ها
  • کاهش داده‌ها
  • آماده‌سازی داده

داده کاوی[ویرایش]

منشأ پیش پردازش داده در داده کاوی قرار دارد. ایده این است که اطلاعات موجود را جمع‌آوری کرده و در محتوا جستجو کنیم. همچنین مشخص شد که برای یادگیری ماشین و شبکه‌های عصبی یک مرحله پیش پردازش داده نیز مورد نیاز است؛ بنابراین به یک تکنیک جهانی تبدیل شده که به‌طور کلی در محاسبات استفاده می‌شود. پیش پردازش داده‌ها با استفاده از پاکسازی داده‌ها امکان حذف داده‌های ناخواسته را فراهم می‌کند، این به کاربر این امکان را می‌دهد که پس از مرحله پیش پردازش، مجموعه داده‌ای داشته باشد که حاوی اطلاعات ارزشمندتری باشد تا بعداً در فرایند داده کاوی دستکاری داده‌ها باشد. ویرایش چنین مجموعه داده‌ای برای خطای انسانی، گامی حیاتی برای بدست آوردن مثبت‌های واقعی، منفی‌های واقعی، مثبت‌های کاذب و منفی‌های کاذب یافت شده در ماتریس Confusion که معمولاً برای تشخیص پزشکی استفاده می‌شوند می‌باشد. کاربران می‌توانند فایل‌های داده را به یکدیگر متصل کنند و از پیش پردازش برای فیلتر کردن هرگونه نویز غیرضروری از داده‌ها که می‌تواند دقت بالاتری را داشته باشد استفاده کنند. کاربران از اسکریپت‌های برنامه‌نویسی پایتون با کتابخانه پانداها استفاده می‌کنند که به آنها امکان وارد کردن داده‌ها از مقادیر جدا شده با کاما را به عنوان یک فریم داده می‌دهد. سپس از چارچوب داده برای دستکاری داده‌هایی استفاده می‌شود که انجام آنها در اکسل ممکن است چالش‌برانگیز باشد. پانداها (نرم‌افزار) ابزار قدرتمندی است که امکان تجزیه و تحلیل داده‌ها را فراهم می‌کند که تجسم داده‌ها، عملیات آماری و غیره را بسیار آسان‌تر می‌کند. همچنین بسیاری از R (زبان برنامه‌نویسی) برای انجام چنین کارهایی استفاده می‌کنند. اینکه چرا کاربر فایل‌های موجود را به یک فایل جدید تبدیل می‌کند، دلایل زیادی دارد. پیش پردازش داده‌ها با هدف جمع‌آوری اطلاعات، برچسب گذاری داده‌ها با دسته‌ها (Data binning) انجام می‌شود.

پیش پردازش داده‌های معنایی[ویرایش]

داده کاوی معنایی زیرمجموعه ای از داده کاوی است که به دنبال گنجاندن دانش حوزه، مانند معناشناسی، در فرایند داده کاوی است. دانش دامنه (دانش دُمین)، دانش محیطی است که داده‌ها در آن پردازش شده‌اند. دانش دمین می‌تواند تأثیر مثبتی بر بسیاری از جنبه‌های داده‌کاوی، مانند فیلتر کردن داده‌های اضافی یا ناسازگار در طول مرحله پیش‌پردازش، داشته باشد.[۵] دانش دمین نیز به عنوان محدودیت عمل می‌کند. این کار را با استفاده از کار کردن به عنوان مجموعه ای از دانش قبلی انجام می‌دهد تا فضای مورد نیاز برای جستجو را کاهش دهد و به عنوان راهنمای داده‌ها عمل کند. به عبارت ساده‌تر، پیش پردازش معنایی به دنبال فیلتر کردن داده‌ها به‌طور کارآمدتر با استفاده از محیط اصلی داده‌های گفته شده‌است. همچنین مشکلات پیچیده‌تری وجود دارند که نیاز است با تکنیک‌های پیچیده‌تر برای تحلیل بهتر اطلاعات موجود حل شوند. به جای ایجاد یک اسکریپت ساده برای جمع کردن مقادیر مختلف عددی در یک مقدار، منطقی است که بر پیش پردازش داده مبتنی بر معنا تمرکز کنیم.[۶] ایده ساخت یک هستی‌شناسی اختصاصی است که در سطح بالاتری توضیح می‌دهد که مشکل در مورد چیست.[۷] با توجه به داده کاوی معنایی و پیش پردازش معنایی، هستی‌شناسی‌ها راهی برای مفهوم سازی و تعریف رسمی دانش و داده‌های معنایی هستند. Protégé (نرم‌افزار) ابزار استاندارد برای ساخت یک هستی‌شناسی است.[۸] به‌طور کلی، استفاده از هستی‌شناسی‌ها شکاف‌های بین داده‌ها، الگوریتم‌ها و نتایجی را که از عدم تطابق معنایی به وجود می‌آیند، پر می‌کند. در نتیجه، داده کاوی معنایی همراه با هستی‌شناسی کاربردهای زیادی دارد که در آن ابهام معنایی می‌تواند بر کارایی سیستم‌های داده تأثیر بگذارد. برنامه‌های کاربردی شامل حوزه پزشکی، پردازش زبان، بانکداری،[۹] و حتی تدریس خصوصی،[۱۰] از جمله موارد دیگر است. استفاده از داده کاوی معنایی و رویکرد مبتنی بر هستی‌شناسی نقاط قوت مختلفی دارد. همان‌طور که قبلاً ذکر شد، این ابزارها می‌توانند در مرحله هر پردازش با فیلتر کردن داده‌های نامطلوب از مجموعه داده‌ها کمک رسان باشند. همچنین، معناشناسی با ساختار خوب که در هستی‌شناسی‌های طراحی‌شده به خوبی ادغام شده‌اند، می‌توانند داده‌های قدرتمندی را برگردانند که می‌توانند به راحتی توسط ماشین‌ها خوانده و پردازش شوند.[۱۱] مثال مفیدی از این مورد در استفاده پزشکی از پردازش داده‌های معنایی وجود دارد. به عنوان مثال، یک بیمار در حال اورژانس پزشکی است و به سرعت به بیمارستان منتقل می‌شود. امدادگران اورژانس در تلاش هستند تا بهترین دارو را برای کمک به بیمار بیابند. تحت پردازش معمولی داده‌ها، بررسی تمام داده‌های پزشکی بیمار برای اطمینان از دریافت بهترین درمان ممکن است بسیار طولانی شود و سلامت یا حتی زندگی بیمار را به خطر بیندازد. با این حال، با استفاده از هستی‌شناسی‌های معنایی، اولین پاسخ دهندگان می‌توانند جان بیمار را نجات دهند. ابزارهایی مانند استدلال معنایی می‌توانند از هستی‌شناسی استفاده کنند تا به سادگی با بررسی زبان طبیعی مورد استفاده در سوابق پزشکی بیمار، استنباط کنند که بهترین دارو برای تجویز بر روی بیمار بر اساس سابقه پزشکی او است، برای مثال اگر او سرطان خاصی داشته باشد یا شرایط دیگر.[۱۲] این به اولین پاسخ دهندگان اجازه می‌دهد تا بدون نگرانی در مورد سابقه پزشکی بیمار خود، به سرعت و به‌طور مؤثر به دنبال دارو بگردند، زیرا استدلال کننده معنایی قبلاً این داده‌ها را تجزیه و تحلیل کرده و راه حل‌هایی پیدا کرده‌است. به‌طور کلی، این نشان دهنده قدرت باورنکردنی استفاده از داده کاوی معنایی و هستی‌شناسی است. آن‌ها امکان استخراج سریع‌تر و کارآمدتر داده‌ها را در سمت کاربر فراهم می‌کنند، زیرا کاربر متغیرهای کمتری برای محاسبه دارد، زیرا داده‌های از پیش پردازش معنایی و هستی‌شناسی ساخته‌شده برای داده‌ها قبلاً بسیاری از این متغیرها را در نظر گرفته‌اند. با این حال، اشکالاتی در این رویکرد وجود دارد؛ یعنی، به مقدار زیادی از قدرت محاسباتی و پیچیدگی نیاز دارد، حتی با مجموعه داده‌های نسبتاً کوچک.[۱۳] این می‌تواند منجر به افزایش مشکلات در ساخت و نگهداری سیستم‌های پردازش داده‌های معنایی شود. اگر مجموعه داده‌ها از قبل به خوبی سازماندهی و قالب‌بندی شده باشند، می‌توان تا حدودی این موضوع را کاهش داد، اما حتی در آن زمان، در مقایسه با پردازش داده‌های استاندارد، پیچیدگی همچنان بالاتر است. پیش پردازش فازی یکی دیگر از تکنیک‌های پیشرفته تر برای حل مسائل پیچیده‌است. پیش پردازش فازی و داده کاوی فازی از مجموعه‌های فازی استفاده می‌کنند. این مجموعه داده‌ها از دو عنصر تشکیل شده‌اند: یک مجموعه و یک تابع عضویت برای مجموعه که شامل ۰ و ۱ است. پیش پردازش فازی از این مجموعه داده‌های فازی برای بنا کردن مقادیر عددی با اطلاعات زبانی استفاده می‌کند. سپس داده‌های خام به زبان طبیعی تبدیل می‌شوند. در نهایت، هدف داده کاوی فازی کمک به مقابله با اطلاعات نادرست، مانند پایگاه داده ناقص است. در حال حاضر پیش پردازش فازی، و همچنین سایر تکنیک‌های داده کاوی مبتنی بر فازی، به‌طور مکرر با شبکه‌های عصبی و هوش مصنوعی استفاده می‌شود.[۱۴]

منابع[ویرایش]

رده:یادگیری ماشینی

  1. https://www.tableau.com/learn/articles/what-is-data-cleaning
  2. https://en.m.wikipedia.org/wiki/Los_Altos,_California
  3. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5721660
  4. https://en.m.wikipedia.org/wiki/Doi_(identifier)
  5. http://ix.cs.uoregon.edu/~dou/research/papers/icsc15_invited.pdf
  6. https://en.m.wikipedia.org/wiki/S2CID_(identifier)
  7. https://doi.org/10.1007%2F11946465_24
  8. https://doi.org/10.17485%2Fijst%2F2016%2Fv9i10%2F88899
  9. https://ieeexplore.ieee.org/document/9140238
  10. https://ieeexplore.ieee.org/document/9031710
  11. http://ix.cs.uoregon.edu/~dou/research/papers/icsc15_invited.pdf
  12. https://cs.uwaterloo.ca/~j3doucet/papers/OntApproachToDataMining.pdf
  13. https://onlinelibrary.wiley.com/doi/10.1002/int.22443
  14. https://ieeexplore.ieee.org/document/893697