تحلیل داده‌ها

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

تحلیل داده (به انگلیسی: Data analysis) فرایند فهمیدن، پاک‌سازی، آماده‌سازی و تحلیل داده‌هاست که به منظور استخراج اطلاعات سودمند برای تصمیم‌گیری انجام می‌شود. تحلیل داده‌ها امروزه در اغلب شاخه‌های علوم و صنعت از جمله اقتصاد، رشته‌های مهندسی، بازاریابی، پزشکی و غیره کاربرد دارد.

داده کاوی، روش خاصی برای تحلیل داده است که بر مدل‌سازی و کشف دانش برای اهداف قابل پیش‌بینی و نه صرفاً توصیفی متمرکز است؛ در حالی‌که هوش کسب‌وکار را پوشش می‌دهد که بطور عمده بر تجمع اطلاعات کسب‌وکار متکی است.[۱] در کاربردهای آماری، تجزیه‌وتحلیل داده‌ها را می‌توان به آمار توصیفی، تجزیه‌وتحلیل داده‌های اکتشافی (EDA) و تجزیه‌وتحلیل داده‌های تأییدی (CDA) تقسیم کرد. EDA بر کشف ویژگی‌های جدید در داده‌ها و CDA بر تأیید یا تکذیب فرضیه‌های موجود تمرکز دارد. علم تجزیه‌وتحلیل بر کاربرد مدل‌های آماری برای پیش‌بینی یا طبقه‌بندی تمرکز دارد، در حالی‌که تجزیه‌وتحلیل متن روش‌های آماری، زبانی و ساختاری را برای استخراج و طبقه‌بندی اطلاعات از منابع متنی به‌کار می‌بندد. تمام این‌ها، انواع تحلیل داده به‌شمار می‌آیند.

یکپارچه سازی داده‌ها پیش زمینه‌ای برای تحلیل داده‌ها است و تحلیل داده با مصورسازی داده و انتشار داده رابطه نزدیکی دارد. واژه تحلیل داده گاهی اوقات به عنوان مترادف برای مدل‌سازی داده استفاده می‌شود.

مراحل تحلیل داده[ویرایش]

تجزیه‌وتحلیل به معنای شکستن کل به اجزاء جداگانه است. تحلیل داده روند به دست آوردن دادهٔ جدید و تبدیل آن به اطلاعاتی مفید در جهت تصمیم‌گیری کاربران است. داده جمع‌آوری و تحلیل می‌شود تا پاسخگوی سوالات, آزمایش فرضیه‌ها یا تکذیب نظریه‌ها باشد.[۲]

آمارگر جان توکی در سال ۱۹۶۱ تحلیل داده‌ها را به صورت زیر تعریف کرد: "روش‌هایی برای تجزیه‌وتحلیل داده‌ها، تکنیک‌هایی برای تفسیر کردن نتایج حاصل از چنین روش‌هایی، روش‌های برنامه‌ریزی جمع‌آوری داده‌ها برای آسان‌تر ساختن تجزیه‌وتحلیل دقیق‌تر و صحیح‌تر و تمام ماشین‌آلات و نتایج حاصل از آمار که برای تحلیل کردن داده‌ها به کار بسته می‌شود."[۳]

چندین مرحله قابل تشخیص وجود دارد که در زیر توضیح داده می‌شود.[۴]

الزامات داده[ویرایش]

دادهٔ لازم به عنوان ورودی جهت تحلیل, بر اساس پیش‌نیازهای جهت‌دار یا مشتریانی که از محصول نهایی تحلیل استفاده می‌کنند, مشخص شده‌اند. ماهیت کلی که بر مبنای آن داده جمع‌آوری خواهد شد, واحد آزمایشی نامیده می‌شود (به‌طور مثال, یک فرد یا جمعیت). متغیرهای خاص در رابطه با یک جمعیت (به‌طور مثال سن یا درآمد) می‌تواند مشخص شود و به دست آید. داده‌ها ممکن است عددی یا مطلق (مثلاً اعداد یا یک متن) باشند.[۴]

جمع‌آوری داده[ویرایش]

داده از منابع گوناگون جمع‌آوری می‌شود. پیش‌نیازها می‌تواند توسط تحلیل‌گران و متولیان داده وسیله ارتباطی باشد. مثلاً تجهیزات فناوری اطلاعات که در یک سازمان است. همچنین داده می‌تواند از سنسورهای داخل محیط مانند دوربین‌های ترافیک, ماهواره, وسایل ثبت و غیره جمع‌آوری شود. همچنین می‌تواند از طریق مصاحبه‌ها, دانلود از منابع آنلاین یا خواندن اسناد به دست آید.[۴]

پردازش داده[ویرایش]

مراحل چرخه اطلاعاتی مورد استفاده برای تبدیل داده خام به هوش عملی یا دانش است که به لحاظ مفهومی شبیه به مراحل تجزیه‌وتحلیل داده است..

داده اولیه باید برای تحلیل, فرآوری یا سازماندهی شود. بطور مثال آن‌ها در فرمت ستونی یا ردیفی در یک جدول قرار می‌گیرند (یعنی داده ساختاری) که برای تحلیل بیشتر از نرم‌افزارهای آماری یا صفحه گسترده استفاده می‌کنند.

پاک‌سازی داده[ویرایش]

زمانی که سازماندهی انجام شد, داده ممکن است ناقص, دارای تکرار یا خطا باشد. نیاز به پاک‌سازی داده هنگام وقوع مشکل در مسیر ورود یا ذخیرۀ داده معلوم می‌شود. پاک‌سازی داده فرایندی برای اصلاح یا جلوگیری از چنین خطاهایی است. اهداف رایج شامل ثبت تطابق, شناسایی عدم دقت داده, کیفیت کلی دادۀ موجود[۵], حذف داده‌های تکراری و تقسیم‌بندی ستون است.[۶] چنین مشکلاتی در داده از طریق روش‌های مختلف تحلیلی هم می‌تواند قابل تشخیص باشد. بطور مثال با اطلاعات مالی, مجموع متغیرهای مشخص ممکن است با اعدادی که جداگانه به عنوان داده مورد قبول منتشر شده بودند, مقایسه شود.[۷] مقادیر غیرعادی بالا یا زیر آستانهٔ مشخص هم باید دوباره بررسی شود. بسته به نوع داده مانند شماره‌های تماس, آدرس‌های ایمیل, کارمندادن و غیره انواع پاک‌سازی داده وجود دارد. روش‌های دادهٔ کمی برای تشخیص داده‌های پرت می‌تواند برای خارج کردن داده‌هایی که اشتباهاً وارد شده هم استفاده شود. بررسی‌کننده‌های غلط املایی می‌تواند برای کاهش مقدار کلمات اشتباه تایپ شده به کار رود اما مشکل اینجاست که کلماتی که خودشان درست‌اند تشخیص داده شود.[۸]

تجزیه‌وتحلیل داده اکتشافی[ویرایش]

زمانی که داده پاک‌سازی شد, می‌تواند تحلیل شود. برای داده اکتشافی, تحلیل‌گر ممکن است چندین روش را به کار ببندد تا پیام موجود در داده را بتواند درک کند. خود این بخش می‌تواند شامل پاک‌سازی دیگری شود.[۹][۱۰] بنابراین این فعالیت‌ها در ذات خود ممکن است تکرار داشته باشند. آمار توصیفی مانند معدل و میانه ممکن است برای کمک به فهم آن داده تولید شود. مصورسازی داده نیز به فرمت گرافیکی به کار می‌رود تا دید بیشتری نسبت به پیام‌های درون داده حاصل آید.[۴]

مدل‌سازی و الگوریتم[ویرایش]

مدل‌ها یا فرمول‌های ریاضی که به آن‌ها الگوریتم گفته می‌شود, ممکن است بر روی داده به کار بسته شود تا روابط بین متغیرها مانند همبستگی یا نسبت میان علت و معمول شناسایی شود. بطور کلی, مدل‌ها برای ارزیابی به متغیری مشخص در داده که بر مبنای دیگر متغیرها است, توسعه می‌یابد که در آن چند خطای باقی مانده بسته به دقت مدل وجود دارد (داد ه= مدل + خطا).

آمار استنتاجی, شامل روش‌های اندازه‌گیری روابط بین متغیرهای مشخص می‌باشد. برای مثال, تحلیل رگرسیون ممکن است برای مدل استفاده شود که تغییر در تبلیغ (متغیر وابسته X) و تغییر در فروش (متغیر وابسته Y) را توضیح می‌دهد. از لحاظ ریاضی, Y (فروش) تابعی از X (تبلیغات) است. ممکن است به صورت Y = aX + b + error توضیح داده شود که در آن مدل به گونه‌ای طراحی شده که a و b زمانی که مدل Y را برای طیفی از مقادیر X پیش‌بینی می‌کند, خطا را کاهش دهند. ممکن است تحلیل‌گران سعی کنند تا مدل‌هایی بسازند که توصیفی هستند تا تحلیل ساده و نتایج قابل فهم شود.

محصول داده[ویرایش]

محصول داده یک برنامه کامپیوتری است که داده‌ها را گرفته و خروجی تولید می‌کند و آن‌ها را به محیط برمی‌گرداند; می‌تواند برحسب یک مدل یا الگوریتم باشد. برای مثال, برنامه‌ای کاربردی که اطلاعات تاریخچه خرید مشتری را تحلیل می‌کند و خریدهایی که ممکن است برای آن مشتری مطلوب باشد را پیشنهاد می‌کند.[۴]

ارتباط[ویرایش]

مقاله اصلی: مصورسازی داده

هنگامی که داده‌ها مورد تجزیه و تحلیل است، می‌تواند به فرمت‌های مختلف برای کاربران گزارش شود تا نیازهای آن‌ها حمایت شود. کاربران ممکن است بازخورد دهند که موجب تجزیه و تحلیل اضافی می‌شود. به این ترتیب، بسیاری از چرخه تحلیلی تکراری است.[۴]

هنگام تعیین نحوه انتقال نتایج, تحلیل‌گر ممکن است که روش‌های تجسم داده را برای کمک به شفافیت و کارایی در انتقال پیام به مخاطب در نظر بگیرد. تجسم داده اطلاعات را به صورت جدول‌ها و نمودارها نمایش می‌دهد تا پیام کلیدی موجود در داده قابل انتقال شود. جدول‌ها برای کاربری که به دنبال اعداد خاصی است کمک‌کننده است در حالی که نمودارها (مثلاً نمودار خطی یا نمودار میله‌ای) برای توضیح پیام‌های کمی کمک‌کننده هستند.

روش‌های تجزیه‌وتحلیل دادهٔ کمی[ویرایش]

همچنین ببینید: حل مسأله

نویسنده جاناتان کومی چند سری از بهترین تمرین‌ها را برای فهم بهتر دادهٔ کمی توصیه می‌کند که عبارتند از:

  • دادهٔ خام را قبل از اجرای تحلیل‌تان بررسی کنید;
  • محاسبات مهم, مانند بررسی ستون داده که از فرمول به دست آمده را مجدداً اجرا کنید;
  • کلیات را که حاصل زیرمجموعه‌ها هستند, تأیید کنید;
  • روابط بین اعدادی را که می‌بایست مربوط به حالتی قابل پیش‌بینی باشند, مانند نرخ‌ها در طول زمان, چک کنید;
  • به منظور ساده سازی مقایسه, بخش‌هایی چون تحلیل مقادیر را در هر نفر یا نسبت به تولید ناخالصی داخلی (GDP) یا به عنوان شاخص نسبی در یک سال پایه را به صورت قاعده درآورید;
  • مشکلات را به عوامل تحلیلی که منجر به نتیجه می‌شوند, بشکنید;

برای متغیرهای تحت بررسی, تحلیل‌گران معمولاً آمار توصیفی به دست می‌آورند (مانند معدل, میانه و انحراف معیار). آن‌ها هم‌چنین ممکن است که توزیع متغیرهای کلیدی را تحلیل کنند تا چگونگی مقادیر مشخص حول میانه را ببینند.

مشاوران در مکنزی اند کامپنی, روش شکستن مشکلات کمی به اجزاء آن را اصل MECE نام گذاری کردند. هر لایه می‌تواند به اجزایش شکسته شود. هر جزء باید منحصر به دیگری باشد و به صورت تجمعی به لایه بالایی‌اش اضافه شود. این رابطه به نام "متقابلاً منحصر به فرد و تجمعی کامل" یا MECE خوانده می‌شود. به‌طور مثال, سود طبق تعریف می‌تواند به درآمد کل و هزینه کل شکسته شود. به نوبه خود، درآمد کل می‌تواند توسط اجزای آن تحلیل شود؛ از جمله درآمد حاصل از بخش B, A و C (متقابلاً منحصر به فرداند) که باید به درآمد کل (تجمعی کامل) اضافه شوند.

تحلیل‌گران ممکن است اندازه‌گیری‌های آماری قوی برای حل مشکلات تحلیلی خاص به کار ببرند. آزمون فرضیه زمانی استفاده می‌شود که فرضیه خاصی دربارهٔ حالت واقعی امور توسط تحلیل‌گر ساخته می‌شود و داده برای تعیین اینکه آیا آن حالت درست است یا غلط, به کار می‌رود. برای مثال, ممکن است فرضیه این باشد که "بیکاران اثری بر تورم ندارند" که مربوط به مفهومی اقتصادی است. آزمون فرضیه شامل در نظر گرفتن احتمال نوع I و نوع II است و مرتبط است به اینکه آیا داده فرضیه را رد می‌کند یا می‌پذیرد.

تحلیل رگرسیون زمانی به کار می‌رود که ‌تحلیل‌گر سعی دارد تعیین کند که تا چه میزان متغیرهای مستقل X بر متغیرهای وابسته Y تأثیر می‌گذارند (مثلاً تا چه حد تغییرات نرخ بیکاری X در نرخ تورم Y تأثیر دارد؟). این تلاشی برای مدل‌سازی یا برقراری خط تساوی یا منحنی داده در تابع Y به X است.

تحلیل شرطی لازم (NCA) در حالتی به‌کار می‌رود که تحلیل‌گر سعی دارد تعیین کند که تا چه میزان متغیر مستقل X, متغیر Y را می‌پذیرد (به‌طور مثال, تا چه میزان نرخ مشخصی از بیکاری (X) برای نرخ تورم (Y) ضروری است). درحالی‌که تحلیل (چند) رگرسیونی منطق افزایشی دارد که در آن هر متغیر X می‌تواند نتیجه‌ای تولید کند و Xها برای یکدیگر جبران می‌کنند (کافی هستند ولی غیر ضروری) و تحلیل شرطی لازم (NCA) منطق ضرورت را به‌کار می‌برد که در آن ممکن است یک یا چند متغیر X نتیجه را بپذیرد ولی شاید موجب تولید آن نباشد (ضروری هستند ولی کافی نیستند). هر شرط لازم باید وجود داشته باشد و جبران خسارت امکان‌پذیر نیست.

جستارهای وابسته[ویرایش]

منابع[ویرایش]

Provost, F. , & Fawcett, T. (2013). Data Science for Business: What you need to know about data mining and data-analytic thinking. " O'Reilly Media, Inc.".