داده خام

از ویکی‌پدیا، دانشنامهٔ آزاد
نمونه ای از داده‌های خام و محاسبات بعدی.

داده‌های خام، که همچنین با عنوان داده‌های اولیه شناخته می‌شوند، داده‌هایی هستند (به عنوان مثال، اعداد، مقادیر قرائت شده از ابزار، ارقام، و غیره) که از یک منبع جمع‌آوری می‌شوند. اگر یک دانشمند دماسنج کامپیوتری را تنظیم کند که هر دقیقه دمای یک مخلوط شیمیایی را در یک لوله آزمایش ثبت کند، فهرستی از مشاهدات درجه حرارت برای هر دقیقه، به صورتی که در یک صفحه گسترده چاپ شده یا روی صفحه کامپیوتر نمایش داده می‌شود، «داده‌های خام» خواهد بود. داده‌های خام آنهایی هستند که هنوز پردازش و پاکسازی نشده‌اند و داده‌های پرت از آنها جدا نشده‌است یا تحلیل‌هایی مانند تعیین شاخص‌های مرکزی مانند میانگین حسابی یا میانه بر روی آنها صورت نگرفته‌است. همچنین داده‌های خام بخشی از اطلاعاتی است که هنوز از سوی برنامه نرم‌افزاری یا محقق، تحلیلگر یا تکنسین انسانی دستکاری نشده‌است. داده خام یک اصطلاح نسبی است، زیرا هرچند داده‌های خام «تمیز» شده و توسط یک تیم محققان پردازش شده باشند، باز هم گروه دیگری می‌تواند این داده‌های پردازش شده را به عنوان «داده‌های خام» برای مرحله دیگری از تحقیق در نظر بگیرد. داده‌های خام را می‌توان به یک برنامه کامپیوتری وارد کرد یا در مراحل دستی مانند تجزیه و تحلیل آماری از یک نظرسنجی استفاده نمود. اصطلاح «داده‌های خام» می‌تواند به داده‌های باینری در دستگاه‌های ذخیره‌سازی الکترونیکی مانند هارد دیسک (همچنین به عنوان «داده‌های سطح پایین» اشاره) اشاره کند.

تولید داده‌ها[ویرایش]

داده‌ها به دو روش تهیه یا تولید می‌شوند. اولین مورد چیزی است که «داده‌های به دست آمده» نامیده می‌شود،[۱] و از طریق تحقیق یا تحلیلی هدفمند پیدا می‌شود. گروه دوم، «داده‌های خروجی»[۱] نامیده می‌شود و معمولاً به وسیله ماشین‌ها یا پایانه‌ها به عنوان یک عملکرد ثانویه جمع می‌شود. برای مثال، دستگاه‌های ثبت اسکناس، گوشی‌های هوشمند و سرعت سنج‌ها کاری اصلی و اختصاصی دارند اما ممکن است داده‌ها را به عنوان یک کار ثانویه جمع‌آوری کنند. داده‌های خروجی معمولاً یا خیلی بزرگند یا کاربرد کمی در پردازش دارند و منتقل یا دور ریخته می‌شوند.[۱]

مثال‌ها[ویرایش]

در محاسبات کامپیوتری، داده‌های خام ممکن است دارای ویژگی‌های زیر باشند: ممکن است احتمالاً حاوی خطاهای انسانی، دستگاه یا ابزار باشند و فاقد اعتبار شوند؛ ممکن است در فرمت‌های مختلف (تجمعی) باشند؛ بدون کد و بدون فرمت باشند؛ یا برخی از نوشته‌ها ممکن است "مشکوک" و نیازمند تأیید یا استناد باشند. به عنوان مثال، یک صفحه ورودی داده ممکن است حاوی تاریخ به عنوان داده‌های خام در بسیاری از فرمها باشد: "۳۱ ژانویه ۱۹۹۹"، "۳۱/۰۱/۱۹۹۹"، "۳۱/۱/۹۹"، "۳۱ ژانویه"، یا "امروز".

منابع[ویرایش]

  1. ۱٫۰ ۱٫۱ ۱٫۲ Kitchin, Rob (2014). The Data Revolution. United States: Sage. p. 6.