علم داده‌ها

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو
Data Science

علم داده‌ها (Data Science)، مطالعاتی پیرامون استخراج دانش و آگاهی از مجموعه‌ای داده و اطلاعات است.[۱] علم داده از ترکیب مباحث مختلفی به وجود آمده و بر مبانی و روش‌های موجود در حوزه‌های مختلف علمی بنا شده‌است. تعدادی از این حوزه‌ها عبارتند از: ریاضیات، آمار، مهندسی داده، بازشناخت الگو و.... هدف این علم، استخراج مفهوم از داده و تولید محصولات داده‌محور است. واژهٔ علم داده‌ها گاهی اوقات به جای تحلیل یا بزرگ داده مورد استفاده قرار می‌گرد و یا به غلط از آن تحت عنوان پردازش داده‌های مرتبط با بازاریابی و تجارت یاد می‌شود.

به شاغلین در حوزه ی علم داده ، داده پژوه (data scientist) می گویند. ادعا می شود که که این اصطلاح توسط DJ Patil و Jeff Hammerbacher [۲] ابداع شده است در صورتی که سال ها قبل از آن که آن ها استفاده از اصطلاح فوق را به طور عمومی مطرح کنند ، از آن استفاده شده است.[۳] در حقیقت C.F. Jeff Wu در تاریخ 10 نوامبر سال 1998 برای اولین بار در یک سخنرانی از واژه ی داده پژوه (data scientist) استفاده کرد.

دانشمندان داده پژوه با به کارگیری تخصص عمیق در چندین رشته ی علمی ، مسائل پیچیده ی مطرح شده در حوزه ی داده را حل می کنند.
به طور کلی انتظار می رود که دانشمندان داده پژوه قادر باشند در بخش هایی از علوم ریاضیات و آمار و علوم کامپیوتر کار کنند هر چند که تخصص در آن ها لازم نیست.[۴] اگرچه یک داده پژوه می بایست در یک یا دو رشته تخصص داشته باشد و در دیگر حوزه ها دارای مهارت باشد. نتایج نظرسنجی ها حاکی از این موضوع است که برای دانشمند داده شدن 5 تا 8 سال زمان لازم است. [۵]

دانشمندان داده پژوه قادر هستند مهارت هایشان را برای دست یابی به طیف وسیعی از نتایج نهایی به کار گیرند. تعدادی از آن ها شامل موارد زیر هستند:

  • توانایی برای یافتن و تفسیر منابع بزرگ داده
  • مدیریت حجم زیاد اطلاعات با سخت افزار
  • محدودیت های نرم‌افزاری و بهنای باند
  • ادغام منابع داده با یک دیگر
  • تضمین پایداری مجموعه های داده
  • تولید تصویر برای فهم داده
  • ساخت مدل های ریاضی با استفاده از داده
  • ارائه و مبادله یافته ها و دیدگاه ها در حوزه داده با متخصصان و دانشمندان حاضر در گروه و یا در صورت امکان مخاطب معمولی و مجموعه مهارت هایی که دانشمندان داده پژوه به طور گسترده به کار می گیرند.

دانشمندان داده پژوه عضو کاملی از حوزه ی هوش رقابتی هستند ، که حوزه ی جدید نوظهوری است که شماری از فعالیت ها را در بر می گیرد، از قبیل داده‌کاوی ( data mining ) که می تواند به افزایش سود در رقابت های تجاری کمک کند.

تکنولوژی های مهندسی داده ( Data engineering ) چگونگی دست یابی به داده و هدایت کردن تحقیقات پیرامون حوزه های متعدد علمی شامل زیست‌شناسی و انفورماتیک پزشکی و علوم اجتماعی و علوم انسانی را انجام می دهد.

منشأ پیدایش[ویرایش]

علم داده بیش از یک دهه است که موجودیت دارد. [۶]William S. Cleveland اولین کسی است که اصطلاح علم داده را مطرح کرده است. وی نوشته "علم داده : یک طرح عملیاتی برای گسترش حوزه های فنی علوم آماری است" که در آوریل سال 2001 منتشر شد.

منابع[ویرایش]

  1. Dhar, Vasant., Data Science and Prediction, Communications of the ACM, Vol. 56 No. 12, December 2013, Pages 64-73. http://cacm.acm.org/magazines/2013/12/169933-data-science-and-prediction/fulltext
  2. "Tim O’Reilly: The World’s 7 Most Powerful Data Scientists". Forbes. Retrieved 11 March 2013. 
  3. National Science Board. "Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century". National Science Foundation. Retrieved 30 June 2013. 
  4. "Big Careers in Big Data". Villanova University. 
  5. مهسا المعی نژاد. «چند سال طول می کشد تا یک نوآموز به یک دانشمند داده تبدیل شود؟». گروه داده کاوی ایران. بازبینی‌شده در 26 فبریه 2014. 
  6. See William S. Cleveland. Shanti S. Gupta Professor of Statistics. Courtesy Professor of Computer Science. Department of Statistics. Purdue University