علم داده
علم داده (انگلیسی: Data science) دانشی میانرشتهای پیرامون استخراج دانش و آگاهی از مجموعهای داده و اطلاعات است.[۱]
علم داده از ترکیب مباحث مختلفی به وجود آمده و بر مبانی و روشهای موجود در حوزههای مختلف علمی بنا شدهاست. تعدادی از این حوزهها عبارتند از: ریاضیات، آمار، علوم کامپیوتر، مهندسی داده، بازشناخت الگو و… هدف این علم، استخراج مفهوم از داده و تولید محصولات دادهمحور است.
توماس دونپورت و دی جی پاتیل در سال ۲۰۱۲ در مقاله «علم داده: جذابترین شغل قرن بیست و یکم» متخصصین علم داده را اینطور تعریف میکنند: کسانی که میدانند چگونه میتوان از انبوه اطلاعات بدون ساختار پاسخ سؤال های کسب و کار را پیدا کرد.
استنتون در سال ۲۰۱۳ علم داده را اینطور تعریف میکند: علم داده، رشته در حال ظهوری است که به جمعآوری، آمادهسازی، تحلیل، بصریسازی، مدیریت و نگهداشت اطلاعات در حجم بالا میپردازد. دریسکول در سال ۲۰۱۴ علم داده را اینطور تعریف میکند: علم داده مهندسی عمران دادهها است. متخصص علم داده دانشی کاربردی از دادهها و ابزارها دارد به علاوه درک تئوریکی دارد که مشخص میکند چه چیزی از نظر علمی ممکن است.[۲]
متخصص علم داده
[ویرایش]به شاغلین در حوزهٔ علم داده، دانشمند داده (data scientist) میگویند. این اصطلاح توسط دی جی پاتیل و جف همربارکر[۳] ابداع شدهاست در صورتی که سالها قبل از آن که آنها استفاده از اصطلاح فوق را بهطور عمومی مطرح کنند، از آن استفاده شده است.[۴]
چن فو جف وو در سال ۱۹۹۸ برای اولین بار در یک سخنرانی از واژهٔ متخصص علم داده استفاده کرد. متخصصین علم داده با عمیق شدن در چندین رشتهٔ علمی، مسائل پیچیدهٔ مطرح شده در حوزهٔ داده را حل میکنند. بهطور کلی انتظار میرود که متخصصین علم داده قادر باشند در بخشهایی از علوم ریاضیات و آمار و علوم کامپیوتر کار کنند.[۵] یک متخصص علم داده میبایست در یک یا دو رشته تخصص داشته باشد و در دیگر حوزهها دارای مهارت کافی باشد. نتایج نظرسنجیها حاکی از این موضوع است که برای متخصص علم داده شدن ۵ تا ۸ سال زمان لازم است.[۶]
دانشمندان داده میتوانند مهارتهایشان را برای دستیابی به طیف وسیعی از نتایج نهایی به کار گیرند. تعدادی از این مهارتها به شرح زیرند:
- توانایی استخراج و تفسیر منابع داده
- مدیریت حجم زیاد اطلاعات با سختافزار
- محدودیتهای نرمافزاری و پهنای باند
- ادغام منابع داده با یکدیگر
- تضمین پایداری مجموعههای داده
- مصورسازی داده برای فهم آن
- ساخت مدلهای ریاضی با استفاده از داده، مانند مدلهای رگرسیون و طبقهبندی
- مقایسه آماری مدلهای ریاضی گوناگون و انتخاب مدل برتر، فی المثل توسط آزمون آ/ب
- به اشتراک گذاری یافتهها و دیدگاهها در حوزه داده با متخصصان دیگر یا مخاطب عام
منشأ پیدایش
[ویرایش]عبارت علم داده بیش از یک دهه است که موجودیت دارد.[۷] ویلیام کلیولند اولین کسی است که اصطلاح علم داده را در سال ۲۰۰۱ مطرح کردهاست. وی در مقاله «علم داده: برنامهای برای گسترش جنبههای فنی در رشته آمار» پیشنهاد کرد که علم داده به عنوان یک رشته مستقل شناخته شود. کلیولند این رشته جدید را مرتبط با علوم کامپیوتر و دادهکاوی میدانست. وی بر این باور بود که منافع استفاده از یک تحلیلگر داده محدود است.
چون مهندسین کامپیوتر شناخت کمی از روشهای کار با داده دارند و دانش محاسباتی متخصصین آمار هم محدود است؛ بنابراین تلفیق این دو گروه میتواند منجر به نوآوریهای زیادی شود. دپارتمانهای علم داده باید اساتیدی داشته باشد که بتوانند دانش دادهها را با دانش محاسبات تلفیق کنند.
با این که عبارت علم داده عبارت جدیدی است، این حرفه سالهاست که وجود داشته است. ناپلئون بناپارت از مدلهای ریاضی برای تصمیمگیری در میدانهای جنگی استفاده میکردهاست. این مدل ها را ریاضیدانان تهیه میکردند.
علم داده در ایران
[ویرایش]اولین پژوهش در زمینه متخصصین علم داده در ایران در دانشکده مدیریت دانشگاه تهران انجام شدهاست.[۸]
دانشگاه شهید بهشتی تهران اولین دانشگاه در ایران است که در مقطع کارشناسی ارشد علم داده دانشجو میپذیرد.
مرکز پژوهشی علوم و مدیریت داده دانشگاه تهران نیز این موضوع را به صورت تخصصی دنبال میکند.
ابزارهای متن باز علم داده
[ویرایش]- آر (زبان برنامهنویسی)
- پایتون (زبان برنامهنویسی)
- وکا (یادگیری ماشینی)
- جاوا (زبان برنامهنویسی)
- گنو آکتیو
- جولیا
رشتههای دانشگاهی مرتبط
[ویرایش]- علم اطلاعات و دانششناسی
- علوم کامپیوتر
- رشته آمار
- ریاضی کاربردی
- آمار پزشکی
- علوم تصمیم و مهندسی دانش
- انفورماتیک (رشته دانشگاهی)
- بیوانفورماتیک
- ژئوانفورماتیک
- تحلیل یادگیری
- انفورماتیک پزشکی
- علوم اعصاب محاسباتی
- شیمیانفورماتیک
- فیزیک محاسباتی
جستارهای وابسته
[ویرایش]- داده
- تصمیمگیری دادهمحور
- دادهکاوی
- آمار
- علوم کامپیوتر
- یادگیری ماشینی
- مصورسازی داده
- کلانداده
- هوش کسب و کار
- مدلسازی
- بهینهسازی
- متنکاوی
- بازشناخت الگو
- هوش مصنوعی
- محاسبات نرم
منابع
[ویرایش]- ↑ Dhar, Vasant. , Data Science and Prediction, Communications of the ACM, Vol. 56 No. 12, December 2013, Pages 64-73
- ↑ «کتاب علم داده مفاهیم و مهارتها - تألیف دکتر بابک سهرابی و حمیده ایرج - انتشارات جهاد دانشگاهی». بایگانیشده از اصلی در ۲۷ دسامبر ۲۰۱۶. دریافتشده در ۱۵ مارس ۲۰۱۶.
- ↑ "Tim O'Reilly: The World's 7 Most Powerful Data Scientists". Forbes. Retrieved 11 March 2013.
- ↑ "Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century". National Science Foundation.
- ↑ "Big Careers in Big Data". Villanova University.
- ↑ مهسا المعی نژاد. «چند سال طول میکشد تا یک نوآموز به یک دانشمند داده تبدیل شود؟». گروه داده کاوی ایران. دریافتشده در ۲۶ فوریه ۲۰۱۴.
- ↑ William S. Cleveland. Shanti S. Gupta Professor of Statistics. Courtesy Professor of Computer Science. Department of Statistics بایگانیشده در ۱۲ اوت ۲۰۱۳ توسط Wayback Machine. Purdue University
- ↑ Iraj, H., & Sohrabi, B. (2017). Data scientists’ skills in detecting archetypes in Iran. International Journal on Informatics Visualization, 1(2), 27-32. https://zaviehmag.ir/