کلان‌داده

از ویکی‌پدیا، دانشنامهٔ آزاد
(تغییرمسیر از داده‌های عظیم)
پرش به: ناوبری، جستجو

«کلان داده دارایی‌های داده‌ای‌اند بسیار انبوه، پرشتاب و/یا گوناگون که نیاز به روش‌های پردازشی تازه‌ای دارند تا تصمیم‌گیری، بینش تازه و بهینگی پردازش‌ پیشرفته را فراهم آورند»[۱]. در اینجا، داده‌های پرشتاب داده‌هایی‌اند که با شتاب بالایی تولید می‌شوند. کلان‌داده از چند ۱۰ ترابایت به چندین پتابایت در یک مجموعهٔ داده دارد می‌گسترد. نمونه‌هایی از کلان‌داده چنین‌اند: گزارش‌های وبی، سامانه‌های بازشناسی با موج‌های رادیویی، شبکه‌های حسگر، شبکه‌های اجتماعی، متن‌ها و سندهای اینترنتی، نمایه‌های جستجوهای اینترنتی، اخترشناسی، مدرک‌های پزشکی، بایگانی عکس، بایگانی ویدیو، پژوهش‌های زمین‌شناسی و بازرگانی در اندازه‌های بزرگ.

رویکرد[ویرایش]

آناکاوی‌ مجموع داده‌ها می‌تواند همبستگی‌های جدید را پیدا کند، که مربوط به روندهای بازرگانی نقطه‌ای، جلوگیری از بیماری، جُرم‌های جنگی و ... است. دانشمندان، بازرگانی، کارورزان صدا و سیما، تبلیغات و دولت، همانند مقررات، باعث مشکلاتی برای کلان‌داده در حوزه‌های مانند جستجوی اینترنتی، مالی و اطلاعات بازرگانی می‌شوند. دانشمندان با محدودیت‌هایی در کارهای علوم مواجهند که دربردارنده‌ی هواشناسی، ژنتیک و اطلاعات، شبیه‌سازی فیزیکی پیچیده، و پژوهش‌های محیط زیستی و زیست‌شناختی می‌باشد.

اندازه مجموعه اطلاعات در بخشی افزایش می‌یابد، به دلیل اینکه آنها از طریق ابزار موبایل که ارزان و بیش شمارند، آنتن هوایی (دریافت از راه دور)، وقفه نرم‌افزاری، دوربین‌ها، میکروفن‌ها، خواننده فرکانس رادیویی مشخص، و شبکه‌های دریافت بی‌سیم، جمع‌آوری می‌شوند. ظرفیت جهانی فناوری در هر واحد سرمایه، به منظور جمع‌آوری اطلاعات از دهه ۱۹۸۰ هر ۴۰ ماه دو برابر می‌شود. از سال ۲۰۱۲ هر روزه ۲٫۵ اگزابایت (۲٫۵×۱۰۱۸) اطلاعات ایجاد شده است. چالش موسسات بزرگ این است تعیین کنند که چه کسی ابتکار عملیات کلان‌داده را دارا می‌باشد که کل سازمان را در بر می‌گیرد. کارکردن با کلان‌داده به طور ضروری نادر می‌باشد؛ بیشتر آناکاوی‌‌ها در مورد اطلاعات سایز PC، مربوط به صفحه نمایش PC یا نوت بوک است، که می‌تواند مربوط به مجموعه اطلاعات قابل دسترسی باشد.

سیستمهای مدیریت پایگاه داده رابطه‌ای، و وضعیت صفحه نمایش و بسته تصویری بیش‌تر با مشکلاتی در رابطه با دستکاری در کلان‌داده مواجهند. در عوض اینکار به اجرای نرم‌افزاری به طور همزمان در حجم گسترده و با ده‌ها، صدها، و حتی هزاران سرور، نیاز دارد. آن چیزی که به عنوان کلان‌داده در نظر گرفته می‌شود، بر مبنای توانایی‌های استفاده کنندگان از وسایل تفاوت دارد و گسترش توانایی‌ها برای ایجاد کلان‌داده یک هدف می‌باشد؛ بنابراین، هر آنچه که کلان در نظر گرفته می‌شود یک سال بعد عادی می‌شود. برای برخی سازمانها، که با صدها گیگابایت اطلاعات برای اولین بار مواجهند، ممکن به در نظر گرفتن دوباره اختیارات مدیریت اطلاعات نیاز احساس شود. برای دیگران، ممکن است ده‌ها یا صدها ترابایت باید حجم اطلاعات افزایش یابد تا به عنوان قابل توجه در نظر گرفته شود.

برابر فارسی[ویرایش]

  • داده‌های عظیم: این عنوان به دلیل اینکه ریشه عربی دارد پیشنهاد نمی‌شود. ضمن اینکه بیشتر برابر واژگانی مانند 'Huge'، 'Great و 'Enormous' می‌باشد.
  • داده‌های انبوه: انبوه بیشتر اشاره به واژه‌هایی مانند 'dense' و 'mass' داردو بعنوان معدل برای big مناسب به نظر نمی‌رسد.
  • داده‌های حجیم: این عنوان بنظر مناسب نیست زیرا بیشتر به بعد 'Volume' یا حجم که یکی از ویژگی‌های زمینه 'Big Data' است اشاره می‌کند.
  • بزرگ داده: این واژه هم‌اکنون بیشتر برای برابر واژه 'Large' استفاده می‌شود. (مانند Large Scale: مقیاس بزرگ) و بنابراین پیشنهاد نمی‌شود.
  • وزرگ داده: این عنوان همان بزرگ است که در فارسی قدیم برای اشاره به عظمت مقام و یا وسعت قلمرو (برابر 'Great' و 'Vast') استفاده شده است.
  • کلان داده: این عنوان به نظر می‌رسد که برای 'Big Data' مناسبتر باشد. زیرا ترکیبات مشابه دیگری نیز دارد که ترجمه کلان برای آنهای نیز استفاده می‌شود (مانند 'Big Approach': رویکرد کلان)
  • داده‌های بزرگ: این عنوان به نظر می‌رسد مناسب‌ترین برابر برای 'Big Data' باشد. زیرا هم به لحاظ مفهومی به Big اشاره دارد و هم از نظر مفرد یا جمع بودن، با Data همخوان است.
  • مه داده چیست؟ این عنوان یکی دیگر از برابرات 'Big Data' می‌باشد. زیرا هم به لحاظ مفهومی به Big اشاره دارد و هم از نظر مفرد یا جمع بودن، با Data همخوان است.[۲]

تعریف[ویرایش]

تعریف گارتنر از 3V همچنان در سطح وسیعی مورد استفاده قرار می‌گیرد، و در توافقات یک تعریف پذیرفته شده وجود دارد که بیانگر این است که " کلان‌داده بیانگر دارایی‌های اطلاعاتی است که دارای خصوصیاتی از قبیل حجم بالا، فناوری و سرعت و تنوع نیاز به روشهای آناکاوی‌ی مخصوص برای اطلاعات مربوط به ارزش، می‌باشد.

کلان‌داده معمولاً دربردارنده‌ی مجموعه اطلاعاتی است که به طور معمول فراتر از حدی است که بتواند در ابزارهای تصویر، مدیریتی و فرایند اطلاعات در زمان قابل قابل تحمل که تمام می‌شود، استفاده شود. اندازه کلان‌داده به طور ثابت به مقدار هدف نزدیک می‌شود، از سال ۲۰۱۲ که در حد چند ترابایت بوده به پتا بایت رسیده است. کلان‌داده مجموعه‌ای تکنیک‌ها و فناوریهایی است که که به فرم جدیدی از دسته‌بندی به منظور روشن کردن ارزشهای پنهانی از پایگاه کلان‌داده که تغییر کرده، پیچیده شده و دارای مقیاس بالایی است، مورد نیاز می‌باشد.

در سال ۲۰۰۱ گزارش پژوهشی و ادبیات مربوطه، گروه متا (الان گارتنر)، داگ لنی به این نتیجه رسید که چالش‌ها و فرصتهای توسعه اطلاعات دارای سه بعد می‌باشد، به معنای حجم افزایشی (مقدار اطلاعات)، سرعت (سرعت اطلاعات خروجی و ورودی)، و تنوع (دامنه نوع اطلاعات و منابع). گراتنر، و تعداد بیشتری از صنایع، به استفاده از این مدل 3V برای توصیف کلان‌داده استفاده کردند. در ۲۰۱۲، گارتنر تعریف خود را بصورت زیر بروز کرد: کلان‌داده دارای حجم زیاد، سرعت بالا، و/یا تنوع بالای دارایی‌های اطلاعاتی است که به فرم جدیدی از ترفیع فرایند توانایی تصمیم‌گیری، اکتشافات درونی، و فرایند بهینه‌سازی، نیاز دارد.

3V در خصوصیات تکمیلی مربوط به کلان‌داده توسعه یافته است:

  • اندازه: اندازه اطلاعات نمونه ندارد. این فقط اتفاقات را مشاهده و ثبت می‌کند
  • تندای: کلان‌داده بیش‌تر در زمان واقعی در دسترس است
  • گوناگونی: کلان‌داده از متن، تصاویر، صدا، ویدئو بدست می‌آید، به علاوه از طریق اتصال داده‌ها قیمت‌های جامانده را کامل می‌کند.
  • یادگیری ماشین:کلان‌داده بیش‌تر چرایی را نمی‌پرسند و فقط الگوها را پیدا می‌کنند
  • جایگاه دیجیتالی: کلان‌داده بیش‌تر محصولات بدون هزینه از تعاملات دیجیتالی می‌باشد

رشد مفهوم باعث ایجاد تفاوت‌هایی بین کلان‌داده و هوش کسب و کار، در رابطه با اطلاعات و استفاده‌های آنها می‌شود:

  • هوش کسب و کار از آمارهای توصیفی همراه با اطلاعات و حجم بالای اطلاعاتی برای اندازه‌گیری و پیدا کردن روندها استفاده می‌کند
  • کلان‌داده از آمارهای استقرایی و مفاهیم برابرسازی سیستمی غیر خطی، برای قوانین استنباطی (رگرسیون، رابطه غیر خطی، و تأثیر علی) از مجموعه‌های بزرگ اطلاعات که دارای حجم اطلاعاتی کمتری هستند، استفاده می‌کند. برای نشان دادن رابطه‌ها، وابستگی‌ها و انجام پیشگوییهای مربوط به درآمد و رفتارها استفاده می‌شود.

ویژگی‌ها[ویرایش]

کلان داده می‌توانند بر اساس ویژگی‌های زیر تعریف شود:

اندازه - اندازه داده‌های آزانیده (تولید شده) و انباریده (ذخیره شده). اندازه‌ی داده در شناسایی ارزش یا کلانگی داده کلیدی است. اگر داده خُرد باشد، کلان داده خوانده نمی‌شود.

گوناگونی - گونه‌ی داده. دسته‌بندی داده‌ها به گونه‌ها به شناخت بهتر می‌انجامد.

نرخ آزانش - همان سرعت تولید داده است. نرخ بالای آزانش (تولید) داده، چالش‌هایی را در زمینه‌ی انبارش (ذخیره‌سازی) و پردازش داده پدید می‌آورد.

ورتندگی- ناپایستگی داده میتواند پردازش‌ها را از رسیدگی و مدیریت داده بازدارد.

درستی- کیفیت داده‌ی گردآوری شده می‌تواند بر آناکاوی دقیق داده اثر بگذارد.

طراحی[ویرایش]

در سال ۲۰۰۰، شرکت سیزینت یک توزع بر مبنای شبکه توزیع فایل C++ برای جمع‌آوری و پژوهش توسعه داد. سیستم به جمع‌آوری و توزیع اطلاعات ساختاریافته، نیمه ساختار، و بدون ساختار در سرورهای خود کرده است. استفاده کنندگان می‌توانند پژوهش‌های را بر مبنای یک C++ اصلاح شده که ECL نامیده می‌شود انجام دهند. ECL از یک روش برای اجرای برنامه در مسیر، استفاده می کن تا ساختار اطلاعات جمع‌آوری شده را در طول پژوهش استنباط کند. در ۲۰۰۴، لگزیس نگزیس شرکت سیزینت را تصاحب کرد و در سال ۲۰۰۸ شرکت چویزپوینت را تصاحب کرد، و پایگاه پروسه همزمان با سرعت بالا را هم تصاحب کرد. این دو پایگاه در قالب سیستمهای HPCC ادغام شدند و در سال 2011 HPCC, بر اساس مجوز Apache v2.0 متن‌باز بود. هم‌اکنون HPCC , و سیستم فایل کوانت کست، تنها پایگاه‌های عمومی بودند که توان آناکاوی‌های اطلاعات اگزا بایتی را داشت.

در سال ۲۰۰۴، گوگل مقاله‌ای را در مورد فرایند مپ ردیوس انتشار داد که به عنوان طراحی استفاده می‌شود. چارچوب مپردیز یک مدل پروسه همزمان را فراهم می‌آورد که با اجرای فرایندهای کلان‌داده سر و کار دارد. همره با مپ ردیوس، پژوهش‌های تقسیم شده و به گرهای همزمان توزیع می‌شود و به طور همزمان تکمیل می‌شود (مرحله نقشه). نتایج جمع‌آوری شده و تحویل داده می‌شود (مرحله کاهش). چارچوب خیلی موفق بود؛ بنابراین دیگران خواستند تا الگوریتم را تکرار کنند؛ بنابراین، یک اجرای چارچوب مپ ردیوس توسط پروژه متن‌باز آپاچی بروز شده است که آپاچی هدوپ نام دارد.

MIKE2.0 یک رهیافت باز مربوط به مدیریت اطلاعات می‌باشد که تأیید آن به تجدید نظر ناشی از کلان‌داده نیاز دارد که در یک مقاله با نام راه حل‌های پیشنهادی کلان‌داده شناسایی شده است. روشی که به شناسایی اطلاعات عظیم سرو کار دارد در عبارات مفید تبدیل منابع اطلاعات، پیچیدگی روابط درونی و مشکلات حذف کردن (اصلاح کردن) یادداشت‌های فردی وجود دارد. مطالعات اخیر بیانگر این است که استفاده از طراحی چندلایهای یک اختیار در رابطه با کلان‌داده می‌باشد. طراحی توزیع موازی، اطلاعات را در چند پروسه چندگانه توزع می‌کند و فرایند موازی واحدها اطلاعات را، از طریق بهبود سرعت فرایند، سریعتر ایجاد می‌کند. این طراحی اطلاعات را وارد DBMS موازی وارد می‌کند که چارچوب مپ ردیوس و هواپ را تشکیل می‌دهد. بنظر می‌رسد که این نوع شبکه فرایندی را برای شفاف سازی قدرت در استفاده کنندگان نهایی، با استفاده از سرور نرم‌افزار جلو-عقب تشکیل می‌دهد. آناکاوی‌ اطلاعات بزرگ برای تجهیزات تولیدی می‌تواند مبنایی برای طراحی 5C تشکیل دهد (ارتباطات، تبدیل، سایبر، شناخت و موقعیت).

برکه اطلاعات به یک سازمان اجازه می‌دهد تا تمرکز خود از کنترل مرکزی به یک مدل اشتراک گذاری تغییر دهد تا به تغییرات پویا در مدیریت اطلاعات واکنش دهد. این امر به جداسازی سریع اطلاعا به دریاچه اطلاعات کمک می‌کند، که در قسمت اور کاهش می‌یابد.

فناوریها[ویرایش]

کلان‌داده به فناوریهای استثنایی نیاز دارد تا پروسه تعداد عظیمی از داده‌ها را در زمان قابل تحمل، انجام دهد. گزارش ئک کینزی در ۲۰۱۱ پیشنهاد می‌دهد که فناوریهای مناسب دربردارنده‌ی آزمایش A/B، منابع خام، اتصال داده‌ها، و یکپارچگی، الگوریتم هوشیارانه، یادگیری ماشین، فرایند زبان طبیعی، فرایند سیگنا، شبیه‌سازی، آناکاوی‌ سری زمانی و تصویر سازی می‌باشد. کلان‌داده چند بعدی می‌تواند توسط تانسوط بیان شود که، می‌تواند به طور موثرتر محاسبات بر مبنای تنسور را انجام دهد، همانند یادگیری سطح کوچک چند خطی. فناوریهای اضافی که در کلان‌داده مورد استفاده قرار می‌گیرند دربردارنده‌ی پروسه موازی عظیم (MIPP)، پایگاه داده‌ها، تجهیزات مبنای پژوهش، داده کاوی، سیستم‌های فایل توزیع شده، پایگاه داده‌های توزیع شده، زیر ساختار بر اساس توده (تجهیزات، جمع‌آوری و محاسبه منابع) و اینترنت می‌باشد.

برخی ولی نه همه پایگاه داده‌های مرتبط با MPP این توانایی را دارند اطلاعات در حجم پتابایت را مدیریت و ذخیره کنند. اشاره شد که توانایی بارگذاری، تصویر، بک آپ، و بهینه‌سازی استفاده از جدول کلان‌داده در RDBMS صورت می‌گیرد. برنامه آناکاوی‌ اطلاعات فنی DARPA به ساختار پایه‌ای از مجموعه کلان‌داده رسیده است و در ۲۰۰۸، این فناوری با راه اندازی یک شرکت به نام آوازدی عمومی شد.

مشارکت کنندگان در پروسه آناکاوی‌ کلان‌داده، به طور عمومی دارای ذخایر اشتراکی کندتر، ذخایر که بدست آوردن مستقیم را ترجیح می‌دهند (DAS) در فرمهای گوناگون خود از ماشین با وضعیت جامد (SSD) برای ظرفیت بالای دیسک SATA در گره‌های فرایندی موازی قرار می‌گیرد، می‌باشد. آگاهی از طراحی‌های ذخایر اشتراکی – شبکه حوزه ذخیره (SAN) درو انباره شبکه‌های متصل (NAS)- به طور نسبی آهسته‌تر، پیچیده‌تر و گرانتر ازست. این کیفیت‌ها با سیستمهای آناکاوی‌ کلان‌داده سازگاری ندارد، که در عملکرد، زیرساخت محصولات و هزینه پایین، پیشرفت کرده است.

تحویل اطلاعات واقعی یا شبه واقعی، یکی از خصوصیات تعریف در آناکاوی‌های کلان‌داده می‌باشد؛ بنابراین هر زمان که ممکن باشد این تأخیر صورت می‌گیرد. اطلاعات حافظه خوب است – اطلاعات در ریسکهای ریسندگی در انتهای دیگر از اطلاعات FC SAN نیستند. هزینه SAN در مقیاس مورد نیاز برای آناکاوی‌ تجهیزات، بسیار بیشتر از تکنیکهای ذخیره‌سازی دیگر می‌باشد. ذخایر به اشتراک گذاشته شده درای منافع و ضررهایی در آناکاوی‌های کلان‌داده هستند، ولی نماینده‌های آناکاوی‌ی کلان‌داده از ۲۰۱۱، دلخواه نبودند.

تجهیزات[ویرایش]

کلان‌داده باعث افزایش تقاضا برای متخصصان مدیریت اطلاعات شده و در زمینه‌های نرم‌افزار AG، شرکت اوراکل، IBM، مایکروسافت، SAP, EMC,HP و Dell بیش از ۱۵ میلیارد دلار در متخصصین شرکتهای نرم‌افزاری برای مدیریت و آناکاوی‌ داده‌ها استفاده کردند. در ۲۰۱۰، این صنعت بیش از ۱۰۰ میلیارد دلار ثروت داشت و در سال ده درصد رشد می‌یافت، که تقریباً دو برابر رشد صنعت نرم‌افزاری بود.

اقتصادهای توسعه یافته به طور مضاعف از تکنولوژهای اطلاعات بر استفاده می‌کند. حدودت ۴٫۶ میلیات تلفن موبایل در سراسرجهان است و در حدود یک تا دو میلیارد نفر به اینترنت دسترسی دارن. بین ۱۹۹۰ تا ۲۰۰۵، بیش از یک میلیارد نفر وارد طبقه میانی شدند. به این معنا که سواد افراد زیادی افزایش یافتهاست که منجر به رشد اطلاعات شده است. ظرفیت مؤثر جهانی برای مبادله اطلاعات از طریق شبکه‌های مخابراتی در ۱۹۸۶، ۲۸۱ پتابایت، در ۱۹۹۳، ۴۷۱ پتابایت، در ۲۰۰۰، ۲٫۲ اگزابایت، در ۲۰۰۷، ۶۵ اگزابایت، بوده و پیش بینی شده است که حجم ترافیک اینترنتی تا سال ۲۰۱۴، سالانه ۶۶۷ اگزابایت باشد. بر اساس یک پیش بینش از یک سوم از اطلاعات جمع شده در سراسر جهان، متن الفبایی بوده و همچین اطلاعات تصویری بوده که در در نرم‌افزارهای کلان‌داده، مفیدتر است. همچنین بیانگر ظرفیت استفاده نشده از اطلاعات می‌باشد (در قابل متنهای ویدوئی و صوتی). در حالیکه بیشتر شرکتها راه حل از قفسه را برای کلان‌داده پیشنهاد می‌دهند، کارشناسان به توسعه راه حل در خانه که مناسب مشتری باشد، برای حل مشکلات شرکت، در صورتی که شرکت دارای ظرفیتهای فنی کافی باشد، تأکید دارند.

دولت[ویرایش]

استفاده و قبول کلان‌داده در پروسه دولت سودمند بوده و به کارایی در هزینه‌ها، بهره‌وری و ابداعات منجر می‌شود. گفته شده است که این فرایند بدون نقص نیست. آناکاوی‌ اطلاعات بیش‌تر به چند بخش از دولت نیاز دارد (مرکزی و محلی) تا در همکاری و ایجاد فرایندهای جدید و ابتکاری در تولید محصول دلخواه، کار کند. در زیر مثالهایی برای فضای کلان‌داده دولتی بیان شده است.

ایالات متحده آمریکا

  • در ۲۰۱۲، رئیس جمهور باراک اوباما مشوق‌هایی را برای پژوهش و توسعه کلان‌داده انتشار داد، تا کشف کند که چگونه کلان‌داده برای حل مشکلات رو در روی دولت استفاده می‌شود. این ابتکارات مرکب از ۸۴ برنامه مختلف کلان‌داده در ۶ دپارتمان بود
  • آناکاوی‌ کلان‌داده نقش بزرگی را در موفقیت باراک اوباما در انتخاب مجدد ایفا کرد
  • دولت فدرالی ایالات متحده شش تا از ده ورد سوپر کامپیوتر در سراسر جهان را تصاحب کرد
  • مرکز اطلاعات Utah هم‌اکنون یک مرکز اطلاعات است که توسط آژانس امنیت ملی ایالات متحده ساخته شده است. در زمان اتما، این تجهیزات قادر بودن تا حجم زیادی از اطلاعات که توسط NSA در اینترنت جمع شده بود را اداره کند. مقدار دقیق از حجم انباره ناشناخته است، ولی منابع تازه ادعا دارند که در حدود چند اگزابایت است

هند

  • آناکاوی‌ کلان‌داده در برخی بخشهای مربوط به مسولیت پذیری BJP و متحدانش برای برنده شده در انتخابات عمومی۲۰۱۴ هند، مؤثر بوده است
  • دولت هند از روشهای مختلفی استفاده می‌کند تا روشن کند که چگونه انتخابات هند چگونه به انتخاب دولت واکنش نشان می‌دهد، همانند ایده‌هایی برای تقویت نیرو.

بریتانیا[ویرایش]

چند مورد از استفاده‌های کلان‌داده در خدمات عمومی عبارتند از:

  • اطلاعات مربوط به نسخه داروه: با ارتباط اصل، موقعیت و زمان هر نسخه، یک واحد پژوهش قادر به نشان دادن تأخیر قابل توجه بین صدور و تحویل دارو است، و پذیرش راهنمای عالی مربوط به مؤسسه ملی سلامت، در سطح بریتانیا مورد قبول است. این امر پیشنهاد می‌دهد که برخی داروهای جدید، طول می‌کشد تا به بیماران عمومی تحویل داده شود.
  • الحاق داده‌ها: یک محلی اطلاعات مربوط به خدمات، همانند مسیرهای استحکام جاده‌ها را با خدمات برای افراد در ریسک، همانند خوراک چرخ‌ها، ترکیب می‌کنند. ارتباط اطلاعات باعث می‌شود تا حکومت محلی از تاخیرهای مرتبط اجتناب ورزد.

توسعه بین‌المللی[ویرایش]

پژوهش‌های در مورد استفاده‌های مؤثر از فناوری‌های ارتباطی و اطلاعات برای توسعه (ICT4D)، پیشنهاد می‌دهد که فناوری اطلاعات می‌تواند عملکرد خوبی داشته باشد ولی همچنین چالشهای رابرای توسعه بین‌المللی دارد. پیشرفت در آناکاوی‌های کلان‌داده، فرصتهای هزینه مؤثر رابرای توسعه تصمیم‌گیری در حوزه تصمیمات بحرانی، همانند محافظت از سلامتی استخدام، بهره‌وری اقتصادی، جریمه، امنیت، طوفانهای طبیعی و مدیریت منابع، فراهم می‌آورد. با این حال، چالشهای بلند مدت برای توسعه حوزه‌هایی همانند ساختار فناوری ناکافی دارد و منابع انسانی و اقتصادی بدتر شده و نگرانیهایی را در رابطه با استقال، روش ناکافی و مسائل قابل همکاری با مسائل دیگر، بوجود می‌آورد.

تولید[ویرایش]

بر مبنای مطالعات روند جهانی TCS 2013، بهبود در نقشه عرضه و کیفیت محصولات، بزرگترین منافع را برای تولید کلان‌داده فراهم می‌آورد. کلان‌داده یک چارچوبی را برای شفافیت در تولیدات صنعتی فراهم می‌آورد که توانایی حل کردن نا اطمینانیهایی همانند اجزای عملکردی نا مناسب و در دسترس، را فراهم می‌سازد. تولید پیشگویانه همانند رهیافت قابل اجرا برای اجرای کاهش زمان مورد نیاز برای حجم زیادی از داده‌ها و ابزارهای پیشگویانه پیشرفته برای فرایند سیستماتیک در مورد اطلاعات مورد استفاده می‌باشد. یک چارچوب مفهومی از تولیدات همراه با کسب اطلاعات بوده است که انواع مختلف از اطلاعات قابل دریافت می‌باشد، همانند صوت شناسی، ارتعاش، فشار، جریان، ولتاژی و کنترل کننده اطلاعات. حجم زیادی از اطلاعات قابل ملموس، علاوه بر اطلاعات تاریخی مبتنی بر تولید کلان‌داده می‌باشد. کلان‌داده ایجاد شده همانند نهاده‌های ابزار پیش بینی و استراتژیهای پیشگیرانه همانند وابسته به آثار بیماری و مدیریت سلامتی می‌باشد.

مدل‌های فیزیکی-سایبری: اجراهای PHM اخیر بیشتر از اطلاعات در طول استفاده‌های واقعی استفاده می‌کند در حالیکه الگوریتم آناکاوی‌ی می‌تواند در صورتی که اطلاعات مربوط به چرخه حیات ماشین، همانند شکل سیستمی، دانش فیزیکی و قواعد کار، باشد، دقیقتر باشد. در اینجا به هماهنگی سیستماتیک، مدیریت و آناکاوی‌ ماشینی یا پروسه اطلاعت در مورد مراحل چرخه ماشین برای اداره کردن اطلاعات، با کارایی بیشتر و دستیابی به شفافیت بیشتر در مورد شرایط سلامتی ماشین در صنعت تولیدی، نیاز می‌باشد. با چنین انگیزه‌هایی برنامه مدل فیزیکی سایبی، توسعه یافته است. این مدل اتصال یافته یک دوقلوی دیجیتالی از ماشین واقعی است که در پایگاه انبوه عمل می‌کند و شرایط سلامتی را با دانش هم انباشته از هر دو نوع اطلاعات الگوریتم آناکاوی‌ی، همانند دانشهای فیزیکی قابل دسترس، فراهم می‌آورد. می‌تواند همانند رهیافت سیستماتیک 5C توصیف شود که متشکل از دریافت، ذخیره، همزمانی، ترکیب و خدمات می‌باشد. مدل ترکیبی در مرحله اول از تصاویر دیجیتالی مربوط به طراحی مرحله اول تشکیل شده است. اطلاعات سیستمی و دانش فیزیکی در طراحی محصولات، جدول‌بندی شده است، که بر مبنای مدل همزمانی می‌باشد که به عنوان منبعی برای آناکاوی‌های آینده می‌باشد. پارامترهای اولیه ممکن است که به طور آماری عمومی شود و می‌توانند به اطلاعات قابل استفاده در آزمایش و ساختار فرایند تخمین پارامترها، استفاه شود. بعد از این مرحله، مدل شبیه‌سازی می‌تواند به صورت تصویر آیینه‌ای از ماشین واقعی در نظر گرفته شود- می‌تواند به طور ادامه دار شرایط ماشین را در مراحل استفاده بعدی، ثبت کند. نهایتاً، همراه با ارتباط توسعه یافته که از طریق فناوری محاسبه ایجاد می‌شود، مدل ترکیب شده همچنین می‌تواند دسترسی بهتری به شرایط ماشین برای مدیران کارخانه باشد که در مواردی دسترسی به تجهیزات واقعی یا اطلاعات ماشینی، کاهش یافته است.

رسانه‌ها[ویرایش]

اینترنت اشیاء برای شناخت نحوه استفاده رسانه‌های از کلان‌داده، ضروری است که زمینه‌هایی را مکانیسمی که در فرایند رسانه استفاده می‌شود، فراهم می‌آورد. نیک کلدری و جوزف تارو پیشنهاد دادند که مشارکت در رسانه‌ها و رهیافت تبلیغاتی کلان‌داده، به عنوان نقطه‌ای است که اطلاعات میلیون‌ها افراد در تبادل قرار می‌گیرد. بنظر می‌رسد که صنعت به سمت جدا از رهیافت سنتی حرکت می‌کند و از محیطهای رسانه‌ای حاصل همانند روزنامه‌ها، مجله‌ها یا شوهای تلویزیونی استفاده می‌کند و در عوض از مصرف‌کنندگان، از طریق فناوریهایی که به هدف بهینه زمانی در موقعیت‌های بهینه رسیده است، استفاده می‌کند. هدف نهایی رفع کردن ، انتقال دادن، یک پیامی یا مضمونی (گفتگوی آماری) از طریقی است که مصرف‌کنندگان برخور می‌کنند. برای مثال، محیط‌های انتشار دارای ارتباطات پیامی پیوندی (تبلیغات) و زمینه‌ها (بندهایی) است که به مصرف‌کنندگان می‌رسد و به طور وسیع از فعالیتهای داده کاوی گوناگون بدست آمده است.

  • هدف گذاری مصرف‌کنندگان (برای تبلیغات بازاریان)
  • بدست آوردن اطلاعات

کلان‌داده و اینترنت اشیاء باهم مرتبط اند. از دید رسانه‌ای، اطلاعات عامل کلیدی ابزار آلات دارای ارتباط داخلی است و به هدف گذاری دقیق کمک می‌کند. اینترنت اشیاء، به کلان‌داده کمک می‌کند، بنابراین تبدیل صنعت، شرکتها و حتی دولت‌های راسته‌ای، حوزه جدیدی را برای رقابت پذیری و رشد اقتصادی فراهم می‌سازد. ارتباط بین افراد، اطلاعات و الگوریتم هوشمند دارای تأثیراتی برای کارایی رسانه‌ای است. ثروت اطلاعات جمع‌آوری شده به بیان کردن لایه‌های موجود در مکانیزم هدف موجود صنعت، کمک می‌کند.

فناوری ای‌بی از انباره اطلاعاتی ۷٫۵ پتا بایت و ۴۰ پتا بایت و ۴۰ پتا بایت گروه هادوپ برای پژوهش، اظهارات مصرف‌کنندگان و بازرگانی استفاده می‌کند. در شرکت ای‌بی۹۰ پتا بایت انباره اطلاعاتی دارد. Amazon.com با میلیونها عملیات انتهایی در طول روز سرو کار دارد، همچنین در بیش از نیم میلیون از فروشنده نفر سوم، پژوهش می‌کند. فناوری اصلی که که عملکرد آمازون را بر مبنای لینوکس اجرا می‌کند و از ۲۰۰۵ سومین پایگاه داده عظیم جهانی را دارد، که ظرفیت آن ۷٫۸ پتا بایت، ۱۸٫۵ پتا بایت و ۲۴٫۷ پتا بایت می‌باشد. فیس‌بوک با بیش از ۵۰ میلیارد عکس استفاده کنندگان سرو کار دارد. از اوت ۲۰۱۲ گوگل در حدود ۱۰۰ میلیارد پژوهش در هر ماه اجرا می‌کند. پایگاه داده Oracle NoSQL 1 مگ مشاهده در هر ثانیه را در ۸ قالب آزمایش کرده و به بیش از ۱٫۲ مگ عملیات در هر ثانیه در ۱۰ قالب رسیده است.

کاربردها[ویرایش]

بهداشت و درمان آناکاوی‌ کلان داده‌ها می‌تواند در صنعت بهداشت و درمان در قالب ارائه خدمات بهتر به عموم مردم کمک کند که این امر منجر به شناسایی روشهایی شخصی‌سازی شده برای درمان بیماران می‌شود. این شخصی‌سازی درمان می‌تواند منتج به افزایش سلامت جامعه و کاهش هزینه‌های دولت در بخش بهداشت و درمان شود.

آموزش کلان داده‌ها در صنعت آموزش می‌تواند به شخصی‌سازی فرایند یادگیری کمک کند. موضوعی که تا قبل از پیدایش سیستمهای یادگیری الکترونیکی و جمع‌آوری داده‌های آموزشی مطرح نبود. این شخصی‌سازی به نوبه خود می‌تواند باعث شکوفایی استعدادهای دانش‌آموزان و دانشجویان شود و پویایی محیط یادگیری را افزایش دهد.

تولید در صنعت تولید استفاده از کلان داده‌ها می‌تواند به تولید طبق نیازهای مشتری کمک کند، زمان تولید محصول را کاهش دهد. همین‌طور با استفاده از شبیه‌سازی و بهینه‌سازی با استفاده از کلان داده‌ها می‌توان خط تولید را به صورت بهینه طراحی کرد و بسیاری از عیوب خط تولید و کالاها را پیش از شروع به کار خط تولید شناسایی کرد.

خرده فروشی در صنعت خرده فروشی از کلان داده‌ها برای شناسایی بهتر نیازهای مشتریان و ارائه تبلیغات و بازاریابی سفارشی‌شده استفاده می‌شود. این شرکتها در تلاشند با جمع‌آوری داده‌های عددی، متنی و تصویری تجربه خرید مشتری از کانالهای مختلف را بهبود بخشند و بتوانند نیازهای آنان را برآورده سازند.

دولت دولت می‌تواند از کلان داده‌ها برای ایجاد شفافیت، خدمت رسانی بهتر به مردم، استفاده بهینه از منابع محدود و تخصیص بودجه به فعالیتهای موجود استفاده کند. همین‌طور می‌تواند برای کمک به مردم در زمان بحران، اطلاع‌رسانی به روشهای جدید به مردم و مبارزه با فقر و جرم و جنایت کلان داده‌ها را بکار بگیرد.

علوم اجتماعی در مطالعات علوم اجتماعی کلان داده‌ها می‌تواند ابزاری جدید برای بررسی پیچیدگی رفتار انسانها اعم از رفتارهای فردی و اجتماعی باشد و دریچه‌ای جدید برای مطرح کردن سوالهای جالب تر و یافتن الگوهایی که تا پیش از این ناشناخته بودند باشد.

ورزش در علوم ورزشی از کلان داده‌ها برای افزایش کارایی ورزشکاران در تمرین و مسابقه، پیشگیری از بروز مصدومیت و یافتن بهترین راهبرد برای مسابقات پیش رو استفاده می‌شود.[۳]

علمی[ویرایش]

آزمایش کولیدر هادرون لارج در حدود ۱۵۰ میلیون دریافت کننده اطلاعات را در ۴۰ میلیون بار در ثانیه، معرفی می‌کند. در حدود ۶۰۰ میلیون برخورد در هر ثانیه است. بعد از فیلتر و پالایش کردن بیش از ۹۹٫۹۹۹۹۹۹۵٪ از این جریانات، بیش ز ۱۰۰ برخورد در هر ثانیه وجود دارد

  • در نتیجه، فقط کارکردن با کمتر از ۰٫۰۰۱٪ از اطلاعات جریان دریافتی، جریان اطلاعات در تمامی آزمایش‌های LHC بیانگر نرخ سالانه ۲۵ پتا بایت قبل از تکرار است (از ۲۰۱۲). بعد از انعکاس نزدیک ۲۰۰ پتا بایت شده است
  • اگر همه سنسورهای اطلاعاتی در LHC ثبت شود، کار کردن با جریان اطلاعات سخت می‌شود. جریان اطلاعات دارای نرخی بیش از ۱۵۰ میلیون پتابایت در سال خواهد شد، یا نزدیک ۵۰۰ اگزا بیات در روز، قبل از انعکاس. برای تعیین اعداد در این جنبه، برابر ۵۰۰ کوانتیلیون(۵*۱۰^۲۰) بایت در هر روز می‌رسد، تقریباً ۲۰۰ برابر بیشتر از تمامی منابعی که در جهان وجود دارد.

نظم کیلومتر مربع در تلسکوپ رادیو از هزاران آنتن ساخته شده است. پیش بینی شده است که با ۲۰۲۴ عمل کند. در کل، این آنتهای پیش بینی شده است که ۱۴ اگزابایت را جمع‌آوری کنند و در یک پتا بایت در روز را جمع کنند. به عنوان یکی از بزرگترین پروژ ه‌های علمی بلند پروازان که انجام شده است، شناخته می‌شود.

علم و پژوهش

  • زمانی که Sloan Digital Sky Survey به جمع‌آوری داده‌های اخترشناسیی در ۲۰۰۰ شروع کرد، در هفته اول خود تمام اطلاعات که در گذشته جمع شده بود را گردآوری کرد. با ادامه فعالیت در نرخ ۲۰۰ گیگا بایت در هر شب، SDSS بیش از ۱۴۰ پتابایت اطلاعات را جمع‌آوری کرد. زمانی که تلسکوب ارزیابی اجمالی عظیم، برای SDSS موفقی آمیز بود، در ۲۰۱۶ بر خط شد، طراحان آن انتظار داشتند اطلاعات آن را هر ۵ روزه جمع‌آوری کنند
  • رمز گشایی ژنتیک بشر ۱۰ سال طول کشید، ولی در زمان حاضر در کمتر از یک روز بدست می‌آید. ترتیبات DNA به هزینه آن را به ۱۰۰۰۰ قسمت، در ده سال اخیر کاهش داده است؛ که ۱۰۰ برابر ارزانتر از کاهش هزینه‌های پیش بینی شده توسط قانون مور بود
  • مرکز شبیه‌سازی ناسا (NCCS)بیش از ۳۲ پتابایت مشاهده و شبیه‌سازی از از گروه سوپر کامپیوتر اکتشافی خود را جمع‌آوری کرده است
  • ذخایر DNA گوگل گردآورنده و سازمان دهنده نمونه‌های DNA از اطلاعات ژنتیکی برای سراسر جهان به منظور شناسایی بیماری هاو تأثیرات پزشکی دیگر، می‌باشد. این محاسبات سریع و دقیق، هر نوع اصطکاک یا خطاهای انسانی را که ممکن است به یک از دلایل بیشمار به وجود آید را از بین می‌برد، و کارشناسان زیست‌شناسی با DNA کار می‌کنند. ذخایر DNA، به عنوان قسمتی از ژنتیک گوگل می‌باشد که باعث می‌شود دانشمندان از این نمونه گسترده از پژوهش‌های گوگل، به منظور آزمایش‌های اجتماعی که سالهای طول می‌کشد، استفاده کنند.

فعالیت‌های پژوهشی[ویرایش]

پژوهش‌های پنهانی و اطلاعات گروهی در کلان‌داده، در مارس ۲۰۱۴ در انجمن آمریکایی آموزش مهندسی نشان داده شده است. گوانتام سویچ در اداره کردن چالشهای کلان‌داده توسط علوم کامپیوتر MIT، کتابخانه هوش مصنوعی و و دکتر امیر اسمائیلپ۷ور در گروه پژوهشی UNH هستند که خصوصیات کلیدی اطلاعات عظیم را به عنوان تشکلی گروه‌های که ارتباط داخلی دارند، بررسی کردند. آنها بر امنیت کلان‌داده و جهت گیری واقعی آن در اصرار ورزیدن بر انواع مختف اطلاعات در یک قابل پنهانی در اتصال عظیم، از طریق ایجاد تعاریف خام و مثالهای زمان واقعی در داخل فناوری، تمرکز کردند. علاوه بر آن، آنها رهیافتی را برای شناسایی روشهای تجزیه کدها برای حرکت سمت سرعت بخشیدن پژوهش‌های در طول متنهای پنهان را پیش نهاد دادند که منجر به افزایش امنیت در کلان‌داده می‌شود.

در مارس ۲۰۱۲، کاخ سفید ابتکارات کلان‌داده ملی را انتشار داد که در دپارتمانهای ۶ فدرال و آژانسهای مأمور تشکیل شده است و بیش از ۲۰۰ میلیون دلار برای پروژه‌های پژوهشی کلان‌داده در نظر گرفته است/

این ابتکار دربردارنده‌ی صندوق علمی ملی مربوط به تسریع در محاسبات است که دارای کمک ۱۰ میلیون دلاری در طول ۵ ساله آزمایش AMP در دانشگاه برکلی کالیفرنیا، بوده است. آزمایشگاه AMPL همچنین از DAEPAکمک نقدی دریافت می‌کند، و در طول ده‌ها صنعت اسپانسر دارد و تا بر دامنه وسیعی از مشکلات مربوط به پیش بینی ترافیک ازدحام مربوط به مبارزه با سرطان، مقابله کند.

طرح ابتکاری کاخ سفید در مورد کلان‌داده همچنین دربردارنده‌ی یک مأموریتی برای دپارتمان انرژی به منظور تهیه کردن ۲۵ میلیون دلار در صندوق در طول ۵ سال بود تا مؤسسه نظارت، آناکاوی‌ و مدیریت اطلاعات افزایش (SDVA) تأسیس شود، که توسط دپارتمان انرژی کتابخانه ملی برکلی لورانس، انجام شد. هدف مؤسسه SDAV جمع‌آوری کارشناسان از شش آزمایشگاه ملی و هفت دانشگاه، به منظور توسعه ابزارهای جدید برای کمک به مدیریت لمی و نظارت بر دیتا در سوپرکامپیوترهای دپارتمان می‌باشد.

ایالت ماساچوست آمریکا در می ۲۰۱۲ طرح ابتکاری کلان‌داده ماساچوست را بیان کرد که صندوقی را از دولت محلی و شرکتهای خصوصی تأسیس می‌کرد که هدف آن تنوع موسسات پژوهشی بود. مؤسسه فنی ماساچوست دارای علوم اینتل و مرکز فنی کلان‌داده در آزمایشگاه هوش مصنوعی و علم کامپیوتر MIT، ملحق شده با دولت، تعاونی و صندوق مؤسسه و فعالیت‌های پژوهشی می‌باشد.

کمیسیون اروپا یک محکمه خصوصی انتشار کلان‌داده را در طول دوسال، از طریق چارچوب برنامه هفتم، به منظور مسولیت شرکتها، دانشگاهیان و دیگر سهام دارای در بحثهای مربوط به کلان‌داده، فراهم کرده است. هدف پروژه تعریف یک استراتژی به نحوی است که در پژوهش و ابتکارات، دارای اقدامات حمایتی کمیسیون اروپا در اجرای موفق اقتصاد کلان‌داده می‌باشد. خروجی این پروژه به عنوان ورودی در افق ۲۰۲۰، برنامه چارچوبی بعدی، استفاده می‌شود. دولت انگلیس در مارس۲۰۱۴ بیان کرد که پیدایش مؤسسه Alan Turing بعد از کامپیوترهای اولویت دارد و شکننده کد، بر روشهای جدید در جمع‌آوری و آناکاوی‌ مجموعه‌های کلان‌داده تمرکز خواهد کرد.

در دانشگاه واترلو استامفورد کامپوس کانا در مورد تجربیات اطلاعات باز (CODE) در روز وحی، شرکا نشان دادن که چگونه نظارت بر اطلاعات می‌تواند به افزایش شناخت و کاربرد مجموعه کلان‌داده و ارتباط آنها با دنیا، بکار برده شود.

برای ایجاد تولیدات رقابتی در ایالات متحده (و جهان)، نیاز به یکپارچه سازی استعدادها و ابتکارات آمریکایی در تولید می‌باشد؛ بنابراین صندوق علوم ملی همکارهای دانشگاهی صنعتی را برای پژوهش در مرکز سیستم نگهداری باهوش (IMS) در در دانشگاه سینسیناتی را تأسیس کرد تا بر توسعه ابزارها و روشهای پیشگویانه پیشرفته به منظور کاربرد آن در محیط کلان‌داده، تمرکز کند. در می ۲۰۱۳، مرکز MIS یک توصیه صنعتی را برای ایجاد تمرکز بر کلان‌داده ایراد کرد که بیانگر شرکتهای صنعتی گوناگون بود که نگرانی‌ها، مسائل، و اهداف آینده در محیط کلان‌داده را بحث می‌کرد.

علوم اجتماعی محاسباتی- هر کس می‌تواند از از نرم‌افزاریهای برنامه‌ریزی مشترک (API) که توسط مالکان کلان‌داده، همانند گوگل و تویتر، تهیه می‌شود برای پژوهش در علوم اجتماعی و رفتاری استفاده کند. بیش‌تر این API به صورت رایگان تهیه می‌شد. توبیاس پریز و همکاران، از اطلاعات روندی گوگل برای نشان دادن اینکه استفاده کنندگان کامپیوتر در کشورهایی که سرمایه تولید ناخالص ملیGDP به ازای هر فرد بیشتر دارند، به احتمال بالاتری در مورد اطلاعات آیند پژوهش نجام می‌دهند نسبت به اطلاعات گذشته. یافته‌ها بیانگر این است که ممکن است بین رفتار برخط و شاخصهای اقتصادی جهان واقعی تفاوت وجود داشته باشد. نویسندگان تأخیر پژوهش‌های گوگل را با نسبت حجمی که در یک سال ایجاد می‌شود۲۰۱۱، نسبت به حجم پژوهش‌های گذشته ۲۰۰۹، نشان دادند، که به آن شاخص جهت گیری آینده گفته می‌شود. آنها شاخص جهت گیری آینده را با GDP به ازای هر سرمایه را در هر کشور مقایسه کردند و یک گرایش قوی را یافتند که استفاده کنندگان گوگل، در مورد GDP بالاتر آینده پژوهش می‌کنند. نتایج این امر را که احتمالاً بین موفقیت اقتصادی یک کشور و رفتارهای دستیابی به اطلاعات در در رفتار شهروندان که کلان‌داده را دریافت می‌کنند، رابطه باشد، را اشاره می‌کند.

توبیاس پریس و همکارانش هلن سوسانا موت و اچ. اگون استنلی روشی را بری شناسایی پیشروهای برخط به منظور حرکات بازار سهام، استفاده از استراتژی‌های مبادله بر مبنای اطلاعات حجم پژوهش که توسط رودهای گوگل تهیه می‌شود، معرفی کردند. آناکاوی‌ آنها از حجم پژوهش گوگل برای ۹۸ عبارت مختلف مالی مرتبط، در گزارش‌های علمی انتشار یافت که، بیانگر آن بود که افزایش حجم پژوهش برای پژوهش‌های مرتبط مالی همانند عبارات، مایل به جلوتر بودن هزینه‌های عظیم در بازارهای مالی است کلان‌داده از چالشهای الگوریتمی تشکیل شده است که در گذشته وجود نداشت؛ بنابراین، نیاز بنیادی به تغیر در روشهای پروسه وجود دارد.

نمونه گیری از کلان‌داده[ویرایش]

یکی از سولات پژوهشی مهم که در مورد کلان‌داده یم تواند پرسیده شود این است که آیا شما به محافظت از اطلاعات برای ایجاد نتیجه اطمینان در مورد خصوصیات اطلاعات نیاز دارید یا یک نمونه خوب کافی است. اسم کلان‌داده به خودی خود دربردارنده‌ی عبارت مرتبط با اندازه است و این ویژگی مهم کلان‌داده می‌باشد؛ ولی نمونه گیری (آماری) قادر به انتخاب نقاط اطلاعاتی درست در داخل مجموعه کلان‌داده به منظور تخمین خصوصیات کل جامعه می‌باشد. برای مثال، حدود ۶۰۰ میلیون جیرجیرک وجود دارد که در طول روز تولید می‌شود. آیا ضروری است که به تمامی آنها به منظور تصمیم‌گیری در مورد موضوع بحث‌های در طول روز مراجعه شود؟ آیا ضروری است که برای تعیین هر یک از موضوعات، به تمامی جیرجیرک‌ها مراجعه شد؟ در انواع مختلف تولید مربوط به اطلاعات دریافتی همانند صوت شناسی، ارتعاش، فشار، جریان، ولتاژ و کنترل کننده اطلاعات، در تمامی دوره‌های زمانی کوتاه مدت در دسترسی می‌باشد. برای پیش بینی، زمان کافی برای نگاه کردن برای تمام اطلاعات در دسترس نیس نیست ولی یک نمونه ممکن است کافی باشد. برخی از کارها در زمینه الگوریتم نمونه برداری کلان‌داده انجام شده است فرمول نظری نمونه برداری اطلاعات تویتر توسعه یافته است.

انتقاد[ویرایش]

انتقادات از الگوی کلان‌داده دو معنی دارد، اینکه سؤال در مورد کاربرد هر رهیافت و سؤال در مورد روش که هم‌اکنون انجام می‌شود. یک مسئله انتقادی این است که ما چیز زیادی در مورد اصول تجربی فرایندهای خرد که منجر به صوری بودین این خصوصیات شبکه‌ای برای کلان‌داده می‌شود، نمی‌دانیم. نجدر، مازات، و ریپس در انتقادشان گفتند که بیش‌تر فرضیات قوی هستند که در مورد خصوصیات ریاضی ساخته شده اسند و که نمی‌تواند همه واقعیات در سطح فرایند خرد را توضیح دهد. مارک گراهام انتقاد کریس آندرسن را توسعه داد ک کلان‌داده که کلان‌داده در آخر تئوری نوشته یم شود: تمرکز در حالت خاص بر این توه است که کلان‌داده همواره با زمینه‌های اجتماعی، اقتصادی و سیاسی همخوانی داشته باشد. حتی زمانی که شرکتها در هشت یا نه شکل کلی سرمایه گزاری می‌کنند تا چشم‌اندازی از جریان اطلاعات در مورد عرضه‌کنندگان و تقاضا کنندگان بدست بیاورند، کمتر از ۴۰٪ کارمندان فرایند را به طور کامل انجام می‌دهند و مهارت انجام را دارند. برای حل این مشکل، کلان‌داده، بدون توجه به فراگیر یا آناکاوی‌ خوب، باید توسط اتصال کلان اجرا شود، مطابق بایک مقاله در دیگاه بازرگانی هاروارد.

بیشتر در همان روش، بیان شده است که تصمیمات مبتنی بر آناکاوی‌ اطلاعات کلان ضروری است که از طریق جهان اطلاع داده شود، همان‌طور که در گذشته بو یا بهتر بود، همان‌طور که الان است. همراه با تعداد زیادی اطلاعات در مورد تجربه، الگوریتمهای می‌تواند بوجود بیاید که توانایی پیش بینی توسعه آینده را دارند، اگر آینده شبیه به گذشته باشد. اگر پویایی‌های سیستمی در تغییرات آینده باشد، گذشته می‌تواند کمی از آینده را بیان کند. برای اینکار، ضروری استکه یادگیری کلی از پویایی سیستم داشته باشیم، که در تئوری بکار می‌رود. به عنوان جوابی برای این انتقاد، پیشنهاد شده است رهیافت اطلاعات بزرگ دربردارنده‌ی، کامپیوترهای شبیه‌سازی، همانند مدهای بر مبنای عامل، و سیستمهای پیچیده باشد. مدلهای بر مبنای عامل نتایج بهتری در مورد پیچیدگی‌های اجتماعی دارند حتی در مورد سناریوهای آینده ناشناخته در شبیه‌سازی کامپیوتر که بر مبنای الگوریتم مستقل دوسره می‌باشد. علاوه بر آن، استفاده از روشهای چند گانه، که ساختار پنهانی اطلاعات را جستجو می‌کند، همانند آناکاوی‌ عام یا آناکاوی‌ گروه، اثبات شده است که رهیافت آناکاوی‌ی مناسبی است که فراتر از رهیافتهای بی – واریانت (جداول مقطعی) است که در مجموعه اطلاعات کوچک استفاده می‌شود.

در سلامیت و بیولوژی، رهیافتهای علمی مرسوم بر مبنای تجربیات می‌باشد. برای این رهیافتها، عامل کاهنده عبارت از اطلاعات مربوط می‌باشد که می‌تواند فرضیه‌های اولیه را تأیید یا تکذیب کند. یک شرط اصلی در علوم زیستی پذیرفته شده است: اطلاعاتی که در حجم زیادی جمع‌آوری شده‌اند، بدون فرضیات قبلی مکمل بوده و برخی موقع برای رهیافتهای سنتی مبتنی بر تجربیات ضروری هستند. در رهیافتهای کلان، فرمول بندی فرضیات مرتبط به منظور توضیح کلان‌داده است که عامل محدود کننده است. منطق پژوهش معکوس شده و کمبود استنتاجها در نظر گرفته شده‌اند.

انتخابات مستقل در رابطه با برخور با آزادی مطرح شده توسط انباره‌ها و همبستگی‌های افزایشی از اطلاعات قابل شناسایی شخصی می‌باشد، هیئت کارشناسی توصیه‌های سیاستی گوناگونی را به منظور تطبیق تجربیات با انتظارات در مورد استقلال، بیان کرده است.

انتقادات بر اقدامات کلان‌داده کلان‌داده که در پژوهش‌های علمی فد نامگذاری شده و استفاده‌ها آن در برخی مثالهای هزلی در قالب اطلاعات، شوخی بوده است. دانا بوید نگرانی‌ها را در مورد استفاده از کلان‌داده در اصول مورد عدم توجه علمی، همانند انتخاب یک نمونه بیان کننده با استفاده از نگرانی در مورد مدیریت واقعی حجم بزرگی از اطلاعات، را افزایش داد. این رهیافت ممکن است منجر به نتایج انحراف دار در این روش یا موراد دیگر شود. ادغام در چارچوب در منابع اطلاعات هماهنگ – ممکن است برخی کلان‌داده را در نظر بگیرند و برخی نگیرند- بیانگر منطق سختی همانند چالشهای آناکاوی‌ی است، ولی بیشتر محققان بحث می‌کنند که چنین ادعام‌های احتمالاً منجر به معرفی امید بخش بودن در مرزهای جدید علمی شود. در این مقاله محرک، سوالات بحرانی برای کلان‌داده، نویسنه کلان‌داده را به عنوان بخشی از افسانه بیان می‌کند: مجموعه کلان‌داده منر به فرم بالاتری از هوش و دانش است... ، همراه با پیش درآمدی از حقیقت هدفمندی و دقت استفاده کنندگان کلان‌داده بیش‌تر تعاد حجم خالص را از دست می‌دهند، و کارکردن با کلان‌داده همچنان غیر عینی است، و آن چیزی که تعداد آن ضروری ادعای نزدیکی در مورد درستی هدف ندارد. توسعه‌های جدید در زمینه بی ای، همانند گزارش پیش فعال بخصوص با هدف پیشرفتهای قابل استفاده کلان‌داده، از طریق مکانیز فیلتر اطلاعات غیرقابل استفاده و هم انباشتگی‌ها.

آناکاوی‌های کلان‌داده بیش‌تر به طور سایه‌ای برا آناکاوی‌‌های مجموعه اطلاعات کوچک مقایسه شده است. در بیشتر پروژه‌های بزرگ، هیچ آناکاوی‌ی در مورد کلان‌داده صورت نمی‌گیرد، ولی چالشها عبارت از استخراج، تبدیل و بارگذاری بخشی از پیش پردازش اطلاعات می‌باشد.

کلان‌داده واژه نامفهومی و عبارت مبهمی است، ول در همان زمان یک وسواس کارآفرین، مشاوره‌ای یا علمی و رسانه است. نمونه‌های کلان‌داده همانند گوگل فلو ترند، از تحویل خوب پیش بینیها در سالهای اخیر ناتوان بوده و فاجعه آنفلوآنزا را بیش از حد نشان داده است. به طور مشابه، حکمهای آکادمی و پیش بینی‌های انتخاباتی به تنهایی بر مبنای توئیتر بوده و بیش‌تر بدون هدف می‌باشد. کلان‌داده بیش‌تر بیانگر همان چالشها در اطلاعات کوچک است، و اضافه کردن اطلاعات بیشتر مشکل انحراف را حل نمی‌کند، ولی ممکن است بر مشکلات دیگر تأکید کند. در حالت خاص برخی از منابع داده‌ها همانند توئیتر، بیانگر جمعیت کلی نمی‌باشد، و نتایج حاصل از این نتیجه‌گیری می‌تواند نادرست باشد. گوگل ترانسلیت- که بر مبنای آناکاوی‌های آماری کلان‌داده در مورد متن می باش – کار مناسبی را برای ترجمه صفحات وب انجام داده است. با این حال، نتایج حاصل از محدوده‌های خاص می‌تواند چولگی زیاد داشته باشد. از طرف دیگر، ممکن است کلان‌داده منجر به مشکل جدید شود، همانند مشکل مقایسه چند گانه: آزمایش همزمان مجموعه فروض بزرگ، احتمالاً نتایج غلطی تولید کند که اشتباه آنها چشم گیر باشد. آیونیدیز بحث می‌کند که یافته‌های پژوهشی انتشار شده بیش‌تر غلط هستند، که ناشی از همان اثر است: زمانی که گروهای علمی و محققان هر کدام آزمایش‌هایی انجام می‌دهند (فرایند بزرگ مقدار از اطلاعات علمی، هر چند همراه با فناوری کلان‌داده نباشد)، احتمالاً نتایج چشمگیر در حالت واقعی رشید سریع نادرستی داشته باشد- حتی بیشتر، زمانی که فقط نتایج مثبت نشر می‌شود.

جستارهای وابسته[ویرایش]

منبع‌ها[ویرایش]

https://en.wikipedia.org/wiki/Big_data