داده‌های عظیم

از ویکی‌پدیا، دانشنامهٔ آزاد
(تغییرمسیر از بزرگ‌داده)
پرش به: ناوبری، جستجو

داده‌های عظیم، ابر داده، بزرگ‌داده یا داده‌های بزرگ (به انگلیسی: Big data) اصطلاحی است که به مجموعهٔ داده‌هایی اطلاق می‌شود که مدیریت، کنترل و پردازش آنها فراتر از توانایی ابزارهای نرم‌افزاری در یک زمان قابل تحمل و مورد انتظار است. مقیاس بزرگ‌داده، به طور مداوم در حال رشد از محدودهٔ چند ۱۰ ترابایت به چندین پتابایت، در یک مجموعهٔ داده واحد است. نـمونه‌هایی از بزرگ‌داده، گــزارش‌های وبی، سامانه‌های بازشناسی با امواج رادیویی، شبکه‌های حسگر، شبکه‌های اجتماعی، متون و اسناد اینترنتی، نمایه‌های جستجوهای اینترنتی، نجوم، مدارک پزشکی، آرشیو عکس، آرشیو ویدیو، پژوهش‌های زمین‌شناسی و تجارت در مقیاس بزرگ هستند. [۱] داده های عظیم واژه ای برای مجموعه داده های بسیار بزرگ، یا پیچیده است که تجهیزات تحلیل داده های مرسوم ناکافی می باشد. چالشها شامل آنالیزها، تصور، گزینش داده ها، تحقیق، اشترک گذاری ف ذخیره، مبادله، تصور و استقلال اطلاعات می باشند. عبارت اغلب بر ساده سازی استفاده از تحلیل های پیشگویانه یا روشهای پیشرفته دیگر برای استخراج ارزش اطلاعات، اشاره دارد و به ندرت برای مجموعه اطلاعات اندازه خاصی در نظر می گیرد. دقت موجود در داده های عظیم ممکن است به اطمینان بیشتر بر تصمیم گیری شود. و تصمیمات بهتر می تواند به معنای کارایی عملیاتی بزرگتر، کاهش هزینه و کاهش ریسک باشد. تحلیل مجموع داده ها می تواند همبستگی های جدید را پیدا کند، که مربوط به روندهای تجارت نقطه ای، جلوگیری از بیماری، جرایم جنگی و ...می باشد. دانشمندان، روسای تجاری، کارورزان صدا و سیما، و تبلیغات و دولت ، همانند مقررات ، باعث مشکلاتی برای داده های عظیم در حوزه های مانند جست وجوی اینترنتی، مالی و اطلاعات تجاری می شود. دانشمندان با محدودیت هایی در کارهای علوم e مواجه اند که شامل هواشناسی، ژنتیک و اطلاعات ، شبیه سازی فیزیکی پیچیده، و تحقیقات محیط زیستی و بیولوژیکی می باشد. اندازه مجموعه اطلاعاتدر بخشی افزایش می یابد، بدلیل اینکه آنها از طریق ابزار موبایل که ارزان و بیش شمارند،آنتن هوایی(دریافت از راه دور)، وقفه نرمافزاری، دوربین ها، میکروفن ها، خوااننده فاکانس رادیویی مشخص، و شبکه های دریافت بی سیم، جمع آوری می شود. ظرفیت جهانی تکنولوژی در هر واحد سرمایه ، به منظور جمع آوری اطلاعات از دهه 1980 هر 40 ماه دو برابر می شود. از سال 2012 هر روزه 2.5 اگزابایت (2.5×1018) اطلاعات ایجاد شده است. چالش موسسات بزرگ این است تعیین کنند که چه کسی ابتکار عملیات داده های عظیم را دارا می باشد که کل سازمان را در بر میگیرد. کارکردن با داده های عظیم به طور ضروری نادر می باشد؛ بیشتر تحلیل ها در مورد اطلاعات سایز PC ، مربوط به صفحه نمایش PC یا نوتبوک است ، که میتواند مربوط به مجموعه اطلاعات قابل دسترسی باشد. سیتمهای مدیریت پایگاه داده رابطه ای، و وضعیت صفحه نمایشو بسته تصویری اغلب با مشکلاتی در رابطه با دستکاری در داده های عظیم مواجه اند. در عوض اینکار به اجرای نرما افزاری به طور همزمان در حجم گسترده و با ده ها، صدها، و حتی هزاران سرور ، نیاز دارد. آن چیزی که به عنوان داده های عظیم در نظر گرفته میشود، بر مبنای تواناییهای استفاده کنندگان از وسایل ، تفاوت دارد و گسترش توانایی ها برای ایجاد داده های عظیم یک هدف می باشد. بنابراین، هر آنچه که عظیم در نظر گرفته می شوددر یک سال بعد عادی می شود. برای برخی سازمانها، که با صدها گیگا بایت اطلاعات برای اولین بار مواجه اند، ممکن به در نظر گرفتن دوباره اختیارات مدیریت اطلاعات نیاز احساس شود. برای دیگران، ممکن است ده ها یا صدها ترابایت باید حجم اطلاعات افزایش یابد تا به عنوان قابل توجه در نظر گرفته شود.

معادل فارسی[۲][ویرایش]

  • داده‌های عظیم: این عنوان بدلیل اینکه ریشه عربی دارد پیشنهاد نمی‌شود. ضمن اینکه بیشتر معادل کلماتی نظیر 'Huge'، 'Great و 'Enormous' می‌باشد.
  • داده‌های انبوه: انبوه بیشتر اشاره به واژه‌هایی نظیر 'dense' و 'mass' داردو بعنوان معدل برای big مناسب به نظر نمی رسد.
  • داده‌های حجیم: این عنوان بنظر مناسب نیست زیرا بیشتر به بعد 'Volume' یا حجم که یکی از مشخصات حوزه 'Big Data' است اشاره می‌کند.
  • بزرگ داده: این واژه در حال حاضر بیشتر برای معادل کلمه 'Large' استفاده می‌شود. (نظیر Large Scale: مقیاس بزرگ) و بنابراین پیشنهاد نمی‌شود.
  • وزرگ داده: این عنوان همان بزرگ است که در فارسی قدیم برای اشاره به عظمت مقام و یا وسعت قلمرو (معادل 'Great' و 'Vast') استفاده شده است.
  • کلان داده: این عنوان به نظر می‌رسد که برای 'Big Data' مناسبتر باشد. زیرا ترکیبات مشابه دیگری نیز دارد که ترجمه کلان برای آنهای نیز استفاده می‌شود (نظیر 'Big Approach': رویکرد کلان)
  • داده های بزرگ: این عنوان به نظر می‌رسد مناسب ترین معادل برای 'Big Data' باشد. زیرا هم به لحاظ مفهومی به Big اشاره دارد و هم از نظر مفرد یا جمع بودن، با Data همخوان است.


تعریف[ویرایش]

تعریف گارتنر از 3V همچنان در سطح وسیعی مورد استفاده قرار میگیرد، و در توافقات یک تعریف پذیرفته شده وجود دارد که بیانگر این است که " داده های عظیم بیانگر دارایی های اطلاعاتی است که دارای خصوصیاتی از قبیل حجم بالا، تکنولوژ و سرعت و تنوع نیاز به روشهای تحلیلی مخصوص برای اطلاعات مربوط به ارزش، می باشد. داده های عظیم معمولا شامل مجموعه اطلاعاتی است که به طور معمول فراتر از حدی است که بتواند در ابزارهای تصویر، مدیریتی و فرآیند اطلاعات در زمان قابل قابل تحمل که تمام میشود، استفاده شود. اندازه داده های عظیم به طور ثابت به مقدار هدف نزدیک میشود، از سال 2012 که در حد چند ترابایت بوده به پتا بایت رسیده است. داده های عظیم مجموعه ای تکنیک ها و تکنولوژیهایی است که که به فرم جدیدی از دسته بندی به منظور مشخص کردن ارزشهای پنهانی عظیم ، از پایگاه داده های عظیم که تغییر کرده، پیچیده شده و دارای مقیاس عظیمی است، مورد نیاز می باشد. در سال 2001 گزارش تحقیقی و ادبیات مربوطه، گروه متا( الان گارتنر)، داگ لنی به این نتیجه رسید که جالشها و فرصتهای توسعه اطلاعات دارای سه بعد می باشد، به معنای حجم افزایشی (مقدار اطلاعات)، سرعت ( سرعت اطلاعات خروجی و ورودی)، و تنوع ( دامنه نوع اطلاعات و منابع). گراتنر، و تعداد بیشتری از صنایع، به استفاده از این مدل 3V برای توصیف داده های عظیم استفاده کردند. در 2012، گارتنر تعریف خود را بصورت زیر بروز کرد: داده های عظیم دارای حجم زیاد، سرعت بالا، و/یا تنوع بالای دارایی های اطلاعاتی است که به فرم جدیدی از ترفیع فرآیند توانایی تصمیم گیری ، اکتشافات درونی، و فرآیند بهینه سازی، نیاز دارد. 3V در خصوصیات تکمیلی مربوط به داده های عظیم توسعه یافته است: • حجم: حجم اطلاعات نمونه ندارد. این فقط اتفاقات را مشاهده و ثبت می کند • سرعت: داده های عظیم اغلب در زمان واقعی در دسترس است • تنوع: داده های عظیم از متن، تصاویر، صدا، ویدئو بدست می آید، به علاوه از طریق اتصال داده ها قیمت های جامانده را کامل می کند. • یادگیری ماشین:داده های عظیم اغلب چرایی را نمی پرسند و فقط الگوها را پیدا میکنند • جایگاه دیجیتالی: داده های عظیم اغلب محصولات بدون هزینه از تعاملات دیجیتالی می باشد

رشد مفهوم باعث ایجاد تفاوت هایی بین داده های عظیم و هوش تجری ، در رابطه با اطلاعات و استفاده های آنها می شود: • هوش تجری از آمارهای توصیفی همراه با اطلاعات و حجم بالای اطلاعاتی برای اندازه گیری و پیدا کردن روندها استفاده می کند • داده های عظیم از آماره های استقرایی و مفاهیم برابرسازی سیستمی غیر خطی، برای قوانین استنباطی ( رگرسیون، رابطه غیر خطی، و تاثیر علی ) از مجموعه های عظیم اطلاعات که دارای حجم اطلاعاتی کمتری هستند، استفاده می کند. برای نشان دادن رابطه ها، وابستگی ها و انجام پیشگوییهای مربوط به درآمد ورفتارها استفاده میشود. در ورد خاص مقاله آموزیش در جورنال IEEE Acces انتشار یافته است، نویسنده تعاریف موجود از داده های عظیم را در سه دسته با نام های تعاریف ویژگی ها، تعاریف قیاسی و تعاریف ساختاری دسته بندی کرده است. همچنین نویسندگان نقشه تکنولوژی داده های عظیم را معرفی کرده ان که ارزیابی فنی کلیدی مربوط به ارزیابی داده های عظیم را نشان می دهد.

مشخصات[ویرایش]

داده‌های عظیم میتوانند بر اساس مشخصات زیر تعریف شوند:

حجم - مقدار داده‌های تولید شده در این زمینه بسیار مهم است. اندازه داده‌ها ارزش و پتانسیل داده‌های مورد توجه به آن را تعیین می‌کند تا جایی که میتوان تصمیم گرفت که داده عظیم محسوب میشود یا خیر. نام 'داده‌های عظیم' به خودی خود شامل موضوعی است که نشان دهنده رابطه با اندازه زیاد داده می باشد.

تنوع - جنبه بعدی در داده‌های عظیم تنوع آن است. این بدان معنی است که دسته بندی داده‌های عظیم به ضرورت نیاز شناسایی شده توسط تحلیلگران داده دارد.این به افراد کمک می‌کند تا داده‌های و ارتباطتشان را دقیق تر تحلیل کنند تا از مزایا و رعایت اهمیت داده‌های عظیم به طور موثر استفاده کنند.

نرخ تولید - اصطلاح 'نرخ تولید' در این موضوع به سرعت تولید داده اشاره دارد و یا چگونگی سرعت تولید و پردازش داده‌ها برای پاسخگویی به خواسته‌ و چالش‌های پیش رو در مسیر رشد و توسعه است. صحت کیفیت اطلاعات استفاده شده، می تواند بزرگ باشد. تحلیل دقیق به صحت اطلاعات منبع بستگی دارد. پیچیدگی مدیریت اطلاعات می تواند بسیار پیچیده باشد، بخصوص زمانیکه حجمهای عظیم از اطلاعات اسفتاده میشود. اطلاعات باید مرتبط، متصل و هماهنگ باشد که مصرف کنندگان می توانند اطلاعات را که انتقال می یابد را بدست می آورد. کار کارخانه ای و سیستم فیزیکی سایبری می تواند یک سیستم 6C داشته باشد: • ارتباطات ( سنسور و شبکه ها) • توده (محاسبه و اطلاعات مورد تقاضا) • سایبر (مدل و حافظه) • مضمون/ ضمینه ( معنا و همبستگی) • جامعه ( به اشتراک گذاری و همدستی) • تغییر ( شخصی سازی و ارزش) اطلاعات باید توسط ابزارهای پیشرفته ( تحلیلی و الگوریتمی) تکمیل شود تا اطلاعات پرمعنی را آشکار سازد. در نظر گرفتن مسائل قابل مشاهده و غیر قابل مشاهده،برای مثال یک کارخانه،الگوریتم تولید اطلاعات باید مسائل قابل مشاهده را در کفت کارخانه پیدا کرده و شناسایی کند، همانند فرسودگی ماشین، خوردگی اجزا، و.. .

طراحی[ویرایش]

در سال 2000، شرکت سیزینت یک توزع بر مبنای شبکه توزیع فایل C++ برای جمع آوری و تحقیق توسعه داد. سیستم به جمع آوری و توزیع اطلاعات ساختاریافته، نیمه ساختار، و بدون ساختار در سرورهای خود کرده است. استفاده کنندگان می توانند تحقیقات را بر مبنای یک C++ اصلاح شده که ECL نامیده میشود انجام دهند. ECL از یک روش برای اجرای برنامه در مسیر، استفاده می کن تا ساختار اطلاعات جمع آوری شده را در طول تحقیق استنباط کند. در 2004، لگزیس نگزیس شرکت سیزینت را تصاحب کرد و در سال 2008 شرکت چویزپوینت را تصاحب کرد، و پایگاه پروسه همزمان با سرعت بالا را هم تصاحب کرد. این دو پایگاه در قالب سیستمهای HPCC ادغام شدند و در سال 2011 HPCC, بر اساس مجوز Apache v2.0 منبع باز بود. در حال حاضر HPCC , و سیستم فایل کوانت کست، تنها پایگاه های عمومی بودند که توان تحلیلهای اطلاعات اگزا بایتی را داشت. در سال 2004، گوگل مقاله ای را در مورد فرایند مپ ردیوس انتشار داد که به عنوان طراحی استفاده میشود. چارچوب مپردیز یک مدل پروسه همزمان را فراهم می آورد که با اجرای فرآیند های داده های عظیم سر و کار دارد. همره با مپ ردیوس، تحقیقات تقسیم شده و به گرهای همزمان توزیع می شود و به طور همزمان تکمیل می شود ( مرحله نقشه). نتیاج جمع آوری شده و تحویل داده می شود ( مرحله کاهش). چارچوب خیلی موفق بود. بنابراین دیگران خواستند تا الگوریتم را تکرار کنند. بنابراین، یک اجرای چارچوب مپ ردیوس توسط پروژه منبع-باز آپاچ بروز شده است که هادوپ نام دارد. MIKE2.0 یک رهیافت باز مربوط به مدیریت اطلاعات می باشد که تایید آن به تجدید نظر ناشی از داده های عظیم نیاز دارد که در یک مقاله با نام راه حل های پیشنهادی داده های عظیم شناسایی شده است. روشی که به شناسایی اطلاعات عظسم سرو کار دارد در عبارات مفید تبدیل منابع اطلاعات، پیچیدگی روابط درونی و مشکلات حذف کردن (اصلاح کردن) یادداشت های فردی وجود دارد. مطالعات اخیر بیانگر این است که استفاده از طراحی چندلایه ای یک اختیار در رابطه با داده های عظیم می باشد. طراحی توزیع موازی ، اطلاعات را در چند پروسه چندگانه توزع می کند و فرایند موازی واحدها اطلاعات را ، از طریق بهبود سرعت فرآیند، سریعتر ایجاد می کند. این طراحی اطلاعات را وارد DBMS موازی وارد میکند که چارچب مپ ردیوس و هواپ را تشکیل می دهد. بنظر می رسد که این نوع شبکه فرایندی را برای شفاف سازی قدرت در استفاده کنندگان نهایی ، با استفاده از سرور نرم افزار جلو-عقب تشکیل می دهد. تحلیل اطلاعات بزرگ برای تجهیزات تولیدی می تواند مبنایی برای طراحی 5C تشکیل دهد ( ارتباطات، تبدیل، سایبر، شناخت و موقعیت). برکه اطلاعات به یک سازمان اجازه می دهد تا تمرکز خود از کنترل مرکزی به یک مدل اشتراک گذاری تغییر دهد تا به تغییرات پویا در مدیریت اطلاعات واکنش دهد. این امر به جداسازی سریع اطلاعا به دریاچه اطلاعات کمک می کند، که در قسمت اور کاهش می یابد.

تکنولوژیها[ویرایش]

داده های عظیم به تکنولوژیهای استثنایی نیاز دارد تا پروسه تعداد عظیمی از داده ها را در زمان قابل تحمل، انجام دهد. گزارش ئک کینزی در 2011 پیشنهاد می دهد که تکنولوژیهای مناسب شامل آزمانش A/B، منابع خام، اتصال داده ها، و یکپارچگی ، الگوریتم هوشیارانه، یادگیری ماشین، فرآیند زبان طبیعی، فرآیند سیگنا، شبیه سازی، تحلیل سری زمانی و تصویر سازی می باشد. داده های عظیم چند بعدی می تواند توسط تانسوط بیان شود که ، می تواند به طور موثرتر محاسبات بر مبنای تنسور را انجام دهد، همانند یادگیری سطح کوچک چند خطی. تکنولوژیهای اضافی که در داده های عظیم مورد استفاده قرار میگیرند شامل پروسه موازی عظیم (MIPP)، پایگاه داده ها، تجهیزات مبنای تحقیق، دیتا کاوی، سیستم های فایل توزیع شده، پایگاه داده های توزیع شده، زیر ساختار بر اساس توده (تجهیزات، جمع آوری و محاسبه منابع) و اینترنت می باشد. برخی ولی نه همه پایگاه داده های مرتبط با MPP این توانایی را دارند اطلاعات در حجم پتابایت را مدیریت و ذخیره کنند. اشاره شد که توانایی بارگذاری، تصویر، بک آپ ، و بهینه سازی استفاده از جدول داده های عظیم در RDBMS صورت میگیرد. برنامه تحلیل اطلاعات فنی DARPA به ساختار پایه ای از مجموعه داده های عظیم رسیده است و در 2008، این تکنولوژی با راه اندازی یک شرکت به نام آوازدی عمومی شد. مشارکت کنندگان در پروسه تحلیل داده های عظیم، به طور عمومی دارای ذخایر اشتراکی کند تر ، ذخایر که بدست آوردن مستقیم را ترجیح میدهند (DAS) در فرمهای گوناگون خود از ماشین با وضعیت جامد (SSD) برای ظرفیت بالای دیسک SATA در گره های فرآیندی موازی قرار میگیرد، می باشد. آگاهی از طراحی های ذخایر اشتراکی – شبکه حوزه ذخیره (SAN) درو انباره شبکه های متصل (NAS)- به طور نسبی آهسته تر، پیچیده تر و گرانتر ازست. این کیفیت ها با سیستمهای تحلیل داده های عظیم سازگاری ندارد، که در عملکرد، زیرساخت محصولات و هزینه پایین ، پیشرفت کرده است. تحویل اطلاعات واقعی یا شبه واقعی، یکی از خصوصیات تعریف در تحلیلهای داده های عظیم می باشد. بنابراین هر زمان که ممکن باشد این تاخیر صورت می گیرد. اطلاعات حافظه خوب است – اطلاعات در ریسکهای ریسندگی در انتهای دیگر از اطلاعات FC SAN نیستند. هزینه SAN در مقیاس مورد نیاز برای تحلیل تجهیزات، بسیار بیشتر از تکنیکهای ذخیره سازی دیگر می باشد. ذخایر به اشتراک گذاشته شده درای منافع و ضررهایی در تحلیلهای داده های عظیم هستند، ولی نماینده های تحلیلی داده های عظیم از 2011 ، دلخواه نبودند.

تجهیزات[ویرایش]

داده های عظیم باعث افزایش تقاضا برای متخصصان مدیریت اطلاعات شده و در زمینه های نرم افزار AG، شرکت اوراکل، IBM، مایکروسافت ، SAP, EMC,HP و Dell بیش از 15 میلیارد دلار در متخصصسن شرکتهای نرم افزاری برای مدیریت و تحلیل داده ها استفاده کردند. در 2010، این صنعت بیش از 100 میلیارد دلار ثروت داشت و در سال ده درصد رشد می یافت، که تقریبا دو برابر رشد صنعت نرم افزاری بود. اقتصادهای توسعه یافته به طور مضاعف از تکنولوژهای اطلاعات بر استفاده می کند. حدودت 4.6 میلیات تلفن موبایل در سراسرجهان است و در حدود یک تا دو میلیارد نفر به اینترنت دسترسی دارن. بین 1990 تا 2005، بیش از یک میلیارد نفر وارد طبقه میانی شدند.به این معناکه سواد افراد زیادی افزایش یافتهاست که منجر به رشد اطلاعات شده است. ظرفیت موثر جهانی برای مبادله اطلاعات از طریق شبکه های مخابراتی در 1986، 281 پتابایت ، در 1993، 471 پتابایت، در 2000، 2.2 اگزابایت، در 2007، 65 اگزابایت، بوده و پیش بینی شده است که حجم ترافیک اینترنتی تا سال 2014، سالانه 667 اگزابایت باشد. بر اساس یک پیش بینش از یک سوم از اطلاعات جمع شده در سراسر جهان، متن الفبایی بوده و همچین اطلاعات تصویری بوده که در در نرم افزارهای داده های عظیم ، مفید تر است. همچنین بیانگر ظرفیت استفاده نشده از اطلاعات می باشد ( در قابل متنهای ویدوئی و صوتی). در حالیکه بیشتر شرکتها راه حل از قفسه را برای داده های عظیم پیشنهاد می دهند، کارشناسان به توسعه راه حل در خانه که مناسب مشتری باشد ، برای حل مشکلات شرکت ، در صورتی که شرکت دارای ظرفیتهای فنی کافی باشد، تاکیددارند.

دولت[ویرایش]

استفاده و قبول داده های عظیم در پروسه دولت سودمند بوده و به کارایی در هزینه ها، بهره وری و ابداعات منجر می شود. گفته شده است که این فرآیند بدون نقص نیست. تحلیل اطلاعات اغلب به چند بخش از دلت نیاز دارد (مرکزی و محلی) تا در همکاری و ایجاد فرآیندهای جدید و ابتکاری در تولید محصول دلخواه، کار کند. در زیر مثالهایی برای فضای داده های عظیم دولتی بیان شده است.

ایالات متحده آمریکا • در 2012، رئیس جمهور اوباما مشوق هایی را برای تحقیق و توسعه داده های عظیم انتشار داد، تا کشف کند که چگونه داده های عظیم برای حل مشکلات رو در روی دولت استفاده می شود. این ابتکارات مرکب از 84 برنامه مختلف داده های عظیم در 6 دپارتمان بود • تحلیل داده های عظیم نقش بزرگی را در مورفق باراک اوباما در انتخاب مجدد ایفا کرد • دولت فدرالی ایالات متحده شش تا از ده ورد سوپر کامپیوتر در سراسر جهان را تصاحب کرد • مرکز اطلاعات Utah در حال حاظر یک مرکز اطلاعات است که توسط آژانیس امنیت ملی ایالات متحده ساخته شده است. در زمان اتما، این تجهیزات قادر بودن تاحجم عظیمی از اطلاعات که توسط NSA در اینترنت جمع شده بود را اداره کند. مقدار دقیق از حجم انباره ناشناخته است، ولی منابع تازه ادعا دارند که در حدود چند اگزابایت است

هند • تحلیل داده های عظیم در برخی بخشهای مربوط به مسولیت پذیری BJP و متحدانش برای برنده شده در انتخابات عمومی2014 هند، موثر بوده است • دولت هند از روشهای مختلفی استفاده می کند تا مشخص کند که چگونه انتخابات هند چگونه به انتخاب دولت واکنش نشان می دهد، همانند ایده هایی برای تقویت نیرو.

بریتانیا چند مورد از استفاده های داده های عظیم در خدمات عمومی عبارتند از: • اطلاعات مربوط به نسخه داروه: با ارتباط اصل، موقعیت و زمان هر نسخه، یک واحد تحقیق قادر به نشان دادن تاخیر قابل توجه بین صدور و تحویل دارو است، و پذیرش راهنمای عالی مروبط به موسسه ملی سلامت، در سطح بریتانیا مورد قبول است. این امر پیشنهاد می دهد که برخی داروهای جدید ، طول می کشد تا به بیماران عمومی تحویل داده شود. • الحاق داده ها: یک محلی اطلاعات مربوط به خدمات، همانند مسیرهای استحکام جاده ها را با خدمات برای افراد در ریسک، همانند خوراک چرخ ها، ترکیب می کنند. ارتباط اطلاعات باعث می شود تا حکومت محلی از تاخیرهای مرتبط اجتناب ورزد.


توسعه بین المللی[ویرایش]

تحقیقات در مورد استفادههای موثر از تکنولوژی های ارتباطی و اطلاعات برای توسعه (ICT4D)، پیشنهاد می دهد که تکنولوژی اطلاعات می تواند عملکرد خوبی داشته باشدول همچنین چالشهای رابرای توسعه بین المللی دارد. پیشرفت در تحلیلهای داده های عظیم، فرصتهای هزینه موثر رابرای توسعه تصمیم گیری در حوزه تصمیمات بحرانی، همانند محافظت از سلامتی استخدام، بهره وری اقتصادی، جریمه، امنیت، طوفانهای طبیعی و مدیریت منابع، فراهم می آورد. با این حال، چالشهای بلند مدت برای توسعه حوزه هایی همانند ساختار تکنولوژی ناکافی دارد و منابع انسانی و اقتصادی بدتر شده و نگرانیهایی را در رابطه با استقال، روش ناکافی و مسائل قابل همکاری با مسائل دیگر، بوجود می آورد.

تولید[ویرایش]

بر مبنای مطالعات روند جهانی TCS 2013، بهبود در نقشه عرضه و کیفیت محصولات، بزرگترین منافع را برای تولید داده های عظیم فراهم می آورد. داده های عظیم یک چارچوبی را برای شفافیت در تولیدات صنعتی فراهم می آورد که توانایی حل کردن نا اطمینانیهایی همانند اجزای عملکردی نا مناسب و در دسترس ، را فراهم می سازد. تولید پیشگویانه همانند رهیافت قابل اجرا برای اجرای کاهش زمان مورد نیاز برای حجم عظیمی از داده ها و ابزارهای پیشگویانه پیشرفته برای فرآیند سیتماتیک در مورد اطلاعات مورد استفاده می باشد. یک چارچوب مفهومی از تولیدات همراه با کسب اطلاعات بوده است که انواع مختلف از اطلاعات قابل دریافت می باشد، همانند صوت شناسی، ارتعاش ، فشار ، جریان ، ولتاژی و کنترل کننده اطلاعات. حجم عظیمی از اطلاعات قابل ملموس ، علاوه بر اطلاعات تاریخی مبتنی بر تولید داده های عظیم می باشد. داده های عظیم ایجاد شده همانند نهاده های ابزار پیش بینی و استراتژیهای پیشگیرانه همانند وابسته به آثار بیماری و مدیریت سلامتی می باشد.(PHM).

مدل های فیزیکی-سایبری اجراهای PHM اخیر بیشتر از اطلاعات در طول استفاده های واقعی استفاده می کند در حالیکه الگوریتم تحلیلی می تواند در صورتی که اطلاعات مربوط به چرخه حیات ماشین، همانند شکل سیستمی، دانش فیزیکی و قواعد کار، باشد ، دقیقتر باشد. در اینجا به هماهنگی سیستماتیک، مدیریت و تحلیل ماشینی یا پروسه اطلاعت در مورد مراحل چرخه ماشین برای اداره کردن اطلاعات ، با کارایی بیشتر و دستیابی به شفافیت بیشتر در مورد شرایط سلامتی ماشین در صنعت تولیدی، نیاز می باشد. با چنین انگیزه هایی برنامه مدل فیزیکی سایبی، توسعه یافته است. این مدل اتصال یافته یک دقولوی دیجیتالی از ماشین واقعی است که در پایگاه انبوه عمل می کند و شرایط سلامتی را با دانش هم انباشته از هر دو نوع اطلاعات الگوریتم تحلیلی، همانند دانشهای فیزیکی قابل دسترس، فراهم می آورد. می تواند همانند رهیافت سیستماتیک 5C توصیف شود که متشکل از دریافت، ذخیره ، همزمانی، ترکیب و خدمات می باشد. مدل ترکیبی در مرحله اول از تصاویر دیجیتاتی مربوط به طراحی مرحله اول تشکیل شده است. اطلاعات سیستمی و دانش فیزیکی در طراحی محصولات ، جدول بندی شده است، که بر مبنای مدل همزمانی می باشد که به عنوان منبعی برای تحلیلهای آینده می باشد. پارامترهای اولیه ممکن است که به طور آماری عمومی شود و می تواننده به اطلاعات قابل استفاده در آزمایش و ساختار فرآیند تخمین پارامترها ، استفاه شود. بعد از این مرحله، مدل شبیه سازی می تواند به صورت تصویر آیینه ای از ماشین واقعی در نظر گرفته شود- می تواند به طور ادامه دار شرایط ماشین را در مراحل استفاده بعدی، ثبت کند. نهایتا، همراه با ارتبطا توسعه یافته که از طریق تکنولوژی محاسبه ایجاد می شود، مدل ترکیب شده همچنین می تواند دسترسی بهتری به شرایط ماشین برای مدیران کارخانه باشد که در مواردی دسترسی به تجهیزات واقعی یا اطلاعات ماشینی ، کاهش یافته است.

اجراهای PHM اخیر بیشتر از اطلاعات در طول استفاده های واقعی استفاده می کند در حالیکه الگوریتم تحلیلی می تواند در صورتی که اطلاعات مربوط به چرخه حیات ماشین، همانند شکل سیستمی، دانش فیزیکی و قواعد کار، باشد ، دقیقتر باشد. در اینجا به هماهنگی سیستماتیک، مدیریت و تحلیل ماشینی یا پروسه اطلاعت در مورد مراحل چرخه ماشین برای اداره کردن اطلاعات ، با کارایی بیشتر و دستیابی به شفافیت بیشتر در مورد شرایط سلامتی ماشین در صنعت تولیدی، نیاز می باشد. با چنین انگیزه هایی برنامه مدل فیزیکی سایبی، توسعه یافته است. این مدل اتصال یافته یک دقولوی دیجیتالی از ماشین واقعی است که در پایگاه انبوه عمل می کند و شرایط سلامتی را با دانش هم انباشته از هر دو نوع اطلاعات الگوریتم تحلیلی، همانند دانشهای فیزیکی قابل دسترس، فراهم می آورد. می تواند همانند رهیافت سیستماتیک 5C توصیف شود که متشکل از دریافت، ذخیره ، همزمانی، ترکیب و خدمات می باشد. مدل ترکیبی در مرحله اول از تصاویر دیجیتاتی مربوط به طراحی مرحله اول تشکیل شده است. اطلاعات سیستمی و دانش فیزیکی در طراحی محصولات ، جدول بندی شده است، که بر مبنای مدل همزمانی می باشد که به عنوان منبعی برای تحلیلهای آینده می باشد. پارامترهای اولیه ممکن است که به طور آماری عمومی شود و می تواننده به اطلاعات قابل استفاده در آزمایش و ساختار فرآیند تخمین پارامترها ، استفاه شود. بعد از این مرحله، مدل شبیه سازی می تواند به صورت تصویر آیینه ای از ماشین واقعی در نظر گرفته شود- می تواند به طور ادامه دار شرایط ماشین را در مراحل استفاده بعدی، ثبت کند. نهایتا، همراه با ارتبطا توسعه یافته که از طریق تکنولوژی محاسبه ایجاد می شود، مدل ترکیب شده همچنین می تواند دسترسی بهتری به شرایط ماشین برای مدیران کارخانه باشد که در مواردی دسترسی به تجهیزات واقعی یا اطلاعات ماشینی ، کاهش یافته است.

محافظت از سلامتی[ویرایش]

تحلیل داده های عظیم به بهبود حفاظت از سلامتی ، از طریق ایجاد داروهای شخصی و تحلیلهای چشم اندازی، مداخله ریسک کلینیکی و تحلیلهای پیشگویانه ، کاهش انحرافات محافظتی و اتلاف، اتومات کردن گزارشات داخلی و بیروین برای بیماران، استاندراد سازی عبارات پزیکش، و ثبتهای بیماران و چند راه حله ، کمک می کند.

رسانه ها[ویرایش]

اینترنت وسایل(loT) برای شناخت نحوه استفاده رسانه های از داده های عظیم، ضروری است که زمینه هایی را مکانیزیمی که در فرآیند رسانه استفاده میشود، فراهم می آورد. نیک کلدری و جوزف تارو پیشنهاد دادند ه مشارکت در رسانه ها و رهیافت تبلیغاتی داده های عظیم ، به عنوان نقطه ای است که اطلاعات میلیون ها افراد در تبادل قرار میگیرد. بنظر می رسد که صنعت به سمت جدا از رهیافت سنتی حرکت می کند و از محیطهای رسانه ای خاصل همانند روزنامهها، مجلهها یا شوهای تلویزیونی استفاده می کند و در عوض از مصرف کنندگان، از طریق تکنولوژیهایی که به هدف بهینه زمانی در موقعیت های بهینه رسیده است، استفاده می کند. هدف نهایی رفع کردن ، انتقال دادن ، یک پیامی یا مضمونی (گفت و گوی آماری ) از طریق است که مصرف کنندگان برخور می کنند. برای مثال، محیط های انتشار دارای ارتباطات پیامی پیوندی ( تبلیغات) و ضمینه ها(بندهایی) است که به مصرف کنندگان می رسد و به طور وسیع از فعالیتهای دیتا کاوی گوناگون بدست آمده است. • هدف گذاری مصرف کنندگان (برای تبلیغات بازاریان) • بدست آوردن اطلاعات داده های عظیم و IoT باهم مرتبط اند. از دید رسانه ای، اطلاعات عامل کلیدی ابزارات دارای ارتباط داخلی است و به هدف گذاری دقیق کمک می کند. اینترنت وسایل، به داده های عظیم کمک می کند، بنابریان تبدیل صنعت، شرکتها و حتی دولت های راسنه ای، حوزه جدیدی را برای رقابت پذیری و رشد اقتصادی فراهم می سازد. ارتباط بین افارد، اطلاعات و الگوریتم هوشمند دارای تاثیراتی برای کارایی رسانه ای است. ثروت اطلاعات جمع آوری شده به بیان کردن لایه های موجود در مکانیزم هدف موجود صنعت، کمک می کند.

تکنولوژی • Ebay.com از انباره اطلاعاتی 7.5 پتا بایت و 40 پتا بایت و 40 پابایت گروه هودوپ برای تحقیق، اظهارات مصرف کنندگان و تجاری استفاده می کند. در داخل ebay 90 پتا بایت انباره اطلاعاتی موجود است • Amazon.com با میلیونها عملیات انتهایی در طول روز سرو کار دارد، همچنین در بیش از نیم میلیون از فروشنده نفر سوم ، تحقیق می کند. تکنولوژی اصلی که که عملرد آمازن را بر مبنای لینوکس اجرا می کند و از 2005 سومین پایگاه داده عظیم جهانی را دارد، که ظرفیت آن 7.8 پتا بایت، 18.5 پتا بایت و 24.7 پتا بایت می باشد. • Facebook با بیش از 50 میلیارد عکس استفاده کنندگان سرو کار دارد • از آگوست 2012 گوگل در حدد 100 میلیارد تحقق در هر ماه اجرا می کند. • پایگاه داده Oracle NoSQL 1 مگ مشاهده در هر ثانیه را در 8 قالب آزمایش کرده و به بیش از 1.2 مگ عملیات در هر ثانیه در 10 قالب رسیده است.

بخش خصوصی[ویرایش]

خرده فروشی • والمارت بیش از 1 میلوین مبادله با مشتری در هر ساعت دارد، که به پایگاه داده ها وارد می وشد و تخمین زده شده است که بیش از 2.5 پتا بایت (2560 ترابایت) داده را شامل میشود – معادل 167 بار اطلاعات شامل شده در تمامی کتاها در کتابخانه کنگره آمریکا می باشد بانکداری جزئی • سیستم شفاف سازی کارت FICO از حسابها در سراسر جهان حفاظت می کند • حجم اطلاعات تجاری در سراسر جهان، در تمامی شکرتها، هر 1.2 سال دوبرابر می شود، که برطبق پیش بینیها بیان شده است

وضعیت واقعی • وضعیت واقعی ویندرمر از نامهای سیگنالهای GPS در حدود 100 میلیون راننده کمک می کند تا به خریداران جدید خانه کمک کند تا تصمیات خود را در باره رانندگی بین خانه و محل کار در زمانهای مختلف روز بگیرند.

علمی[ویرایش]

آزمایش کولیدر هادرون لارج در حدود 150 میلیون دریافت کننده اطلاعات را در 40 میلیور بار در ثانیه، معرفی می کند. در حدود 600 میلیون بر خورد در هر ثانیه است. بعد از فیلتر و پالایش کردن بیش از 99.9999995% از این جریانات، بیش ز 100 برخورد در هر ثانیه وجود دارد • در نتیجه، فقط کارکدن با کمتر از 0.001% از اطلاعات جریان دریافتی، جریان اطلاعات در تمامی آزمایشات LHC بیانگر نرخ سالانه 25 پتا بایت قبل از تکرار است ( از 2012). بعد از انعکاس نزدیک 200 پتا بایت شده است • اگر همه سنسورهی اطلاعاتی در LHC ثبت شود، کار کردن با جریان اطلاعات سخت می شود. جریان اطلاعات دارای نرخی بیش از 150 میلیون پتابایت در سال خواهد شد، یا ننذیک 500 اگزا بیات در روز، قبل از انعکاس. برای تعیین اعداد در این جنبه، معادل 500 کوانتیلیون(5*10^20) بایت در هر روز می رسد، تقریبا 200 برابر بیشتر از تمامی منابعی که در جهان وجود دارد. نظم کیلومتر مربع در تلسکوپ رادیو از هزاران آنتن ساخته شده است. پیش بینی شده است که با 2024 عمل کند. در کل ، این آنتهای پیش بینی شده است که 14 اگزابایت را جمع آوری کنند و در یک پتا بایت در روز را جمع کنند. به عنوان یکی از بزرگترین پروژ ه های علمی بلند پروازان که انجام شده است، شناخته می شود.

علم و تحقیق 

• زمانی که Sloan Digital Sky Survey به جمع آوری داده های نجومی در 2000 شروع کرد، در هفته اول خود تمام اطلاعات که در گذشته جمع شده بود را گردآوری کرد. با ادامه فعالیت در نرخ 200 گیگا بایت در هر شب، SDSS بیش از 140 پتابایت اطلاعات را جمع آوری کرد. زماین که تلسکوب ارزیابی اجمالی عظیم، برای SDSS موفقی آمیز بود، در 2016 بر خط شد، طراحان آن انتظار داشتند اطلاعات آن را هر 5 روزه جمع آوری کنند • رمز گشایی ژنیتیک بشر 10 سال طول کشید، ولی در زمان حاظر در کمتر از یک روز بدست می آید. ترتیبات DNA به هزینه آن را به 10000 قسمت ، در ده سال اخیر کاهش داده است. که 100 برابر ارزانتر از کاهش هزینه های پیش بینی شده توسط قانون مور بود • مرکز شبیه سازی ناسا (NCCS)بیش از 32 پتابایت مشاده و شبیه سازی از از گروه سوپر کامپیوتر اکتشافی خود را جمع آوری کرده است • ذخایر DNA گوگل گردآوردنده و سازمان دهنده نمونه های DNA از اطلاعات ژنتیکی برای سراسر جهان به منظور شناسایی بیماری هاو تاثیرات پزشکی دیگر، می باشد. این محاسبات سریع و دقیق، هر نوع اصطکاک یا خطاهای انسانی را که ممکن است به یک از دلایل بیشمار بوجد آید را از بین میبرد، و کارشناسان زیست شناسی با DNA کار می کنند. ذخایر DNA ،به عنوان قسمتی از ژنتیک گوگل می باشد که باعث میشود دانشمندان از این نمونه گسترده از تحقیقات گوگل ، به منظور آزمایشات اجتماعی که سالهای طول میکشد، استفاده کنند.

فعالیت های تحقیقاتی[ویرایش]

تحقیقات پنهانی و اطلاعات گروهی در داده های عظیم ، در مارس 2014 در انجمن آمریکایی آموزش مهندسی نشان داده شده است. گوانتام سویچ در اداره کردن چالشهای داده های عظیم توسط علوم کامپیوتر MIT، کتابخانه هوش مصنوعی و و دکتر امیر اسمائیلپ7ور در گروه تحقیقی UNH هستند که خصوصیات کلیدی اطلاات عظیم را به عنوان تشکلی گروه های که ارتباط داخلی دارند، بررسی کردند. آنها بر امنیت داده های عظیم و جهیت گیری واقعی آن در اصرار ورزیردن بر انواع مختف اطلاعات در یک قابل پنهانی در اتصال عظیم، از طریق ایجاد تعاریف خام و مثالهای زمان واقعی در داخل تکنولوژی،تمرکز کردندد. علاوه بر آن، آنها رهیافتی را برای شناسایی روشهای تجزیه کد ها برای حرکت سمت سرعت بخشین تحقیقات در طول متنهای پنهان را پیش نهاد دادند که منجر به افزایش امنیت در داده های عظیم میشود. در مارس 2012 ، کاخ سفید ابتکارات داده های عظیم ملی را انتشار داد که در دپارتمانهای 6 فدرال و آژانسهای مامور تشکیل شده است و بیش از 200 میلیون دلار برای پروژههای تحقیقی داده های عظیم در نظر گرفته است/ این ابتکار شامل صندوق علمی ملی مربوط به تسریع در محاسبات است که دارای کمک 10 میلیون دلاری در طول 5 ساله آزمایش AMP در دانشگاه برکلی کالیفرنیا، بوده است. آزمایشکاه AMPL همچنین از DAEPAکمک نقدی دریافت می کند، و در طول ده ها صنعت اسپانسر دارد و تا بر دامنه وسیعی از مشکلات مربوط به پیش بینی ترافیک ازدحام مربوط به مبارزه با سرطان، مقابله کند. طرح ابتکاری کاخ سفید در مورد داده های عظیم همچنین شامل یک ماموریتی برای دپارتمان انرژی به منظور تهیه کردن 25 میلیون دلار در صندوق در طول 5 سال بود تا موسسه نظارت، تحلیل و مدیریت اطلاعات افزایش (SDVA) تاسیس شود، که توسط دپارتمان انرژی کتابخانه ملی برکلی لورانس، انجام شد. هدف موسسه SDAV جمع آوری کارشناسان از شش آزمایشگاه ملی و هفت دانشگاه، به منظور توسعه ابزارهای جدید برای کمک به مدیریت لمی و نظارت بر دیتا در سوپرکامپبوترهای دپارتمان می باشد. ایالت ماساچوست آمریکا در می 2012 طرح ابتکاری داده های عظیم ماساچوست را بیان کرد که صندوقی را از دولت محلی و شرکتهای خصوصی تاسیس می کرد که هدف آن تنوع موسسات تحقیقی بود. موسسه فنی ماساچوست دارای علوم اینتل و مرکز فنی داده های عظیم در آزمایشگاه هوش مصنوعی و علم کامپیوتر MIT، ملحق شده با دولت، تعاونی و صندوق موسسه و فعالیت های تحقیقی می باشد. کمیسیون اروپا یک محکمه خصوصی انتشار داده های عظیم را در طول دوسال، از طریق چارچوب برنامه هفتم، به منظور مسولیت شرکتها، دانشگاهیان و دیگر سهام دارای در بحثهای مربوط به داده های عظیم، فراهم کرده است. هدف پروژه تعریف یک استراتژی به نحوی است که در تحقیق و ابتکارات، دارای اقدامات حمایتی کمیسیون اروپا در اجرای موفق اقتصاد داده های عظیم می باشد. خروجی این پروژیه به عنوان ورودی در افق 2020، برنامه چارچوبی بعدی، استفاده می شود. دولت انگلیس در مارس2014 بیان کرد که پیدایش موسسه Alan Turing بعد از کامپیوترهای اولویت دارد و شکننده کد، بر روشهای جدید در جمع آوری و تحلیل مجموعه های داده های عظیم تمرکز خواهد کرد. در دانشگاه واترلو استاتفورد کامپوس کانا در مورد تجربیات اطلاعات باز (CODE) در روز وحی، شرکا نشان دادن که چگونه نظارت بر اطلاعات می تواند به افزایش شناخت و کاربرد مجموعه داده های عظیم و ارتباط آنها با دنیا، بکار برده شود.

برای ایجاد تولیدات رقابتی در ایالات متحده ( و جهان)، نیاز به یکپارچه سازی استعدادها و ابتکارات آمریکایی در تولید می باشد؛ بنابراین صندوق علوم ملی  همکارهای دانشگاهی صنعتی را برای تحقیق  در مرکز سیستم نگهداری باهوش (IMS) در در دانشگاه سینسیناتی را تاسیس کرد تا بر توسعه ابزارها و روشهای پیشگویانه پیشرفته به منظور کاربرد آن در محیط داده های عظیم، تمرکز کند. در می 2013، مرکز MIS یک توصیه صنعتی را برای ایجاد تمکز بر داده های عظیم ایراد کرد که بیانگر شرکتهای صنعتی گوناگون بود که نگرانی ها، مسائل، و اهداف آینده در محیط داده های عظیم را بحث می کرد.

علوم اجتماعی محاسباتی- هر کس می تواند از از نرم افزاریهای برنامه ریزی مشترک (API) که توسط مالکان داده های عظیم ، همانند گوگل و تویتر، تهیه میشود برای تحقیق در علوم اجتماعی و رفتاری استفاده کند. اغلب این API به صورت رایگان تهیه می شد. توبیاس پریز و همکاران، از اطلاعات روندی گوگل برای نشان دادن اینکه استفاده کنندگان کامپیوتر در کشورهایی که سرمایه تولید ناخالص ملیGDP به ازای هرفرد بیشتر دارند، به احتمال بالاتری در مورد اطلاعات آیند تحقیق نجام می دهند نسبت به اطلاعات گذشته. یافته ها بیانگر این است که ممکن است بین رفتار برخط و شاخصهای اقتصادی جهان واقعی تفاوت وجود داشته باشد. نویسندگان تاخیر تحقیقات گوگل را با نسبت حجمی که در یک سال ایجاد می شود2011 ، نسبت به حجم تحقیقات گذشته 2009، نشان دادند، که به آن شاخص جهت گیری آینده گفته می شود. آنها شاخص جهت گیری آینده را با GDP به ازای هر سرمایه را در هر کشور مقایسه کردند و یک گرایش قوی را یافتند که استفاده کنندگان گوگل ، در مورد GDP بالاتر آینده تحقیق می کنند. نتایج این امر را که احتمالا بین موفقیت اقتصادی یک کشور و رفتارهای دستیابی به اطلاعات در در رفتار شهروندان که داده های عظیم را دریافت می کنند، رابطه باشد، را اشاره می کند. توبیاس پریس و همکارانش هلن سوسانا موت و اچ . اگون استنلی روشی را بری شناسایی پیشروهای برخط به منظور حرکات بازار سهام، استفاده ازاستراتژیهای مبادله بر مبنای اطلاعات حجم تحقیق که توسط رودهای گوگل تهیه می شود، معرفی کردند. تحلیل آنها از حجم تحقیق گوگل برای 98 عبارت مختلف مالی مرتبط ، در گزارشات علمی انتشار یافت که ، بیانگر آن بود که افزایش حجم تحقیق برای تحقیقات مرتبط مالی همانند عبارات، مایل به جلوتر بودن هزینه های عظیم در بازار های مالی است داده های عظیم از چالشهای الگوریتمی تشکیل شده است که در گذشته وجود نداشت. بنابراین، نیاز بنیادی به تییر در روشهای پروسه وجود دارد.

نمونه گیری از داده های عظیم[ویرایش]

یکی از سولات تحقیقی مهم که در مورد داده های عظیم یم تواند پرسیده شود این است که آیا شما به محافظت از اطلاعات برای ایجاد نتیجه اطیمنان در مورد خصوصیات اطلاعات نیاز دارید یا یک نمونه خوب کافی است. اسم داده های عظیم به خودی خود شامل عبارت مرتبط با اندازه است و این ویژگی مهم داده های عظیم می باشد. ولی نمونه گیری (آماری) قادر به انتخاب نقاط اطلاعاتی درست در داخل مجموعه داده های عظیم به منظور تخمین خصوصیات کل جامعه می باشد. برای مثال، حدود 600 میلیون جیرجیرک وجود دارد که در طول روز تولید می شود. آیا ضروری است که به تمامی آنها به منظور تصمیم گیری در مورد موضوع بحث های در طول روز مراجعه شود؟آیا ضروری است که برای تعیین هر یک از موضوعات، به تمامی جیرجیرک ها مراجعه شد؟ در انواع مختلف تولید مربوط به اطلاعات دریافتی همانند صوت شناسی ، ارتعاش، فشار، جریان، ولتاژ و کنترل کننده اطلاعات ، در تمامی دوره های زمانی کوتاه مدت در دسترسی می باشد. برای پیش بینی ،زمان کافی برای نگاه کردن برای تمام اطلاعات در دسترس نیس نیست ولی یک نمونه ممکن است کافی باشد. برخی از کارها در زمینه الگوریتم نمونه برداری داده های عظیم انجام شده است فرمول نظری نمنه برداری اطلاعات تویتر توسعه یافته است.

انتقاد[ویرایش]

انتقادات از الگوی داده های عظیم دو معنی دارد، اینکه سوال در مورد کاربرد هر رثیافت و سوال در مورد روش که در حال حاظر انجام می شود. انتقادات بر الگوهای عظیم " یک مسئله انتقادی این است که ما چیز زیادی در مورد اصول تجربی فرآیندهای خرد که منجر به ضوری بودین این خصوخصسات شبکه ای برای داده های عظیم می شود، نمی دانیم. نجدر، مازات، و ریپس در انتقادشان گفتند که اغلب فرضیات قوی هستند که در مورد خصوصیات ریاضی ساخته شده اسند و که نمی تواند همه واقعیات در سطح فرآیند خرد را توضیح دهد. مارک گراهام انتقاد کریس آندرسن را توسعه داد ک داده های عظیم که داده های عظیم در آخر تئوری نوشته یم شود: تمرکز در حالت خاص بر این توه است که داده های عظیم همواره با زمینه های اجتماعی، اقتصادی و سیاسی همخوانی داشته باشد. حتی زمانی که شرکتها در هشت یا نه شکل کلی سرمایه گزاری می کنند تا چشم اندازی از جریان اطلاعات در مورد عرضه کنندگان و تقاضا کنندگان بدست بیاورند، کمتر از 40% کارمندان فرآیند را به طور کامل انجام می دهند و مهارت انجام را دارند. برای حل این مشکل، داده های عظیم، بدون توجه به فراگیر یا تحلیل خوب، باید توسط اتصال عظیم اجرا شود، مطابق بایک مقاله در دیگاه تچاری هاروارد. بیشتر در همان روش، بیان شده است که تصمیمات مبتنی بر تحلیل طلاعات عظیم ضروری است که از طریق جهان اطلاع داده شود، همان طور که در گذشته بو یا بهتر بود، همانطور که الان است. همراه با تعداد زیادی اطلاعات در مورد تجربه ، الگوریتمهای می تواند بوجود بیاید که توانایی پیش بینی توسعه آینده را دارند، اگر آینده شبیه به گذشته باشد. اگر پویایی های سیستمی در تغییرات آینده باشد، گذشته می تواند کمی از آینده را بیان کند. برای اینکار، ضروری استکه یادگیری کلی از پویایی سیستم داشته باشیم، که در تئوری بکار میرود. به عنوان جوابی برای این انتقاد، پیشنهاد شده است رهیافت اطلاعات بزرگ شامل، کامپیوترهای شبیه سازی، همانند مد های بر مبنای عامل، و سیستمهای پیچیده باشد. مدلهای بر مبنای عامل نتایج بهتری در مورد پیچیدگی های اجتماعی دارند حتی در مورد سنارویهای آینده ناشناخته در شبیه سازی کامپیوتر که بر مبنای الگوریتم مستقل دو سره می باشد. علاوه بر آن، استفاده از روشهای چند گانه، که ساختار پنهانی اطلاعات را جست و جو می کند، همانند تحلیل عام یا تحلیل گروه، اثبات شده است که رهیفات تحلیلی مناسبی است که فراتر از رهیافتهای بی – واریانت ( جداول مقعطعی) است که در مجموعه اطلاعات کوچک استفاده می شود. در سلامیت و بیولوژی ، رهیافتهای علمی مرسوم بر مبنای تجربیات می باشد. برای این رهیافتها، عاملکاهنده عبارت از اطلاعات مربوط می باشد که می تواند فرضیه های اولیه را تایید یا تکذیب کند. یک شرط اصلی در علوم زیستی پذیرفته شده است: اطلاعاتی که در حجم عظیم جمع آوری شده اند، بدون فرضیات قبلی مکمل بوده و برخی موقع برای رهیفاتهای سنتی مبتنی بر تجربیات ضروری هستند. در رهیافتهای عظیم، فرمول بندی فرضیات مرتبط به منظور توضیح داده های عظیم است که عامل محدود کننده است. منطق تحقیق معکوس شده و کمبود استنتاجها در نظر گرفته شده اند. انتخابات مستقل در رابطه با برخور با آزادی مطرح شده توسط انباره ها و همبستگی های افزایشی از اطلاعات قابل شناسایی شخصی می باشد، هیات کارشناسی توصیه های سیاستی گوناگونی را به منظور تطبیق تجربیات با انتظارات در مورد استقلال، بیان کرده است.

انتقادات بر اقدامات داده های عظیم داده های عظیم که در تحقیقات علمی فد نامگذاری شده و استفاده ها آن در برخی مثالهای هزلی در قالب اطلاعات، شوخی بوده است. دانا بوید نگرانی ها را در مورد استفاده از داده های عظیم در اصول مورد عدم توجه علمی ، همانند انتخاب یک نمونه بیان کننده با استفاده از نگرانی در مورد مدیریت واقعی حجم بزرگی از اطلاعات، را افزایش داد. این رهیفات ممکن است منجر به نتایج انحراف دار در این روش یا موراد دیگر شود. ادغام در چارچوب در منابع اطلاعات هماهنگ – ممکن است برخی داده های عظیم را در نظر بگیرند و برخی نگیرند- بیانگر منطق سختی اهمانند چالشهای تحلیلی است، ولی بیشتر محققان بحث می کنند که چنین ادعام های احتمالا منجر به معرفی امید بخش بودن در مرزهای جدید علمی شود. در این مقاله محرک، سوالات بحرانی برای داده های عظیم، نویسنه داده های عظیم را به عنوان بخشی از افسانه بیان می کند: مجموعه داده های عظیم منر به فرم بالاتری از هوش و دانش است..... ، همراه با پیش درآمدی از حقیقتف هدفمندی و دقت استفاده کنندگان داده های عظیم اغلب تعاد حجم خالص را از دست می دهند، و کارکردن با داده های عظیم همچنان غیر عینی است، و آن چییزی که تعداد آن ضروری ادعای نزدیکی در مورد درستی هدف ندارد. توسعه های جدید در زمینه بی ای، همانند گزارش پیش فعال بخصوص با هدف پیشرفتهای قابل استفاده داده های عظیم، از طریق مکانیز فیلتر اطلاعات غیر قابل استفاده و هم انباشتگی ها. تحلیلهای داده های عظیم اغلب به طور سایه ای برا تحلیهای مجموعه اطلاعات کوچک مقایسه شده است. در بیشتر پروژه های بزرگ، هیچ تحلیلی در مورد داده های عظیم صورت نمی گیرد، ولی چالشها عبارت از استخراج، تبدیل و بار گذاری بخشی از پیش پردازش اطلاعات می باشد. داده های عظیم واژه نامفهومی و عبارت مبهمی است، ول در همان زمان یک وسواس کارآفرین، مشاوره ای یا علمی و رسانه است. نمونه های داده های عظیم همانند گوگل فلو ترند ، از تحویل خوب پیش بینیها در سالهای اخیر ناتوان بوده و فاجعه آنفلونزا را بیش از حد نشان داده است. به طور مشابه، حکمهای آکادمی و پیش بینی های انتخاباتی به تنهایی بر مبنای توئیتر بوده و اغلب بدون هدف می باشد. داده های عظیم اغلب بیانگر همان چالشها در اطلاعات کوچک است، و اظافه کردن اطلاعات بیشتر مشکل انحراف را حل نمی کند، ولی ممکن است بر مشکلات دیگر تاکید کند. در حالت خاص برخی از منابع داده ها همانند توئیتر، بیانگر جمعیت کلی نمی باشد، و نتایج حاصل از این نتیجه گیری می تواند نادرست باشد. گوگل ترانزلیت- که بر مبنای تحلیلهای آماری داده های عظیم در مورد متن می باش – کار مناسبی را برای ترجمه صفحات وب انجام داده است. با این حال، نتایج حاصل از محدوده های خاص می تواند چولگی زیادداشته باشد.از طرف دیگر، ممکن است داده های عظیم منجر به مشکل جدید شود، همنند مشکل مقایسه چند گانه: آزمایش همزمان مجموعه فروض بزرگ، احتمالا نتایج غلطی تولید کند که اشتباه آنها چشم گیر باشد. آیونیدیز بحث می کند که یافته های تحقیقی انتشار شده اغلب غلط هستند، که ناشی از همان اثر است: زماین که گروهای علمی و محققان هر کدام آزمایشاتی انجام میدهند( فرآیند بزرگ مقدار از اطلاعات علمی، هر چند همراه با تکنولوژی داده های عظیم نباشد)، احتمالا نتایج چشمگیر در حالت واقعی رشید سریع نادرستی داشته باشد- حتی بیشتر، زمانی که فقط نتایج مثبت نشر می شود.



منابع[ویرایش]

https://en.wikipedia.org/wiki/Big_data