کلان‌داده

از ویکی‌پدیا، دانشنامهٔ آزاد
(تغییرمسیر از داده‌های عظیم)
پرش به: ناوبری، جستجو

«کلان داده یا طبق مصوبه فرهنگستان ؛مه داده"[۱] دارایی‌های داده‌ای‌اند بسیار انبوه، پرشتاب و/یا گوناگون که نیاز به روش‌های پردازشی تازه‌ای دارند تا تصمیم‌گیری، بینش تازه و بهینگی پردازش پیشرفته را فراهم آورند»[۲].  کلان داده یا بزرگ‌ داده‌ها مسیر حرکت کسب و کار و فرآیند چرخش کار در سازمان‌ها را مشخص می‌کنند. در بزرگ‌داده با داده‌های متمایز و بزرگ که دائماً از لحاظ حجم، نرخ تولید داده و تنوع در حال تغییر هستند سروکار داریم.[۳]

در اینجا، داده‌های پرشتاب داده‌هایی‌اند که با شتاب بالایی تولید می‌شوند. کلان‌داده از چند ۱۰ ترابایت به چندین پتابایت در یک مجموعهٔ داده دارد می‌گسترد. نمونه‌هایی از کلان‌داده چنین‌اند: گزارش‌های وبی، سامانه‌های بازشناسی با موج‌های رادیویی، شبکه‌های حسگر، شبکه‌های اجتماعی، متن‌ها و سندهای اینترنتی، نمایه‌های جستجوهای اینترنتی، اخترشناسی، مدرک‌های پزشکی، بایگانی عکس، بایگانی ویدیو، پژوهش‌های زمین‌شناسی و بازرگانی در اندازه‌های بزرگ.

رویکرد[ویرایش]

آناکاوی مجموع داده‌ها می‌تواند همبستگی‌های جدید را پیدا کند، که مربوط به روندهای بازرگانی نقطه‌ای، جلوگیری از بیماری، جُرم‌های جنگی و ... است. دانشمندان، بازرگانی، کارورزان صدا و سیما، تبلیغات و دولت، همانند مقررات، باعث مشکلاتی برای کلان‌داده در حوزه‌های مانند جستجوی اینترنتی، مالی و اطلاعات بازرگانی می‌شوند. دانشمندان با محدودیت‌هایی در کارهای علوم مواجهند که دربردارنده‌ی هواشناسی، ژنتیک و اطلاعات، شبیه‌سازی فیزیکی پیچیده، و پژوهش‌های محیط زیستی و زیست‌شناختی می‌باشد.

اندازه مجموعه اطلاعات در بخشی افزایش می‌یابد، به دلیل اینکه آنها از طریق ابزار موبایل که ارزان و بیش شمارند، آنتن هوایی (دریافت از راه دور)، وقفه نرم‌افزاری، دوربین‌ها، میکروفن‌ها، خواننده فرکانس رادیویی مشخص، و شبکه‌های دریافت بی‌سیم، جمع‌آوری می‌شوند. ظرفیت جهانی فناوری در هر واحد سرمایه، به منظور جمع‌آوری اطلاعات از دهه ۱۹۸۰ هر ۴۰ ماه دو برابر می‌شود. از سال ۲۰۱۲ هر روزه ۲٫۵ اگزابایت (۲٫۵×۱۰۱۸) اطلاعات ایجاد شده است. چالش موسسات بزرگ این است تعیین کنند که چه کسی ابتکار عملیات کلان‌داده را دارا می‌باشد که کل سازمان را در بر می‌گیرد. کارکردن با کلان‌داده به طور ضروری نادر می‌باشد؛ بیشتر آناکاوی‌ها در مورد اطلاعات سایز PC، مربوط به صفحه نمایش PC یا نوت بوک است، که می‌تواند مربوط به مجموعه اطلاعات قابل دسترسی باشد.

سیستمهای مدیریت پایگاه داده رابطه‌ای، و وضعیت صفحه نمایش و بسته تصویری بیش‌تر با مشکلاتی در رابطه با دستکاری در کلان‌داده مواجهند. در عوض اینکار به اجرای نرم‌افزاری به طور همزمان در حجم گسترده و با ده‌ها، صدها، و حتی هزاران سرور، نیاز دارد. آن چیزی که به عنوان کلان‌داده در نظر گرفته می‌شود، بر مبنای توانایی‌های استفاده کنندگان از وسایل تفاوت دارد و گسترش توانایی‌ها برای ایجاد کلان‌داده یک هدف می‌باشد؛ بنابراین، هر آنچه که کلان در نظر گرفته می‌شود یک سال بعد عادی می‌شود. برای برخی سازمانها، که با صدها گیگابایت اطلاعات برای اولین بار مواجهند، ممکن به در نظر گرفتن دوباره اختیارات مدیریت اطلاعات نیاز احساس شود. برای دیگران، ممکن است ده‌ها یا صدها ترابایت باید حجم اطلاعات افزایش یابد تا به عنوان قابل توجه در نظر گرفته شود.


تعریف[ویرایش]

تعریف گارتنر از 3V همچنان در سطح وسیعی مورد استفاده قرار می‌گیرد، و در توافقات یک تعریف پذیرفته شده وجود دارد که بیانگر این است که " کلان‌داده بیانگر دارایی‌های اطلاعاتی است که دارای خصوصیاتی از قبیل حجم بالا، فناوری و سرعت و تنوع نیاز به روشهای آناکاوی‌ی مخصوص برای اطلاعات مربوط به ارزش، می‌باشد.

کلان‌داده معمولاً دربردارنده‌ی مجموعه اطلاعاتی است که به طور معمول فراتر از حدی است که بتواند در ابزارهای تصویر، مدیریتی و فرایند اطلاعات در زمان قابل قابل تحمل که تمام می‌شود، استفاده شود. اندازه کلان‌داده به طور ثابت به مقدار هدف نزدیک می‌شود، از سال ۲۰۱۲ که در حد چند ترابایت بوده به پتا بایت رسیده است. کلان‌داده مجموعه‌ای تکنیک‌ها و فناوریهایی است که که به فرم جدیدی از دسته‌بندی به منظور روشن کردن ارزشهای پنهانی از پایگاه کلان‌داده که تغییر کرده، پیچیده شده و دارای مقیاس بالایی است، مورد نیاز می‌باشد.

در سال ۲۰۰۱ گزارش پژوهشی و ادبیات مربوطه، گروه متا (الان گارتنر)، داگ لنی به این نتیجه رسید که چالش‌ها و فرصتهای توسعه اطلاعات دارای سه بعد می‌باشد، به معنای حجم افزایشی (مقدار اطلاعات)، سرعت (سرعت اطلاعات خروجی و ورودی)، و تنوع (دامنه نوع اطلاعات و منابع). گراتنر، و تعداد بیشتری از صنایع، به استفاده از این مدل 3V برای توصیف کلان‌داده استفاده کردند. در ۲۰۱۲، گارتنر تعریف خود را بصورت زیر بروز کرد: کلان‌داده دارای حجم زیاد، سرعت بالا، و/یا تنوع بالای دارایی‌های اطلاعاتی است که به فرم جدیدی از ترفیع فرایند توانایی تصمیم‌گیری، اکتشافات درونی، و فرایند بهینه‌سازی، نیاز دارد.

3V در خصوصیات تکمیلی مربوط به کلان‌داده توسعه یافته است:

  • اندازه: اندازه اطلاعات نمونه ندارد. این فقط اتفاقات را مشاهده و ثبت می‌کند
  • تندای: کلان‌داده بیش‌تر در زمان واقعی در دسترس است
  • گوناگونی: کلان‌داده از متن، تصاویر، صدا، ویدئو بدست می‌آید، به علاوه از طریق اتصال داده‌ها قیمت‌های جامانده را کامل می‌کند.
  • یادگیری ماشین:کلان‌داده بیش‌تر چرایی را نمی‌پرسند و فقط الگوها را پیدا می‌کنند
  • جایگاه دیجیتالی: کلان‌داده بیش‌تر محصولات بدون هزینه از تعاملات دیجیتالی می‌باشد

رشد مفهوم باعث ایجاد تفاوت‌هایی بین کلان‌داده و هوش کسب و کار، در رابطه با اطلاعات و استفاده‌های آنها می‌شود:

  • هوش کسب و کار از آمارهای توصیفی همراه با اطلاعات و حجم بالای اطلاعاتی برای اندازه‌گیری و پیدا کردن روندها استفاده می‌کند
  • کلان‌داده از آمارهای استقرایی و مفاهیم برابرسازی سیستمی غیر خطی، برای قوانین استنباطی (رگرسیون، رابطه غیر خطی، و تأثیر علی) از مجموعه‌های بزرگ اطلاعات که دارای حجم اطلاعاتی کمتری هستند، استفاده می‌کند. برای نشان دادن رابطه‌ها، وابستگی‌ها و انجام پیشگوییهای مربوط به درآمد و رفتارها استفاده می‌شود.

ویژگی‌ها[ویرایش]

کلان داده می‌توانند بر اساس ویژگی‌های زیر تعریف شود:

اندازه - اندازه داده‌های آزانیده (تولید شده) و انباریده (ذخیره شده). اندازه‌ی داده در شناسایی ارزش یا کلانگی داده کلیدی است. اگر داده خُرد باشد، کلان داده خوانده نمی‌شود.

گوناگونی - گونه‌ی داده. دسته‌بندی داده‌ها به گونه‌ها به شناخت بهتر می‌انجامد.

نرخ آزانش - همان سرعت تولید داده است. نرخ بالای آزانش (تولید) داده، چالش‌هایی را در زمینه‌ی انبارش (ذخیره‌سازی) و پردازش داده پدید می‌آورد.

ورتندگی- ناپایستگی داده میتواند پردازش‌ها را از رسیدگی و مدیریت داده بازدارد.

درستی- کیفیت داده‌ی گردآوری شده می‌تواند بر آناکاوی دقیق داده اثر بگذارد.



کلان‌داده و اینترنت اشیاء باهم مرتبط اند. از دید رسانه‌ای، اطلاعات عامل کلیدی ابزار آلات دارای ارتباط داخلی است و به هدف گذاری دقیق کمک می‌کند. اینترنت اشیاء، به کلان‌داده کمک می‌کند، بنابراین تبدیل صنعت، شرکتها و حتی دولت‌های راسته‌ای، حوزه جدیدی را برای رقابت پذیری و رشد اقتصادی فراهم می‌سازد. ارتباط بین افراد، اطلاعات و الگوریتم هوشمند دارای تأثیراتی برای کارایی رسانه‌ای است. ثروت اطلاعات جمع‌آوری شده به بیان کردن لایه‌های موجود در مکانیزم هدف موجود صنعت، کمک می‌کند.

فناوری ای‌بی از انباره اطلاعاتی ۷٫۵ پتا بایت و ۴۰ پتا بایت و ۴۰ پتا بایت گروه هادوپ برای پژوهش، اظهارات مصرف‌کنندگان و بازرگانی استفاده می‌کند. در شرکت ای‌بی۹۰ پتا بایت انباره اطلاعاتی دارد. Amazon.com با میلیونها عملیات انتهایی در طول روز سرو کار دارد، همچنین در بیش از نیم میلیون از فروشنده نفر سوم، پژوهش می‌کند. فناوری اصلی که که عملکرد آمازون را بر مبنای لینوکس اجرا می‌کند و از ۲۰۰۵ سومین پایگاه داده عظیم جهانی را دارد، که ظرفیت آن ۷٫۸ پتا بایت، ۱۸٫۵ پتا بایت و ۲۴٫۷ پتا بایت می‌باشد. فیس‌بوک با بیش از ۵۰ میلیارد عکس استفاده کنندگان سرو کار دارد. از اوت ۲۰۱۲ گوگل در حدود ۱۰۰ میلیارد پژوهش در هر ماه اجرا می‌کند. پایگاه داده Oracle NoSQL 1 مگ مشاهده در هر ثانیه را در ۸ قالب آزمایش کرده و به بیش از ۱٫۲ مگ عملیات در هر ثانیه در ۱۰ قالب رسیده است.

کاربردها[ویرایش]

بهداشت و درمان آناکاوی کلان داده‌ها می‌تواند در صنعت بهداشت و درمان در قالب ارائه خدمات بهتر به عموم مردم کمک کند که این امر منجر به شناسایی روشهایی شخصی‌سازی شده برای درمان بیماران می‌شود. این شخصی‌سازی درمان می‌تواند منتج به افزایش سلامت جامعه و کاهش هزینه‌های دولت در بخش بهداشت و درمان شود.

آموزش کلان داده‌ها در صنعت آموزش می‌تواند به شخصی‌سازی فرایند یادگیری کمک کند. موضوعی که تا قبل از پیدایش سیستمهای یادگیری الکترونیکی و جمع‌آوری داده‌های آموزشی مطرح نبود. این شخصی‌سازی به نوبه خود می‌تواند باعث شکوفایی استعدادهای دانش‌آموزان و دانشجویان شود و پویایی محیط یادگیری را افزایش دهد.

تولید در صنعت تولید استفاده از کلان داده‌ها می‌تواند به تولید طبق نیازهای مشتری کمک کند، زمان تولید محصول را کاهش دهد. همین‌طور با استفاده از شبیه‌سازی و بهینه‌سازی با استفاده از کلان داده‌ها می‌توان خط تولید را به صورت بهینه طراحی کرد و بسیاری از عیوب خط تولید و کالاها را پیش از شروع به کار خط تولید شناسایی کرد.

خرده فروشی در صنعت خرده فروشی از کلان داده‌ها برای شناسایی بهتر نیازهای مشتریان و ارائه تبلیغات و بازاریابی سفارشی‌شده استفاده می‌شود. این شرکتها در تلاشند با جمع‌آوری داده‌های عددی، متنی و تصویری تجربه خرید مشتری از کانالهای مختلف را بهبود بخشند و بتوانند نیازهای آنان را برآورده سازند.

دولت دولت می‌تواند از کلان داده‌ها برای ایجاد شفافیت، خدمت رسانی بهتر به مردم، استفاده بهینه از منابع محدود و تخصیص بودجه به فعالیتهای موجود استفاده کند. همین‌طور می‌تواند برای کمک به مردم در زمان بحران، اطلاع‌رسانی به روشهای جدید به مردم و مبارزه با فقر و جرم و جنایت کلان داده‌ها را بکار بگیرد.

علوم اجتماعی در مطالعات علوم اجتماعی کلان داده‌ها می‌تواند ابزاری جدید برای بررسی پیچیدگی رفتار انسانها اعم از رفتارهای فردی و اجتماعی باشد و دریچه‌ای جدید برای مطرح کردن سوالهای جالب تر و یافتن الگوهایی که تا پیش از این ناشناخته بودند باشد.

ورزش در علوم ورزشی از کلان داده‌ها برای افزایش کارایی ورزشکاران در تمرین و مسابقه، پیشگیری از بروز مصدومیت و یافتن بهترین راهبرد برای مسابقات پیش رو استفاده می‌شود.[۴]


انتقاد[ویرایش]

انتقادات از الگوی کلان‌داده دو معنی دارد، اینکه سؤال در مورد کاربرد هر رهیافت و سؤال در مورد روش که هم‌اکنون انجام می‌شود.


جستارهای وابسته[ویرایش]

منابع[ویرایش]

https://en.wikipedia.org/wiki/Big_data