مجموعه داده

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به ناوبری پرش به جستجو

مجموعه داده (انگلیسی: Data set) یا مجموعه داده‌ها، به مجموعه ای از داده‌های آماری یا دیتاهای رایانه‌ای مربوط به یک پایگاه داده اطلاق می‌شود، که با هدف یکپارچه نمودن داده‌ها، محتویات آن را در قالب یک جدول پایگاه داده یا یک ماتریس داده‌ای، تنظیم و مرتب می‌نمایند، که در آن، هر ستون از پایگاه داده، نشان دهنده یک متغیر خاص است و هر ردیف نیز به یکی از اعضای مجموعه داده‌های مورد نظر مرتبط می‌باشد. مجموعه داده‌ها برای هر یک از اعضا، یک متغیر مانند ارتفاع و وزن تعریف و فهرست می‌کند، که هر مقدار به عنوان یک پایگاه داده مجزا، شناخته می‌شود.

دیتاست DataSet[ویرایش]

یک مجموعه داده (DataSet) مجموعه ای از داده‌ها است. اغلب مجموعه داده‌ها مربوط به محتویات یک جدول پایگاه داده تک یا یک ماتریس داده‌های یکپارچه است که هر ستون جدول یک متغیر خاص را نشان می‌دهد و هر ردیف مربوط به یک عضو داده شده از مجموعه داده‌های مورد سؤال است. مجموعه داده‌ها برای هر یک از متغیرها مانند ارتفاع و وزن یک شیء برای هر یک از اعضای مجموعه داده‌ها فهرست می‌کند. هر مقدار به عنوان پایه شناخته می‌شود. مجموعه داده‌ها ممکن است شامل داده‌هایی برای یک یا چند عضو باشد که مربوط به تعداد ردیف‌ها باشد.

ویژگی های دیتاست[ویرایش]

چندین ویژگی ساختار و خواص مجموعه داده یا دیتاست را تعریف می‌کند که شامل تعداد و نوع مشخصه‌ها یا متغیرها است. مقادیر ممکن است عددی ( مانند عدد حقیقی یا عدد صحیح ) باشد، مثلا نشان دهنده قد فرد بر اساس سانتی متر باشد، اما ممکن است داده‌های اسمی یا سمبلیک باشد، به عنوان مثال مذهب یک شخص را نشان می‌دهد. به‌طور کلی، مقادیر ممکن است از هر نوعی به عنوان سطح اندازه‌گیری تعریف شود. برای هر متغیر، مقادیر به‌طور معمول همه نوع مشابه هستند. با این حال ممکن است ارزش‌های گم شده نیز وجود داشته باشد که باید به نحوی نشان داده شود.

در آمار، مجموعه داده‌ها معمولاً از مشاهدات واقعی حاصل از نمونه‌گیری جمعیت آماری حاصل می‌شود و هر ردیف مربوط به مشاهدات بر روی یک عنصر از آن جمعیت است. با استفاده از الگوریتم‌ها می‌توان م

نمونه ای از دیتاست[ویرایش]

به عنوان یک نمونه دیتاست مورد استفاده مجموعه داده بیماران سرطان سینه موجود در مخزن دادهٔ یادگیری ماشین دانشگاه ارواین، ایالت کالیفرنیا آمریکا (University of California at Irvine) است مثال زده می‌شود. در این دیتاست ویژگی‌ها شامل ریسک فاکتورهای ضخامت انبوه، یکنواختی اندازه سلول، یکنواختی شکل سلول، چسبندگی لبه‌ها، حجم سلول بافت اپیتلیال، هسته‌های عریان، کروماتین بلاند، هسته عادی و تقسیم هسته سلول به دو قسمت می‌باشد که در ایالت ویسکانسین ایالات‌متحده جمع‌آوری‌شده‌است. جدول زیر نشان‌دهنده این مجموعه از داده است. مجموعه داده‌ها را با هدف آزمایش انواع خاصی از نرم افزار تولید کرد.

Domain Attribute #
id number code number 1
1 – 10 Clump Thickness 2
1 – 10 Uniformity of Cell Size 3
1 – 10 Uniformity of Cell Shape 4
1 – 10 Marginal Adhesion 5
1 – 10 Single Epithelial Cell Size 6
1 – 10 Bare Nuclei 7
1 – 10 Bland Chromatin 8
1 – 10 Normal Nucleoli 9
1 – 10 Mitoses 10
2 for benign, 4 for malignant Class 11

معرفی چند پایگاه‌ دیتاست‌[ویرایش]

  • Google
  • UCI
  • Amazon
  • WorldBankData
  • UNData
  • DataHub
  • GitHub
  • DataVancouver


جستارهای وابسته[ویرایش]

منابع[ویرایش]

  • «دیتاست DataSet - پی استور %». پی استور. ۲۰۱۸-۰۴-۱۱. دریافت‌شده در ۲۰۱۹-۰۳-۳۰.