نمودار ویولنی

از ویکی‌پدیا، دانشنامهٔ آزاد

نمودار ویولنی روشی برای رسم کردن داده‌های عددی است.[۱] گاهی میانگین و میانه برای درک و شناخت یک مجموعه داده به تنهایی کافی نیستند. سوالاتی که مطرح می‌شوند این است که آیا بیشتر مقادیر نمونه‌ها حول میانه دسته‌بندی شده‌اند یا اینکه بیشتر مقادیر اطراف بیشینه و کمینه قرار دارند و داده‌ای حول میانگین وجود ندارد. در صورت مطرح شدن این سوالات، نمودار توزیع می‌تواند کمک‌کننده و پاسخگو باشد که در ادامه دو نمونه بیشتر توضیح داده می‌شوند.

نمودار جعبه‌ای نموداری مناسب برای به تصویر کشیدن توزیع پایه‌ای داده‌هاست. این نمودار برای مقایسهٔ داده‌های آماری به صورت خلاصه (ماننده بازه‌ها و چارکها) کاربرد دارد، اما به شما امکان مشاهدهٔ تغییرات و اختلافات در داده را نمی‌دهد. این نمودار برای داده‌های multimodal (دارای چندین اوج) می‌تواند بسیار محدود باشد. در این موارد نمودار ویولنی کاربرد دارد. نمودار ویولنی از نمودار جعبه‌ای ساده اطلاعات بیشتری را منتقل می‌کند. نمودار ویلونی ترکیبی از نمودار جعبه‌ای و نمودار چگالی است، که اوج‌ها و توزیع‌ها در داده را نمایش می‌دهد. برای حالتی که نمونه‌ها دارای چند نقطهٔ اوج باشند، نمودار ویولنی به صورت واضح وجود چند نقطهٔ اوج، مختصات آن‌ها و نوسان نسبیشان را نشان می‌دهد. این اطلاعات از طریق نمودار جعبه‌ای ساده‌ای که تنها خلاصه‌ای از آمار را ارائه می‌دهد، قابل عرضه نیست. برای مثال توزیع دمای مقایسه‌ای بین روز و شب یا توزیع قیمت ماشین در کارخانه‌های متفاوت را می‌توان با نمودار ویولنی بررسی و تحلیل کرد.

نمودار ویولنی مشابه نمودار جعبه‌ای، خلاصه‌ای از آمار داده شامل موارد زیر را نشان می‌دهد:

  • خط عمودی کوچک وسط جعبهٔ رسم شده داخل نمودار، نشان‌دهندهٔ میانه است.
  • خط ضخیم‌تر عمودی در مرکز شکل، نشان‌دهندهٔ بازهٔ میان چارکی است.
  • خط باریک‌تر عمودی در مرکز، نشان دهندهٔ ۹۵٪ فاصلهٔ اطمینان است.

هر کدام از دو طرف خط رسم شدهٔ عمودی وسط نمودار، یک برآورد چگالی برای نمایش توزیع شکل داده‌هاست. بخش‌های عریض‌تر نمودار نشان‌دهندهٔ این است که نمونه‌ها در دادهٔ مورد نظر با احتمال بیشتری این مقدار را می‌توانند بگیرند و هر چه برای یک مقدار این عرض کوچکتر باشد احتمال آن کمتر است. در این نمودار، چنانچه تعداد نمونه‌ها بسیار زیاد نباشد، بخش درونی می‌تواند تمام نقاط نمونه‌ها را (با یک راس یا خط برای هر نمونه) نشان دهد.

اگر این نمودار اطلاعات بیشتری نسبت به نمودار جعبه‌ای در اختیار می‌گذارد، یکی از ضعف‌های این نمودار این است که نسبت به نمودارهای دیگر کمتر رایج است. این رواج کمتر باعث می‌شود درک نمودار برای بسیاری از خوانندگانی که با نحوهٔ نمایش آن آشنا نیستند سخت‌تر باشد. در این موارد، جایگزینِ در دسترس دیگر، رسم دنباله‌ای از هیستوگرام‌ها یا توزیع برآورد چگالی به صورت پشته بر روی هم است.[۲]

نمودار ویولنی به عنوان افزونه برای بسیاری از پکیج‌های نرم‌افزاری در دسترس است. از جملهٔ این موارد کتابخانه‌های R, wvioplot, caroline, UsngR, lattice و ggplot، کتابخانهٔ پایتون به نام matplotlib[۳] و Seaborn می‌باشند.

منابع[ویرایش]

  1. "VIOLIN PLOT". NIST DataPlot. National Institute of Standards and Technology. 2015-10-13.
  2. https://blog.modeanalytics.com/violin-plot-examples/
  3. Waskom, Michael. "Violinplot from a wide-form dataset". Seaborn: statistical data visualization.