آمار
| فارسی | English | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
برای دیگر کاربردها، آمار (ابهامزدایی) را ببینید.
آمار (به انگلیسی: statistics) به مجموعهی دادههای عددی مربوط به یک موضوع (معمولا مهم)، مانند جمعیت، متوفیات، میزان تجارت داخلی یا خارجی، دما یا بارش ماهیانه و غیر گفته میشود. آمار را باید علم و عمل استخراج، بسط، و توسعهٔ دانشهای تجربی انسانی با استفاده از روشهای گردآوری، تنظیم، پرورش، و تحلیل دادههای تجربی (حاصل از اندازه گیری و آزمایش) دانست. زمینههای محاسباتی و رایانهای جدیدتری همچون یادگیری ماشینی، و کاوشهای ماشینی در دادهها، در واقع، امتداد و گسترش دانش گسترده و کهن از آمار به عهد محاسبات نو و دوران اعمال شیوههای ماشینی در همهجا میباشد. علم آمار، علم فن فراهم کردن دادههای کمّی و تحلیل آنها به منظور به دست آورن نتیایجی که اگرچه احتمالی است، اما در خور اعتماد است.
مقدمه [ویرایش]در صورتی که شاخهای علمی مد نظر نباشد، معنای آن، دادههایی بهشکل ارقام و اعداد واقعی یا تقریبی است که با استفاده از علم آمار میتوان با آنها رفتار کرد و عملیات ذکر شده در بالا را بر آنها انجام داد. بیشتر مردم با کلمة آمار به مفهومی که برای ثبت و نمایش اطلاعات عددی به کار میرود آشنا هستند . ولی این مفهوم منطبق با موضوع اصلی مورد بحث آمار نیست. آمار عمدتاً با وضعیتهایی سر و کار دارد که در آنها وقوع یک پیشامد به طور حتمی قابل پیش بینی نیست. اسنتاجهای آماری غالباً غیر حتمی اند، زیرا مبتنی بر اطلاعات ناکاملی هستند. در طول چندین دهه آمار فقط با بیان اطلاعات و مقادیر عددی در باره اقتصاد، جمعیتشناسی و اوضاع سیاسی حاکم در یک کشور سر و کار داشت. حتی امروز بسیاری از نشریات و گزارشهای دولتی که تودهای از آمار و ارقام را در بردارند معنی اولیه کلمه آمار را در ذهن زنده میکنند. اکثر افراد معمولی هنوز این تصویر غلط را در باره آمار دارند که آن را منحصر به ستونهای عددی سرگیجه آور و گاهی یک سری شکلهای مبهوت کننده میدانند .بنابراین، یادآوری این نکته ضروری است که نظریه و روشهای جدید آماری از حد ساختن جدولهای اعداد و نمودارها بسیار فراتر رفتهاند. آمار به عنوان یک موضوع علمی، امروزه شامل مفاهیم و روشهایی است که در تمام پژوهشهایی که مستلزم جمع آوری دادهها به وسیله یک فرایند آزمایش و مشاهده و انجام استنباط و نتیجه گیری به وسیله تجزیه و تحلیل این دادهها هستند اهمیت بسیار دارند. علم آمار [ویرایش]علم آمار، خود مبتنی است بر نظریه آمار که شاخهای از ریاضیات کاربردی به حساب میآید. در نظریهٔ آمار، اتفاقات تصادفی و عدم قطعیت توسط نظریهٔ احتمالات مدلسازی میشوند. در این علم، مطالعه و قضاوت معقول در بارهٔ موضوعهای گوناگون، بر مبنای یک جمع انجام میشود و قضاوت در مورد یک فرد خاص، اصلاً مطرح نیست. از جملهٔ مهمترین اهداف آمار، میتوان تولید «بهترین» اطّلاعات از دادههای موجود و سپس استخراج دانش از آن اطّلاعات را ذکر کرد. به همین سبب است که برخی از منابع، آمار را شاخهای از نظریه تصمیمها به شمار میآورند. این علم به بخشهای آمار توصیفی و آمار استنباطی تقسیم میشود. از طرف دیگر میتوان آن را به دو بخش آمار کلاسیک و آمار بیز تقسیم بندی کرد. در آمار کلاسیک، که امروزه در دانشگاهها و دبیرستانها تدریس میگردد، ابتدا آزمایش و نتیجه را داریم و بعد بر اساس آنها فرضها را آزمون میکنیم. به عبارت دیگر ابتدا آزمایش انجام میشود و بعد فرض آزمون میگردد. در آمار بیزی ابتدا فرض در نظر گرفته میشود و دادهها با آن مطابقت داده میشوند به عبارت دیگر در آمار بیزی یک پیش توزیع داریم-توزیع پیشین- و بعد از مطالعه دادهها و برای رسیدن به آن توزیع پیشین، توزیع پسین را در نظر میگیریم. عمل آماری [ویرایش]شامل برنامهریزی و جمعبندی و تفسیر مشاهدات غیر قطعی است بهشکلی که∗ :
روشهای آماری [ویرایش]مطالعات تجربی و مشاهداتی هدف کلی برای یک پروژه تحقیقی آماری، بررسی حوادث اتفاقی بوده و به ویژه نتیجه گیری روی تأثیر تغییرات در ارزش شاخصها یا متغیرهای غیر وابسته روی یک پاسخ یا متغیر وابستهاست. دو شیوه اصلی از مطالعات آماری تصادفی وجود دارد: مطالعات تجربی و مطالعات مشاهداتی. در هر دو نوع از این مطالعات، اثر تغییرات در یک متغیر (یا متغیرهای) غیر وابسته روی رفتار متغیرهای وابسته مشاهده میشود. اختلاف بین این دو شیوه درچگونگی مطالعهای است که عملاً هدایت میشود. یک مطالعه تجربی در بردارنده روشهای اندازه گیری سیستم تحت مطالعهاست که سیستم را تغییر میدهد و سپس با استفاده از روش مشابه اندازه گیریهای اضافی انجام میدهد تا مشخص سازد که آیا تغییرات انجام شده، مقادیر شاخصها را تغییر میدهد یا خیر. در مقابل یک مطالعه نظری، مداخلات تجربی را در بر نمیگیرد. در عوض دادهها جمع آوری میشوند و روابط بین پیش بینیها و جواب بررسی میشوند. یک نمونه از مطالعه تجربی، مطالعات Hawthorne مشهور است که تلاش کرد تا تغییرات در محیط کار را در کمپانی الکتریک غربی Howthorne بیازماید. محققان علاقه مند بودند که آیا افزایش نور میتواند کارایی را در کارگران خط تولید افزایش دهد. محققان ابتدا کارایی را در کارخانه اندازه گیری کردند و سپس میزان نور را در یک قسمت از کارخانه تغییر دادند تا مشاهده کنند که آیا تغییر در نور میتواند کارایی را تغییر دهد. به واسطه خطا در اقدامات تجربی، به ویژه فقدان یک گروه کنترل محققاتی در حالی که قادر نبودند آنچه را که طراحی کرده بودند، انجام دهند قادر شدند تا محیط را با شیوه Hawthorne آماده سازند. یک نمونه از مطالعه مشاهداتی، مطالعه ایست که رابطه بین سیگار کشیدن و سرطان ریه را بررسی میکند. این نوع از مطالعه به طور اختصاصی از شیوهای استفاده میکند تا مشاهدات مورد علاقه را جمع آوری کند و سپس تجزیه و تحلیل آماری انجام دهد. در این مورد، محققان مشاهدات افراد سیگاری و غیر سیگاری را جمع آوری میکنند و سپس به تعداد موارد سرطان ریه در هر دو گروه توجه میکنند. احتمالات [ویرایش]مقالهٔ اصلی: احتمالات نرمافزارها [ویرایش]آمار مدرن برای انجام بعضی از محاسبات خیلی پیچیده و بزرگ به وسیله رایانهها استفاده میشود. کل شاخههای آمار با استفاده از محاسبات کامپیوتری انجامپذیر شدهاند، برای مثال شبکههای عصبی. انقلاب کامپیوتری با یک توجه نو به آمار «آزمایشی» و «شناختیک» رویکردهایی برای آینده آمار داشتهاست. یکی از مهمترین کاربردهای آمار و احتمال با استفاده از رایانه شبیه سازی است . شبیه سازی نسخهای از بعضی وسایل حقیقی یا موقعیتهای کاری است. شبیه سازی تلاش دارد تا بعضی جنبههای رفتاری یک سیستم فیزیکی یا انتزاعی را به وسیله رفتار سیستم دیگری نمایش دهد. شبیه سازی در بسیاری از متون شامل مدل سازی سیستمهای طبیعی و سیتمهای انسانی استفاده میشود. برای به دست آوردن بینش نسبت به کارکرد این سیستمها در تکنولوژی و مهندسی ایمنی که هدف، آزمون بعضی سناریوهای عملی در دنیای واقعی است از شبیه سازی استفاده میشود. در شبیه سازی با استفاده از یک شبیه ساز یا وسیله دیگری در یک موقعیت ساختگی میتوان آثار واقعی بعضی شرایط احتمالی را بازسازی کرد. ۱- شبیه سازی فیزیکی و متقابل (شبیه سازی فیزیکی، به شبیه سازی اطلاق میشود که در آن اشیای فیزیکی به جای شی واقعی جایگزین میشوند و این اجسام فیزیکی اغلب به این خاطر استفاده میشوند که کوچکتر و ارزان تر از شی یا سیستم حقیقی هستند. شبیه سازی متقابل (تعاملی) که شکل خاصی از شبیه سازی فیزیکی است و غالباً به انسان در شبیه سازیهای حلقهای اطلاق میشود یعنی شبیه سازیهای فیزیکی که شامل انسان میشوند مثل مدل استفاده شده در شبیه ساز پرواز.) ۲- شبیه سازی در آموزش (شبیه سازی اغلب در آموزش پرسنل شهری و نظامی استفاده میشود. معمولاً هنگامی رخ میدهد که استفاده از تجهیزات در دنیای واقعی از لحاظ هزینه کمرشکن یا بسیار خطرناک است تا بتوان به کارآموزان اجازه استفاده از آنها را داده. در چنین موقعیتهایی کارآموزان وقت خود را با آموزش دروس ارزشمند در یک محیط واقعی «ایمن» میگذرانند. غالباً این اطمینان وجود دارد تا اجازه خطا را به کارآموزان در طی آموزش داد تا ارزیابی سیستم ایمنی– بحران صورت گیرد.) شبیه سازیهای آموزشی به طور خاص در یکی از چهار گروه زیر قرار میگیرند : الف - شبیه سازی زنده (جایی که افراد واقعی از تجهیزات شبیه سازی شده (یا آدمک) در دنیای واقعی استفاده میکنند.) ب - شبیه سازی مجازی (جایی که افراد واقعی از تجهیزات شبیه سازی شده در دنیای شبیه سازی شده (یا محیط واقعی) استفاده میکنند.) یا ج - شبیه سازی ساختاری (جایی که افراد شبیه سازی شده از تجهیزات شبیه سازی شده در یک محیط شبیه سازی شده استفاده میکنند. اغلب به عنوان بازی جنگی نامیده میشود زیرا که شباهتهایی با بازیهای جنگی رومیزی دارد که در آنها بازیکنان، سربازان و تجهیزات را اطراف یک میز هدایت میکنند .) د - شبیه سازی ایفای نقش (جایی که افراد واقعی نقش یک کار واقعی را بازی میکنند.) ۳ - شبیه سازیهای پزشکی (شبیه سازهای پزشکی به طور فزایندهای در حال توسعه و کاربرد هستند تا روشهای درمانی و تشخیص و همچنین اصول پزشکی و تصمیم گیری به پرسنل بهداشتی آموزش داده شود. طیف شبیه سازها برای آموزش روشها از پایه مثل خونگیری تا جراحی لاپاراسکوپی و مراقبت از بیمار دچار ضربه، وسیع و گستردهاست. بسیاری از شبیه سازهای پزشکی دارای یک رایانه هستند که به یک ماکت پلاستیکی با آناتومی مشابه واقعی متصل است. در بعضی از آنها، ترسیمهای کامپیوتری تمام اجزای قابل رؤیت را به دست میدهد و با دستکاری در دستگاه میتوان جنبههای شبیه سازی شده کار را تولید کرد. بعضی از این دستگاهها دارای شبیه سازهای گرافیکی رایانهای برای تصویربرداری هستند مانند پرتو ایکس یا سایر تصاویر پزشکی. بعضی از شبیه سازهای بیمار، دارای یک مانکن انسان نما هستند که به داروهای تزریق شده واکنش میدهد و میتوان آن را برای خلق صحنههای مشابه فوریتهای پزشکی خطرناک برنامه ریزی کرد. بعضی از شبیه سازهای پزشکی از طریق شبکه اینترنت قابل گسترش هستند و با استفاده از جستجوگرهای استاندارد شبکه به تغییرات جواب میدهند. در حال حاضر، شبیه سازیها به موارد غربال گری پایه محدود شدهاند به نحوی که استفاده کنندگان از طریق وسایل امتیازدهی استاندارد با شبیه سازی در ارتباط هستند.) ۴ - شبیه سازهای پرواز (یک شبیه ساز پرواز برای آموزش خلبانان روی زمین مورد استفاده قرار میگیرد. به خلبان اجازه داده میشود تا به هواپیمای شبیه سازی شده اش آسیب برساند بدون آن که خود دچار آسیب شود. شبیه سازهای پرواز اغلب برای آموزش خلبانان استفاه میشوند تا هواپیما را در موقعیتهای بسیار خطرناک مثل زمین نشستن بدون داشتن موتور یا نقص کامل الکتریکی یا هیدرولیکی هدایت کنند. پیشرفتهترین شبیه سازها دارای سیستم بصری با کیفیت بالا و سیستم حرکت هیدرولیک هستند. کار با شبیه ساز به طور معمول نسبت به هواپیمای واقعی ارزان تر است.) ۵ - شبیه سازی و بازیها(هم چنین بسیاری از بازیهای ویدئویی شبیه ساز هستند که به طور ارزان تر آماده سازی شدهاند. بعضی اوقات از اینها به عنوان بازیهای شبیه سازی (sim) نامبرده میشود. چنین بازیهایی جنبههای گوناگون واقعی را شبیه سازی میکنند از اقتصاد گرفته تا وسایل هوانوردی مثل شبیه سازهای پرواز.) ۶ - شبیه سازی مهندسی (شبیه سازی یک مشخصه مهم در سیستمهای مهندسی است. برای مثال در مهندسی برق، از خطوط تأخیری استفاده میشود تا تأخیر تشدید شده و شیفت فاز ناشی از خط انتقال واقعی را شبیه سازی کنند. مشابهاً، از بارهای ظاهری میتوان برای شبیه سازی مقاومت بدون شبیه سازی تشدید استفاده کرد و از این حالت در مواقعی استفاده میشود که تشدید ناخواسته باشد. یک شبیه ساز ممکن است تنها چند تا از کارکردهای واحد را شبیه سازی کند که در مقابل با عملی است که تقلید نامیده میشود. ۷ - اغلب شبیه سازیهای مهندسی مستلزم مدل سازی ریاضی و بررسیهای کامپیوتری هستند. به هر حال موارد زیادی وجود دارد که مدل سازی ریاضی قابل اعتماد نیست. شبیه سازی مشکلات مکانیک سیالات اغلب مستلزم شبیه سازیهای ریاضی و فیزیکی است. در این موارد، مدلهای فیزیکی نیاز به شبیه سازی دینامیک دارند.) ۸ - شبیه سازی کامپیوتری (شبیه سازی رایانه، جزو مفیدی برای بسیاری از سیستمهای طبیعی در فیزیک، شیمی و زیستشناسی و نیز برای سیستمهای انسانی در اقتصاد و علوم اجتماعی (جامعهشناسی کامپیوتری) و همچنین در مهندسی برای به دست آوردن بینش نسبت به عمل این سیستمها شدهاست. یک نمونه خوب از سودمندی استفاده از رایانهها در شبیه سازی را میتوان در حیطه شبیه سازی ترافیک شبکه جستجو کرد. در چنین شبیه سازیهایی رفتار مدل هر شبیه سازی را مطابق با مجموعه پارامترهای اولیه منظور شده برای محیط تغییر خواهد داد.شبیه سازیهای کامپیوتری] اغلب به این منظور به کار گرفته میشوند تا انسان از شبیه سازیهای حلقهای در امان باشد. به طور سنتی، مدل برداری رسمی سیستمها از طریق یک مدل ریاضی بودهاست به نحوی که تلاش در جهت یافتن راه حل تحلیلی برای مشکلات بودهاست که پیش بینی رفتار سیستم را با استفاده از یک سری پارامترها و شرایط اولیه ممکن ساختهاست. شبیه سازی کامپیوتری اغلب به عنوان یک ضمیمه یا جانشین برای سیستمهای مدل سازی است که در آنها راه حلهای تحلیلی بسته ساده ممکن نیست. انواع مختلفی از شبیه سازی کامپیوتری وجود دارد که وجه مشترک همه آنها در این است که تلاش میکند تا یک نمونه از برنامهای برای یک مدل تولید کنند که در آن امکان محاسبه کامل تمام حالات ممکن مدل مشکل یا غیر ممکن است.) به طور رو به افزونی معمول شدهاست که نام انواع مختلفی از شبیه سازی شنیده میشود که به عنوان «محیطهای صناعی» اطلاق میشوند. این عنوان اتخاذ شدهاست تا تعریف شبیه سازی عملاً به تمام دستاوردهای حاصل از رایانه تعمیم داده شود. ۹ - شبیه سازی در علم رایانه (در برنامه نویسی کامپیوتری، یک شبیه ساز اغلب برای اجرای برنامهای مورد استفاده قرار میگیرد که انجام آن برای رایانه با مقداری دشواری همراه است. برای مثال، شبیه سازها معمولاً برای رفع عیب یک ریزبرنامه استفاده میشوند. از آن جایی که کار کامپیوتر شبیه سازی شدهاست، تمام اطلاعات در مورد کار رایانه مستقیماً در دسترس برنامه دهندهاست و سرعت و اجرای شبیه سازی را میتوان تغییر داد. همچنین شبیه سازها برای تفسیر درختهای عیب یا تست کردن طراحیهای منطقی VLSI قبل از ساخت مورد استفاده قرار میگیرند. در علم رایانه نظریه، عبارت شبیه سازی نشان دهنده یک رابطه بین سیستمهای انتقال وضعیت است که این در مطالعه مفاهیم اجرایی سودمند است.) ۱۰ - شبیه سازی در تعلیم و تربیت (شبیه سازیها در تعلیم و تربیت گاهی مثل شبیه سازیهای آموزشی هستند. آنها روی وظایف خاص متمرکز میشوند. در گذشته از ویدئو برای معلمین و دانش آموزان استفاده میشود تا مشاهده کنند، مسائل را حل کنند و نقش بازی کنند؛ هرچند، یک استفاده جدید تر از شبیه سازیها در تعلیم و تربیت شامل فیلمهای انیمیشن است (ANV .(ANVها نوعی فیلم ویدئویی کارتون مانند با داستانهای تخیلی یا واقعی هستند که برای آموزش و یادگیری کلاس استفاده میشوند.ANVها برای ارزیابی آگاهی، مهارتهای حل مسئله و نظم بچهها و معلمین قبل و حین اشتغال کارایی دارند.) شکل دیگری از شبیه سازی در سالهای اخیر با اقبال در آموزش بازرگانی مواجه شدهاست. شبیه سازی بازرگانی که دارای یک مدل پویا است که آزمون استراتژیهای بازرگانی را در محیط فاقد خطر مهیا میسازد و محیط مساعدی برای مباحث مطالعه موارد ارائه میدهد. واژگانی که درک مفهوم آنها در علم آمار مهم است عبارتاند از∗ :
آمار رشته وسیعی از ریاضی است که راههای جمع آوری، خلاصه سازی و نتیجه گیری از دادهها را مطالعه میکند. این علم برای طیف وسیعی از علوم دانشگاهی از فیزیک و علوم اجتماعی گرفته تا انسانشناسی و همچنین تجارت، حکومت داری و صنعت کاربرد دارد. هنگامی که دادهها جمع آوری شدند چه از طریق یک روش نمونه برداری خاص یا به وسیله ثبت پاسخها در قبال رفتارها در یک مجموعه آزمایشی (طرح آزمایش) یا به وسیله مشاهده مکرر یک فرایند در طی زمان (سریهای زمانی) خلاصههای گرافیکی یا عددی را میتوان با استفاده از آمار توصیفی به دست آورد. الگوهای موجه در دادهها سازمان بندی میشوند تا نتیجه گیری در مورد جمعیتهای بزرگتر به دست آید که این کار با استفاده از آمار استنباطی صورت میگیرد و تصادفی بودن و عدم قاطعیت در مشاهدات را شناسایی میکند. این استنباطها ممکن است به شکل جوابهای بله یا خیر به سؤالات باشد (آزمون فرض)، خصوصیات عددی را برآورد کند(تخمین)، پیش گویی مشاهدات آتی باشد، توصیف ارتباطها باشد (همبستگی) و یا مدل سازی روابط باشد (رگرسیون). شبکه توصیف شده در بالا گاهی اوقات به عنوان آمار کاربردی اطلاق میشود. در مقابل، آمار ریاضی (یا ساده تر نظریه آماری) زیر رشتهای از ریاضی کاربردی است که از نظریه احتمال و آنالیز برای به کارگیری آمار برروی یک پایه نظریه محکم استفاده میکند. مراحل پایه برای انجام یک تجربه عبارتاند از : برنامه ریزی تحقیق شامل تعیین منابع اطلاعاتی، انتخاب موضوع تحقیق و ملاحظات اخلاقی برای تحقیق و روش پیشنهادی. طراحی آزمون شامل تمرکز روی مدل سیستم و تقابل متغیرهای مستقل و وابسته. خلاصه سازی از نتایج مشاهدات برای جامعیت بخشیدن به آنها با حذف نتایج (آمار توصیفی). رسیدن به اجماع در مورد آنچه مشاهدات درباره دنیایی که مشاهده میکنیم به ما میگویند (استنباط آماری). ثبت و ارائه نتایج مطالعه. سطوح اندازه گیری [ویرایش]چهار نوع اندازه گیری یا مقیاس اندازه گیری در آمار استفاده میشود. چهار نوع یا سطح اندازه گیری (ترتیبی، اسمی، بازه ای و نسبی) دارای درجات متفاوتی از سودمندی در بررسیهای آماری دارند. اندازه گیری نسبی در حالی که هم یک مقدار صفر و فاصله بین اندازههای متفاوت تعریف میشود بیشترین انعطاف پذیری را در بین روشهای آماری دارد که میتواند برای تحلیل دادهها استفاده شود. مقیاس تناوبی با داشتن فواصل معنی دار بین اندازهها اما بدون داشتن میزان صفر معنی دار (مثل اندازهگیری بهره هوشی یا اندازهگیری دما در مقیاس سلسیوس) در تحقیقات آماری استفاده میشود. صفت آماری - هر ویژگی مربوط به هر واحد جامعه را یک صفت آماری یا به اختصار یک صفت برای آن واحد آماری است. اگر یک واحد آماری یک انسان باشد، گروه خون، وزن، میزان سواد، میزان درآمد، درجه حرارت بدن و تعدادخانوار هر کدام یک صفت آماری برای آن واحد است. صفتهای آماری دو دسته کلی هستند. ۱- صفت مشخصه ۲ صفت متغیر پانویس [ویرایش]جستارهای وابسته [ویرایش]
کلاس درس برخطی مربوط به موضوع این مقاله در کلاسهای درس اینترنتی در بخش آمار موجود است.
منابع [ویرایش]
پیوند به بیرون [ویرایش]
|
This article is about the discipline. For other uses, see Statistics (disambiguation).
Statistics is the study of the collection, organization, analysis, interpretation, and presentation of data.[1][2] It deals with all aspects of this, including the planning of data collection in terms of the design of surveys and experiments.[1] The word statistics, when referring to the scientific discipline, is singular, as in "Statistics is an art."[3] This should not be confused with the word statistic, referring to a quantity (such as mean or median) calculated from a set of data,[4] whose plural is statistics ("this statistic seems wrong" or "these statistics are misleading").
More probability density is found the closer one gets to the expected (mean) value in a normal distribution. Statistics used in standardized testing assessment are shown. The scales include standard deviations, cumulative percentages, percentile equivalents, Z-scores, T-scores, standard nines, and percentages in standard nines.
Scope [edit]Some consider statistics a mathematical body of science that pertains to the collection, analysis, interpretation or explanation, and presentation of data,[5] while others consider it a branch of mathematics[6] concerned with collecting and interpreting data. Because of its empirical roots and its focus on applications, statistics is usually considered a distinct mathematical science rather than a branch of mathematics.[7][8] Much of statistics is non-mathematical: ensuring that data collection is undertaken in a way that produces valid conclusions; coding and archiving data so that information is retained and made useful for international comparisons of official statistics; reporting of results and summarised data (tables and graphs) in ways comprehensible to those who must use them; implementing procedures that ensure the privacy of census information. Statisticians improve data quality by developing specific experiment designs and survey samples. Statistics itself also provides tools for prediction and forecasting the use of data and statistical models. Statistics is applicable to a wide variety of academic disciplines, including natural and social sciences, government, and business. Statistical consultants can help organizations and companies that don't have in-house expertise relevant to their particular questions. Statistical methods can summarize or describe a collection of data. This is called descriptive statistics. This is particularly useful in communicating the results of experiments and research. In addition, data patterns may be modeled in a way that accounts for randomness and uncertainty in the observations. These models can be used to draw inferences about the process or population under study—a practice called inferential statistics. Inference is a vital element of scientific advance, since it provides a way to draw conclusions from data that are subject to random variation. To prove the propositions being investigated further, the conclusions are tested as well, as part of the scientific method. Descriptive statistics and analysis of the new data tend to provide more information as to the truth of the proposition. "Applied statistics" comprises descriptive statistics and the application of inferential statistics.[9][verification needed] Theoretical statistics concerns both the logical arguments underlying justification of approaches to statistical inference, as well encompassing mathematical statistics. Mathematical statistics includes not only the manipulation of probability distributions necessary for deriving results related to methods of estimation and inference, but also various aspects of computational statistics and the design of experiments. Statistics is closely related to probability theory, with which it is often grouped. The difference is, roughly, that probability theory starts from the given parameters of a total population to deduce probabilities that pertain to samples. Statistical inference, however, moves in the opposite direction—inductively inferring from samples to the parameters of a larger or total population. History [edit]Main articles: History of statistics and Founders of statistics
Statistical methods date back at least to the 5th century BC. The earliest known writing on statistics appears in a 9th century book entitled Manuscript on Deciphering Cryptographic Messages, written by Al-Kindi. In this book, Al-Kindi provides a detailed description of how to use statistics and frequency analysis to decipher encrypted messages. This was the birth of both statistics and cryptanalysis, according to the Saudi engineer Ibrahim Al-Kadi.[10][11] The Nuova Cronica, a 14th century history of Florence by the Florentine banker and official Giovanni Villani, includes much statistical information on population, ordinances, commerce, education, and religious facilities, and has been described as the first introduction of statistics as a positive element in history.[12] Some scholars pinpoint the origin of statistics to 1663, with the publication of Natural and Political Observations upon the Bills of Mortality by John Graunt.[13] Early applications of statistical thinking revolved around the needs of states to base policy on demographic and economic data, hence its stat- etymology. The scope of the discipline of statistics broadened in the early 19th century to include the collection and analysis of data in general. Today, statistics is widely employed in government, business, and natural and social sciences. Its mathematical foundations were laid in the 17th century with the development of the probability theory by Blaise Pascal and Pierre de Fermat. Probability theory arose from the study of games of chance. The method of least squares was first described by Carl Friedrich Gauss around 1794. The use of modern computers has expedited large-scale statistical computation, and has also made possible new methods that are impractical to perform manually. Overview [edit]In applying statistics to a scientific, industrial, or societal problem, it is necessary to begin with a population or process to be studied. Populations can be diverse topics such as "all persons living in a country" or "every atom composing a crystal". A population can also be composed of observations of a process at various times, with the data from each observation serving as a different member of the overall group. Data collected about this kind of "population" constitutes what is called a time series. For practical reasons, a chosen subset of the population called a sample is studied—as opposed to compiling data about the entire group (an operation called census). Once a sample that is representative of the population is determined, data is collected for the sample members in an observational or experimental setting. This data can then be subjected to statistical analysis, serving two related purposes: description and inference.
"... it is only the manipulation of uncertainty that interests us. We are not concerned with the matter that is uncertain. Thus we do not study the mechanism of rain; only whether it will rain." Dennis Lindley, 2000[15]
The concept of correlation is particularly noteworthy for the potential confusion it can cause. Statistical analysis of a data set often reveals that two variables (properties) of the population under consideration tend to vary together, as if they were connected. For example, a study of annual income that also looks at age of death might find that poor people tend to have shorter lives than affluent people. The two variables are said to be correlated; however, they may or may not be the cause of one another. The correlation phenomena could be caused by a third, previously unconsidered phenomenon, called a lurking variable or confounding variable. For this reason, there is no way to immediately infer the existence of a causal relationship between the two variables. (See Correlation does not imply causation.) To use a sample as a guide to an entire population, it is important that it truly represent the overall population. Representative sampling assures that inferences and conclusions can safely extend from the sample to the population as a whole. A major problem lies in determining the extent that the sample chosen is actually representative. Statistics offers methods to estimate and correct for any random trending within the sample and data collection procedures. There are also methods of experimental design for experiments that can lessen these issues at the outset of a study, strengthening its capability to discern truths about the population. Randomness is studied using the mathematical discipline of probability theory. Probability is used in "mathematical statistics" (alternatively, "statistical theory") to study the sampling distributions of sample statistics and, more generally, the properties of statistical procedures. The use of any statistical method is valid when the system or population under consideration satisfies the assumptions of the method. Misuse of statistics can produce subtle, but serious errors in description and interpretation—subtle in the sense that even experienced professionals make such errors, and serious in the sense that they can lead to devastating decision errors. For instance, social policy, medical practice, and the reliability of structures like bridges all rely on the proper use of statistics. See below for further discussion. Even when statistical techniques are correctly applied, the results can be difficult to interpret for those lacking expertise. The statistical significance of a trend in the data—which measures the extent to which a trend could be caused by random variation in the sample—may or may not agree with an intuitive sense of its significance. The set of basic statistical skills (and skepticism) that people need to deal with information in their everyday lives properly is referred to as statistical literacy. Statistical methods [edit]Experimental and observational studies [edit]A common goal for a statistical research project is to investigate causality, and in particular to draw a conclusion on the effect of changes in the values of predictors or independent variables on dependent variables or response. There are two major types of causal statistical studies: experimental studies and observational studies. In both types of studies, the effect of differences of an independent variable (or variables) on the behavior of the dependent variable are observed. The difference between the two types lies in how the study is actually conducted. Each can be very effective. An experimental study involves taking measurements of the system under study, manipulating the system, and then taking additional measurements using the same procedure to determine if the manipulation has modified the values of the measurements. In contrast, an observational study does not involve experimental manipulation. Instead, data are gathered and correlations between predictors and response are investigated. Experiments [edit]The basic steps of a statistical experiment are:
Experiments on human behavior have special concerns. The famous Hawthorne study examined changes to the working environment at the Hawthorne plant of the Western Electric Company. The researchers were interested in determining whether increased illumination would increase the productivity of the assembly line workers. The researchers first measured the productivity in the plant, then modified the illumination in an area of the plant and checked if the changes in illumination affected productivity. It turned out that productivity indeed improved (under the experimental conditions). However, the study is heavily criticized today for errors in experimental procedures, specifically for the lack of a control group and blindness. The Hawthorne effect refers to finding that an outcome (in this case, worker productivity) changed due to observation itself. Those in the Hawthorne study became more productive not because the lighting was changed but because they were being observed.[citation needed] Observational study [edit]An example of an observational study is one that explores the correlation between smoking and lung cancer. This type of study typically uses a survey to collect observations about the area of interest and then performs statistical analysis. In this case, the researchers would collect observations of both smokers and non-smokers, perhaps through a case-control study, and then look for the number of cases of lung cancer in each group. Levels of measurement [edit]Main article: Levels of measurement
There are four main levels of measurement used in statistics: nominal, ordinal, interval, and ratio.[16] Each of these have different degrees of usefulness in statistical research. Ratio measurements have both a meaningful zero value and the distances between different measurements defined; they provide the greatest flexibility in statistical methods that can be used for analyzing the data.[citation needed] Interval measurements have meaningful distances between measurements defined, but the zero value is arbitrary (as in the case with longitude and temperature measurements in Celsius or Fahrenheit). Ordinal measurements have imprecise differences between consecutive values, but have a meaningful order to those values. Nominal measurements have no meaningful rank order among values. Because variables conforming only to nominal or ordinal measurements cannot be reasonably measured numerically, sometimes they are grouped together as categorical variables, whereas ratio and interval measurements are grouped together as quantitative variables, which can be either discrete or continuous, due to their numerical nature. Key terms used in statistics [edit]Null hypothesis [edit]Interpretation of statistical information can often involve the development of a null hypothesis in that the assumption is that whatever is proposed as a cause has no effect on the variable being measured. The best illustration for a novice is the predicament encountered by a jury trial. The null hypothesis, H0, asserts that the defendant is innocent, whereas the alternative hypothesis, H1, asserts that the defendant is guilty. The indictment comes because of suspicion of the guilt. The H0 (status quo) stands in opposition to H1 and is maintained unless H1 is supported by evidence"beyond a reasonable doubt". However,"failure to reject H0" in this case does not imply innocence, but merely that the evidence was insufficient to convict. So the jury does not necessarily accept H0 but fails to reject H0. While one can not "prove" a null hypothesis one can test how close it is to being true with a power test, which tests for type II errors. Error [edit]Working from a null hypothesis two basic forms of error are recognized:
Error also refers to the extent to which individual observations in a sample differ from a central value, such as the sample or population mean. Many statistical methods seek to minimize the mean-squared error, and these are called "methods of least squares." Measurement processes that generate statistical data are also subject to error. Many of these errors are classified as random (noise) or systematic (bias), but other important types of errors (e.g., blunder, such as when an analyst reports incorrect units) can also be important. Interval estimation [edit]Main article: Interval estimation
Most studies only sample part of a population , so results don't fully represent the whole population. Any estimates obtained from the sample only approximate the population value. Confidence intervals allow statisticians to express how closely the sample estimate matches the true value in the whole population. Often they are expressed as 95% confidence intervals. Formally, a 95% confidence interval for a value is a range where, if the sampling and analysis were repeated under the same conditions (yielding a different dataset), the interval would include the true (population) value 95% of the time. This does not imply that the probability that the true value is in the confidence interval is 95%. From the frequentist perspective, such a claim does not even make sense, as the true value is not a random variable. Either the true value is or is not within the given interval. However, it is true that, before any data are sampled and given a plan for how to construct the confidence interval, the probability is 95% that the yet-to-be-calculated interval will cover the true value: at this point, the limits of the interval are yet-to-be-observed random variables. One approach that does yield an interval that can be interpreted as having a given probability of containing the true value is to use a credible interval from Bayesian statistics: this approach depends on a different way of interpreting what is meant by "probability", that is as a Bayesian probability. Significance [edit]Main article: Statistical significance
Statistics rarely give a simple Yes/No type answer to the question asked of them. Interpretation often comes down to the level of statistical significance applied to the numbers and often refers to the probability of a value accurately rejecting the null hypothesis (sometimes referred to as the p-value). Referring to statistical significance does not necessarily mean that the overall result is significant in real world terms. For example, in a large study of a drug it may be shown that the drug has a statistically significant but very small beneficial effect, such that the drug is unlikely to help the patient noticeably. Criticisms arise because the hypothesis testing approach forces one hypothesis (the null hypothesis) to be "favored," and can also seem to exaggerate the importance of minor differences in large studies. A difference that is highly statistically significant can still be of no practical significance, but it is possible to properly formulate tests in account for this. (See also criticism of hypothesis testing.) One response involves going beyond reporting only the significance level to include the p-value when reporting whether a hypothesis is rejected or accepted. The p-value, however, does not indicate the size of the effect. A better and increasingly common approach is to report confidence intervals. Although these are produced from the same calculations as those of hypothesis tests or p-values, they describe both the size of the effect and the uncertainty surrounding it. Examples [edit]Some well-known statistical tests and procedures are: Specialized disciplines [edit]Main article: List of fields of application of statistics
Statistical techniques are used in a wide range of types of scientific and social research, including: biostatistics, computational biology, computational sociology, network biology, social science, sociology and social research. Some fields of inquiry use applied statistics so extensively that they have specialized terminology. These disciplines include:
In addition, there are particular types of statistical analysis that have also developed their own specialised terminology and methodology:
Statistics form a key basis tool in business and manufacturing as well. It is used to understand measurement systems variability, control processes (as in statistical process control or SPC), for summarizing data, and to make data-driven decisions. In these roles, it is a key tool, and perhaps the only reliable tool. Statistical computing [edit]Main article: Computational statistics
The rapid and sustained increases in computing power starting from the second half of the 20th century have had a substantial impact on the practice of statistical science. Early statistical models were almost always from the class of linear models, but powerful computers, coupled with suitable numerical algorithms, caused an increased interest in nonlinear models (such as neural networks) as well as the creation of new types, such as generalized linear models and multilevel models. Increased computing power has also led to the growing popularity of computationally intensive methods based on resampling, such as permutation tests and the bootstrap, while techniques such as Gibbs sampling have made use of Bayesian models more feasible. The computer revolution has implications for the future of statistics with new emphasis on "experimental" and "empirical" statistics. A large number of both general and special purpose statistical software are now available. Misuse [edit]Main article: Misuse of statistics
There is a general perception that statistical knowledge is all-too-frequently intentionally misused by finding ways to interpret only the data that are favorable to the presenter.[17] A mistrust and misunderstanding of statistics is associated with the quotation, "There are three kinds of lies: lies, damned lies, and statistics". Misuse of statistics can be both inadvertent and intentional, and the book How to Lie With Statistics[17] outlines a range of considerations. In an attempt to shed light on the use and misuse of statistics, reviews of statistical techniques used in particular fields are conducted (e.g. Warne, Lazo, Ramos, and Ritter (2012)).[18] Ways to avoid misuse of statistics include using proper diagrams and avoiding bias.[19] Misuse can occur when conclusions are overgeneralized and claimed to be representative of more than they really are, often by either deliberately or unconsciously overlooking sampling bias.[20] Bar graphs are arguably the easiest diagrams to use and understand, and they can be made either by hand or with simple computer programs.[19] Unfortunately, most people do not look for bias or errors, so they are not noticed. Thus, people may often believe that something is true even if it is not well represented.[20] To make data gathered from statistics believable and accurate, the sample taken must be representative of the whole.[21] According to Huff, "The dependability of a sample can be destroyed by [bias]... allow yourself some degree of skepticism."[22] Statistics applied to mathematics or the arts [edit]Traditionally, statistics was concerned with drawing inferences using a semi-standardized methodology that was "required learning" in most sciences. This has changed with use of statistics in non-inferential contexts. What was once considered a dry subject, taken in many fields as a degree-requirement, is now viewed enthusiastically. Initially derided by some mathematical purists, it is now considered essential methodology in certain areas.
See also [edit]
Main article: Outline of statistics
References [edit]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||