قانون زیف

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو
قانون زیف
پارامترها (حقیقی)
(طبیعی)
تابع چگالی احتمال Plot of the Zipf PMF for N = ۱۰
Zipf PMF for N = 10 on a log-log scale. The horizontal axis is the index k . (Note that the function is only defined at integer values of k. The connecting lines do not indicate continuity.)
تابع توزیع تجمعی
تابع توزیع تجمعی
Plot of the Zipf CMF for N=۱۰
Zipf CMF for N = 10. The horizontal axis is the index k . (Note that the function is only defined at integer values of k. The connecting lines do not indicate continuity.)
‫تکیه‌گاه
تابع چگالی احتمال
تابع توزیع تجمعی‫ (سی‌دی‌اف)
میانگین
میانه
مُد
واریانس
چولگی
کشیدگی
انتروپی
‫تابع مولد گشتاور (ام‌جی‌اف)
تابع مشخصه

قانون زیف یک قانون تجربی فرمولی است که از ریاضی آماری استفاده می‌کند و به حقیقتی اشاره دارد که بسیاری ازانواع داده‌های مورد مطالعه قرار گرفته درفیزیک و علوم اجتماعی می‌توانند با توزیع زیفان تقریب زده شوند؛ که یکی از خانوادهٔ گسسته مربوط به توزیع‌های احتمال قدرت نیرو است. این قانون توسط زبانشناس آمریکایی George kingsley Zipf نامگذاری شده است، شخصی که محبوب بود وبدنبال تشریح آن بود(Zipf 1935,1949),اگرچه موفق به دریافت آن نشد. تندنویس فرانسوی Jean-Baptiste_Estoup (1868–1950) به نظر می‌رسد متوجه نظم پیش اززیف شد. آن همچنین در۱۹۱۳ توسط یک فیزیکدان آلمانی به نام Felix_Auerbach اشاره شد.

انگیزه

بخش‌های قانون زیف که باتوجه به برخی از نوشته‌های سخنان زبان طبیعی، فرکانس هر کلمه باجایگاه آن در جدول فرکانس تناسب معکوس دارد. بدین ترتیب بیشتر تقریباً دوبار تکرار لغت اتفاق خواهدافتاد که اغلب دومی تکرارکلمه است، بارسوم به عنوان اغلب سومان تکرار کلمه و …. توزیع رتبه فرکانس یک رابطه معکوس است. برای مثال، درمجموعه‌ای ازنوشته‌های قهوه‌ای نوشته‌ای به زبان انگیسی آمریکایی، کلمه “the” بیشترین تکرار یک لغت بوده، و به تنهایی برای حدود ۷درصد از تمام رویدادها (۶۹۹۷۱ از ۱میلیون) شرح داده شده است. باتوجه به قانون زیف، جایگاه دوم کلمه “of” شرح داده شده که برای حدوداً ۳٫۵ درصد از لغات(۳۶۴۱۱ از ۱ میلیون),وسپس and (28852). فقط ۱۳۵ تا از موارد لغتی برای شرح دادن نیمی از نوشته‌های قهوه‌ای مورداحتیاجند. همین رابطه در بسیاری رتبه‌بندی‌های نامربوط به زبان دیگر نیز اتفاق می‌افتد، همچون رتبه‌بندی جمعیت شهرها درکشورهای مختلف، سایزهای شرکت، رتبه‌بندی‌های درآمد، رتبه‌بندی مردمی که یک کانال از تلویزیون رامی بینندودیگرچیزها. ظاهرتوزیع در رتبه‌بندی‌های جمعیت شهرها اولین بار در ۱۹۱۳ توسط Felix Auerbach موردتوجه قرارگرفت. تجربتا، یک مجموعه داده می‌تواند مورد آزمایش قرارگیرد تا دیده شود که آیا قانون زیف با تست کردن خوبی یک توزیع تجربی با فرض توزیع قانونی نیرو با یک Kolmogorov–Smirnov_test اعمال می‌شود، وسپس سنجیدن لگاریتم احتمال نسبت توزیع قانونی نیرو به توزیع جایگزین به شکل توزیع نمایی یا توزیع لگاریتمی نرمال. از زمانی که قانون زیف برای شهرهابررسی شده است، یک تناسب نمایی بهتر با توان s = ۱٫۰۷ یافت شده است؛ بعنوان مثال

 n^thبزرگترین شرح 1/n^۱٫۰۷ است.

تاهنگامیکه قانون زیف برای توزیع‌های دنباله بالا نگه داشته می‌شود، تمامی توزیع‌های شهرها لگاریتم نرمال است واز قانون گیبرات پیروی می‌کنند. هردوقانون استوارهستند چراکه یک دنباله لگاریتمی معمولاً نمی‌تواند متمایزاز دنباله پارتو (زیفی) باشد.

بررسی نظری

قانون زیف با رسم کردن داده‌ها برروی گراف لوگ-لوگ آسانتر دیده می‌شود. برای مثال، لغت (the) بطور x = log(1), y = log(69971) به نظر می‌رسد. همچنین ممکن است رتبه‌بندی برخلاف فرکانس یا فرکانس متقابل دوطرفه رسم شود. مطابقت داده به حد رسم خطی مربوط است. در فرمول: n تعداد عناصر k رتبه آن s مقدار توصیف توان توزیع. سپس قانون زیف پیش بینی می‌کند که ازیک جمعیت n عنصره، بسامد عناصر رتبه‌بندی k, f(k;s,N), برابر: اگرتعدادعناصربایک فرکانس داده شده برابر یک متغیرتصادفی باتوزیع قانون نیرو است قانون زیف استفاده می‌شود

چنین ادعاشده است که این نمایش قانون زیف برای آزمایش‌ها آماری مناسبتر است، ودراین راه دربیشتراز ۳۰۰۰۰ متن انگلیسی تجزیه و تحلیل شده است. خوبی بازده آزمایش‌ها این است که فقط حدود ۱۵٪ ازمتنهای آماری با این قانون زیف سازگار هستند. اندک تغییرات در تعریف قانون زیف می‌تواند تا حدود ۵۰٪ درصد این را افزایش دهد. درمثال بسامدلغات در زبان انگلیسی، n تعدادلغات در زبان انگلیسی است و اگر ما از نسخه قدیمی قانون زیف استفاده کنیم، قانون اینطور نوشته می‌شود: که HN,s nامین عدد هارمونیک تعمیم یافته است. ساده‌ترین موردازقانون زیف یک "1/f function" است که مجموعه‌ای از بسامدهای توزیع شده زیفی می‌دهد، مرتب شده از متداولترین به کم متداولترین، دومین بسامدمشترک ½ اتفاق خواهدافتاد. سومین بسامدمشترک ⅓ اتفاق خواهدافتاد.nامین بسامدمشترک 1/n اتفاق خواهدافتاد. درهرحال این نمی‌تواند عیناانجام گیردچرا که موارد باید در یک عدد صحیح از زمان صورت بگیرند؛ بنابراین ۲٫۵ نمی‌تواند برای کلمات صورت بگیرد. با این اوصاف، بیش ازمحدوده نسبتاگسترده‌ای است و به یک تقریب نسبتاً خوب، بسیاری ازپدیده‌های طبیعی از قانون زیف پیروی می‌کنند. ریاضیاتی، حاصل جمع رابطه بسامدها دریک توزیع زیف برابر سری هرمونیک است و در زبان‌های انسانی، بسامدهای کلمه یک توزیع دنباله‌ای بسیار سنگین دارند، وازین رو می‌توانند به خوبی با یک توزیع زیف با یک s نزدیک به ۱ منطقی مدل سازی شوند. تا زمانیکه توان s بشتراز ۱ است، برای همچینین قانونی ممکن است با لغت‌های بسیار بینهایت انجام شود، چراکه اگر s>1 پس: که ζ تابع زتای ریمان است.

توضیح آماری

بااینکه قانون زیف برای بیشترزبان‌ها انجام می‌پذیرد (حتی برای زبان‌های غیرطبیعی همچون Esperanto)دلیل هنوزهم به خوبی فهمیده نشده است. درهرحال، آن تا حدی می‌تواند بوسیله آنالیز آماری متن‌های تصادفی تولید شده توضیح داده شود. Wentian Li دریک سندکه در آن هر کاراکتر تصادفی انتخاب می‌شود از یک توزیع یکنواخت تمام حروف (ازجمله کاراکتر اسپیس) و لغات طبعیت می‌کنند از روند طبیعی قانون زیف (که تقریباً خطی ظاهر می‌شود در رسم لوگ-لوگ). Vitold_Belevitch در یک کاغذ، در قوانین آماری توزیع زبانی یک اشتقاق ریاضیاتی پیشنهاد داد. او از یک کلاس بهبودبافته توزیع آماری (نه فقط توزیع نرمال) استفاده کرد وآنهارا از نظررتبه ابراز کرد. اوسپس هرعبارت را به یک بسط تیلور توسعه داد. در هر مورد Belevitch نتیجه قابل توجهی به دست آورد که یک کوتاه سازی مرتبه اول سریها در قانون زیف نتیجه می‌دهد. جلوتر، یک کوتاه سازی مرتبه دوم سریهای تیلور در قانون Mandelbrot نتیجه می‌دهد. اصل کمترین تلاش توضیح احتمالی دیگری است:زیف خودش مطرح شده که نه گویندگان و نه شنوندگان استفاده کنند از یک زبان داده شده که می‌خواهند هر چیز سخت تری که لازم است فهمیده شود را کارکنندو روند آن نتیجه در توزیع برابر تقریبی که منجربه تلاش می‌شود تا توزیع زیف مشاهده شود. به طور مشابه، پیوست ترجیهی (مستقیما، ثروتمندان ثروتمندتر یا موفقیت موفقیت می‌آورد) که نتیجه در توزیع Yule–Simon نشان داده شد پرکردن لغات در برابر رتبه‌بندی در زبان وجمعیت دربرابر رتبه‌بندی شهر بهتراست از قانون زیف استفاده شود. آن اصالتاً نشات گرفته است تا جمعیت در برابر رتبه‌بندی را در گونه‌های Yule–Simon توضیح دهد توسط سیمون وبکاربرده شده است. قوانین مربوط

قانون زیف به طور کلی به توزیع بسامد رتبه‌بندی داده ارجاع می‌شود که در آن رابطهٔ بسامد nامین موردرتبه بندی شده با توزیع زتا داده می‌شود 1/(nsζ(s)). که پارامتر s>1 شاخص اعضای خانوادهٔ توزیع احتمالی است. درواقع، قانون زیف گاهی اوقات مترادف توزیع زتا است، آن زمانی است که توزیعات احتمال گاهی اوقات قانون نامیده می‌شوند. این توزیع گاهی اوقات توزیع زیپیفان نامیده می‌شود. یک تعمیم از قانون زیف، قانون زیف-مندالبروت است که توسط Benoit_Mandelbrot پیشنهاد داده شده است که بسامدها هستند :. constant متقابل تابع زتا هورویتز است که در s ارزیابی می‌شود. در عمل، به راحتی در رسم‌های توزیع برای شرکت‌های بزرگ قابل مشاهده است، مشاهده توزیع می‌تواند به عنوان یک حاصل جمع توزیع‌های جداگانه برای زیرمجموعه‌های مختلف یا زیر گروه‌های کلماتی که پیروی می‌کنند از توزیع زیف-مندالبروت بهتر مدل سازی شود، به طور خاص کلاس بسته شده لغات تابعی با s که کوچکتراز ۱ است نشان داده می‌شود. وقتیکه واژگان بی‌انتها رشد می‌کنند به اندازه سند یا اندازه مجموعه‌ای از نوشته‌ها نیاز می‌شود که برای همگرایی سری هارمونیک s بزرگتراز ۱ شود. توزیعات زیفان می‌تواند از توزیع پارتو با تبدیل کردن متغیرها بدست آید. توزیع زیف گاهی اوقات توزیع گسسته پارتو نامیده می‌شود. چراکه آن به توالی توزیع پارتو شباهت دارد همان‌طور که توزیع یکنواخت گسسته به توالی توزیع پارتو شباهت دارد. دنباله بسامدهای توزیع Yule–Simon تقریباً برابر: برای هر ρ > ۰. درتوزیع فراکتال سهموی، لگاریتم بسامد یک چندجمله‌ای درجه دوم از رتبه بتندی لگاریتم است. این به طور قابل توجهی یک رابطه قانون نیرو را بهبود می‌دهد. همچون بعد فراکتال، بعدزیف نیز می‌تواند محاسبه شود، که یک پارامتر مفید برای تجزیه تحلیل متن هاست. استدلال شده است که قانون بنفورد یک مورد محدود مخصوص از قانون زیف است ارتباط بین این دو قانون با هردو منشأ مقیاس کاربردی رابطه‌های آنها از فیزیک آماری و پدیده‌های حیاتی توضیح داده می‌شود. نسبت احتمالات در قانون بنفورد ثابت نیستند. پیشرو ارقام دادهٔ رضایت بخش قانون زیف با s=۱ قانون بنفورد را خشنود می‌کند.

جستارهای وابسته[ویرایش]

منابع[ویرایش]

براساس منابع متن انگلیسی