Lift (الگوریتم داده کاوی)

در یادگیری قاعده انجمنی در داده کاوی، Lift معیار عملکرد برای هدف قرار دادن مدل (قاعده انجمنی) و در پیش‌بینی یا طبقه‌بندی موارد برای بدست آوردن پاسخ درست، افزایش یافته (با توجه به کل جمعیت) است، که برای مقایسه و انتخاب هدفمند تصادفی این مدل اندازه‌گیری می‌شود. در صورتی که نتیجه درون هدف، بسیار بهتر از متوسط برای کل جامعه باشد یعنی یک مدل هدف گذاری درستی انجام می‌دهد. Lift نسبت به این مقادیر می‌باشد: پاسخ هدف تقسیم بر میانگین پاسخ.

مثال، فرض کنید میزان پاسخ گویی جمعیت ۵٪ متوسط باشد، اما یک مدل خاص (یا قانون) قسمتی را با نرخ پاسخ ۲۰٪ مشخص کرده‌است. سپس آن بخش ۴٫۰ (۲۰٪ / ۵٪) لیفت خواهد داشت.

به‌طور معمول، مدل‌ساز به دنبال تقسیم جمعیت به کوانتیل‌ها و رتبه‌بندی کوانتایل‌ها با استفاده از بالاپایین رفتن است. بعد سازمان‌ها می‌توانند با در نظر گرفتن هر کدام از معیارها و با مقایسه میزان پاسخ پیش‌بینی شده (منافع مالی مرتبط) در مقابل هزینه می‌توانند تصمیم بگیرند که به آن سهمیه بازار دهند یا خیر.

منحنی lift می‌تواند تغییراتی در منحنی ویژگی عملکرد گیرنده (ROC) را در نظر بگیرد و همچنین در اقتصادسنجی به عنوان منحنی Lorenz یا قدرت شناخته می‌شود.^[۱]

$lift={\frac {P(A\cap B)}{P(A)*P(B)}}$

مثال[ویرایش]

فرض کنید مجموع داده‌های استخراج شده عبارتند از:

پیشین	متعاقب
آ	۰
آ	۰
آ	۱
آ	۰
ب	۱
ب	۰
ب	۱

جایی که مقدمه متغیر ورودی وجود دارد که می‌توانیم آن را کنترل کنیم و نتیجه متغیری می‌باشد که ما سعی در پیش‌بینی آن داریم. مشکلات معمولاً دارای پیش زمینه‌های پیچیده تری خواهند بود، ولی معمولاً بر پیامدهای تک ارزش تمرکز می‌کنند.

اکثر الگوریتم‌های استخراج قوانین (مدل‌های هدف‌گیری) را تعیین می‌کنند:

قانون ۱: الف بر ۰ دلالت دارد
قانون 2: B دلالت بر ۱ دارد

چون این‌ها جز رایج‌ترین و ساده‌ترین الگوهای موجود در داده‌ها می‌باشند. یک مرور ساده از جدول فوق باید این قوانین را آشکار می‌کند.

پشتیبانی از قانون ۱ برابر است ۳/۷ زیرا این تعداد آیتم در مجموعه داده‌است که در آن سابقه A بوده و نتیجه ۰ است. support از قانون ۲ برابر است با ۲/۷ زیرا دو مورد از هفت رکورد با سابقه B و نتیجه ۱ مطابقت دارد. می‌توان supportها را به صورت زیر بیان کرد:

\operatorname {supp} (A\Rightarrow 0)=P(A\land 0)=P(A)P(0\mid A)=P(0)P(A\mid 0)

\operatorname {supp} (B\Rightarrow 1)=P(B\land 1)=P(B)P(1\mid B)=P(1)P(B\mid 1)

confidence برای قانون ۱برابر است با ۳/۴ زیرا سه رکورد از چهار رکوردی که با سابقه A مطابقت دارند و نتیجه ۰ را دارند. confidence برای قانون ۲ برابر است با ۲/۳ زیرا دو مورد از سه رکوردی که با سابقه B تطابق دارند با نتیجه ۱ را مواجه می‌شوند. confidencesها را می‌توان به صورت زیر نوشت:

\operatorname {conf} (A\Rightarrow 0)=P(0\mid A)

\operatorname {conf} (B\Rightarrow 1)=P(1\mid B)

Lift را می‌توان با تقسیم confidence بر احتمال مطلق پیامد، یا تقسیم support بر احتمال برابرهای قبل از احتمال نتیجه، یافت:

بالابر برای قانون ۱ (۳/۴)/(۴/۷) = (۳ * ۷)/(۴ * ۴) = ۲۱/۱۶ ≈ ۱٫۳۱
بالابر برای قانون ۲ (۲/۳)/(۳/۷) = (۲ * ۷)/(۳ * ۳) = ۱۴/۹ ≈ ۱٫۵۶

\operatorname {lift} (A\Rightarrow 0)={\frac {P(0\mid A)}{P(0)}}={\frac {P(A\land 0)}{P(A)P(0)}}

\operatorname {lift} (B\Rightarrow 1)={\frac {P(1\mid B)}{P(1)}}={\frac {P(B\land 1)}{P(B)P(1)}}

اگر برخی از rule ها به ۱ افزایش یابند، این بدان معناست که احتمال وقوع antecedent و پیشین مستقل از یکدیگر هستند. وقتی دو رویداد مستقل از همدیگر باشند، نمی‌توان قاعده ای را در مورد آن دو رویداد ترسیم کرد.

اگر lift بزرگتر از ۱ باشد، مانند رول ۲ و ۱، به ما اجازه می‌دهد میزان وابستگی این دو رویداد نسبت به هم را بدانیم و این قوانین را برای پیش‌بینی پیامد در مجموعه داده‌های آینده مفید می‌سازد.

توجه داشته باشید که اگرچه رول 1 confidence بالاتری دارد، لیفت پایین‌تری دارد. از نظر دیداری، به نظر می‌رسد که رول ۱ به دلیل confidence بیشتر ارزشمندتر است - دقیق تر به نظر می‌رسد (بهتر پشتیبانی می‌شود). اما دقت rule مستقل از مجموعه داده‌ها می‌تواند گمراه کننده باشد. ارزش lift این است که هم confidence از رول و هم مجموعه داده‌های کلی را در نظر می‌گیرد.

منابع[ویرایش]

↑ Tufféry, Stéphane (2011); Data Mining and Statistics for Decision Making, Chichester, GB: John Wiley & Sons, translated from the French Data Mining et statistique décisionnelle (Éditions Technip, 2008)

Coppock, David S. (2002-06-21). "Why Lift?". Retrieved 2015-07-05.

جستارهای وابسته[ویرایش]

همبستگی و وابستگی
مدل‌سازی ارتقاء

[1] Tufféry, Stéphane (2011); Data Mining and Statistics for Decision Making, Chichester, GB: John Wiley & Sons, translated from the French Data Mining et statistique décisionnelle (Éditions Technip, 2008)

[۱]