یادگیری قانون وابستگی

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

در داده‌کاوی، یادگیری قانون وابستگی (به انگلیسی: association rule learning) یک متد مناسب برای یافتن روابط جذاب بین متغیرهای موجود در پایگاه داده های بزرگ است. پیاتتسکی-شاپیرو در [۱] چگونگی تحلیل و ارائه قوانین قوی یافته شده را در پایگاه های داده با استفاده از معیارهای متفاوت جذابیت توضیح می دهد. بر مبنای مفهوم قوانین قوی، راکش اگرول و همکارانش در [۲] قوانین وابستگی را برای کشف قاعده های موجود بین مصحولات در داده های تراکنشی با مقیاس بالا معرفی می کنند. به عنوان مثال، قانون وابستگی \{\mathrm{onions, potatoes}\} \Rightarrow \{\mathrm{burger}\} در داده های فروش یک سوپرمارکت، نشان می دهد در صورتی که یک مشتری پیاز (onions) و سیب زمینی (potatoes) را در سبد خرید خود قرار داده است، احتمالاً او مایل به خرید گوشت همبرگر نیز خواهد بود. چنین اطلاعاتی می تواند به عنوان مبنای تصمیماتی برای برخی از فعالیت های فروشگاهی همچون ارائه مناسب تخفیف برای محصولات و یا قراردادن مناسب محصولات در کنار هم، مورد استفاده قرار گیرد. علاوه بر مثال فوق که در مورد تحلیل سبد خرید مطرح شد، امروزه یادگیری قانون وابستگی در کاربردهای متفاوت همچون مصرف کاوی وب، تشخیص نفوذ، و بیوانفورماتیک مورد استفاده قرار می گیرد. بر خلاف دنباله کاوی (به انگلیسی: sequence mining) در یادگیری قانون وابستگی، ترتیب چه در میان آیتم ها و چه در میان تراکنش ها در نظر گرفته نمی‌شود.

تعریف[ویرایش]

پایگاه داده مثال
ID milk bread butter drink
1 1 1 0 0
2 0 0 1 0
3 0 0 0 1
4 1 1 1 0
5 0 1 0 0

در ادامه، تعریف اصلی کاوش قانون وابستگی، ارائه شده توسط اگرول و همکارانش [۲] آمده است: مجموعه I=\{i_1, i_2,\ldots,i_n\} را به عنوان مجموعه ای از n صفت دودویی به نام آیتم در نظر می گیریم. فرض کنیم D = \{t_1, t_2, \ldots, t_m\} مجموعه تراکنش ها یا همان پایگاه داده باشد. هر تراکنش در D شامل یک کد تراکنش منحصربه‌فرد و زیرمجموعه ای از آیتم های I است. یک قانون به عنوان یک دلالت به فرم X \Rightarrow Y تعریف می شود. به طوری که X, Y \subseteq I و X \cap Y = \emptyset. مجموعه آیتم های X، مقدم و مجموعه آیتم های Y، نتیجه خوانده می شوند.

برای توضیح مفهوم، ما از یک مثال کوچک درمورد سبد خرید در سوپرمارکت استفاده می کنیم. مجموعه آیتم های I= \{\mathrm{milk, bread, butter, drink}\} و یک پایگاه داده کوچک شامل آیتم ها (کد 1 به معنی حضور و کد 0 به معنی عدم خضور آن آیتم در یک تراکنش است) در جدول مقابل نشان داده شده است. به عنوان مثال \{\mathrm{butter, drink}\} \Rightarrow \{\mathrm{milk}\} یک قانون وابستگی موجود در این پایگاه داده است. مفهوم این قانون این است که اگر مشتری کره (butter) و نوشیدنی (drink) خریده باشد، شیر (milk) هم خواهد خرید.

تذکر: مثال فوق مطرح شده بسیار کوچک است. در عمل یک قانون نیازمند پشتیبانی صدها تراکنش است تا بتواند به صورت آماری مهم باشد. از طرفی، معمولاً یک پایگاه داده شامل صدها یا هزاران تراکنش است.

مفاهیم کاربردی[ویرایش]

برای انتخاب قوانین جذاب از بین مجموعه قوانین ممکن، محدودیت های مختلف روی معیارهای سنجش اهمیت و جذابیت به کار می رود. معروف ترین محدودیت ها شامل آستانه کمینه برای پشتیبان و اطمینان است.

  • پشتیبان مجموعه آیتم X که به صورت \mathrm{supp}(X) نشان داده می شود، نسبت تراکنش های شامل مجموعه آیتم X است. در پایگاه داده مثال، مجموعه آیتم \{\mathrm{milk, bread, butter}\} دارای پشتیبان 1/5=0.2 است، چرا که این مجموعه آیتم در بیست درصد تراکنش ها اتفاق می افتد.
  • اطمینان یک قانون به این صورت تعریف می شود: \mathrm{conf}(X\Rightarrow Y) = \mathrm{supp}(X \cup Y) / \mathrm{supp}(X). برای مثال، قانون \{\mathrm{milk,  bread}\} \Rightarrow \{\mathrm{butter}\} دارای اطمینان 0.2/0.4=0.5 در پایگاه داده است، به این معنا که قانون فوق برای پنجاه درصد تراکنش های شامل شیر (milk) و نان (bread) صدق می کند.

فرایند[ویرایش]

تاریخچه[ویرایش]

مفهوم قوانین وابستگی در سال 1993 پس از انتشار مقاله اگرول [۲] مورد توجه خاص قرار گرفت. با توجه به اطلاعات آماری سرویس Google Scholar، در مارس 2008 این مقاله بیش از 6000 نقل قول (citation) دریافت کرده است که آن را در صدر بیشترین تعداد نقل قول ها در گرایش داده کاوی قرار می دهد. اگرچه ممکن است آنچه که امروزه قوانین وابستگی نامیده می شود، همان مفهوم مطرح شده در مقاله سال 1966 [۳] تحت عنوان GUHA (یک متد عمومی داده کاوی) مطرح شده است.

سایر معیارهای سنجش جذابیت[ویرایش]

علاوه بر اطمینان، معیارهای دیگری نیز برای سنجش جذابیت قوانین مطرح شده است که از مهم ترین آن ها می توان به موارد زیر اشاره کرد:

الگوریتم ها[ویرایش]

در طول زمان، الگوریتم های متعددی برای تولید قوانین وابستگی پیشنهاد شده‌اند.

بعضی الگوریتم های معروف در این زمینه عبارتند از: آپریوری، اکلات (Eclat) و FP-Growth. تمامی این الگوریتم ها تنها انجام دهنده نیمی از مسیر تولید قوانین وابستگی هستند. چرا که این الگوریتم ها برای کاوش مجموعه آیتم های مکرر (به انگلیسی: Frequent item-set mining) ساخته شده‌اند و پروسه دیگری روی مجموعه آیتم های مکرر باید انجام شود تا منتهی به قوانین وابستگی شوند.

الگوریتم آپریوری[ویرایش]

آپریوری بهترین الگوریتم برای کاوش قوانین وابستگی است. این الگوریتم از استراتژی جستجوی اول-سطح برای شمارش پشتیبان مجموعه آیتم ها استفاده می کند و با استفاده از یک تابع تولید کاندید، از خصوصیت بستار رو به پایین پشتیبان بهره می برد.

الگوریتم اکلات[ویرایش]

اکلات یک الگوریتم جستجوی اول-عمق با استفاده از اشتراک مجموعه است.

جستارهای وابسته[ویرایش]

منابع[ویرایش]

  1. Piatetsky-Shapiro, Gregory (1991), Discovery, analysis, and presentation of strong rules, in Piatetsky-Shapiro, Gregory; and Frawley, William J.; eds., Knowledge Discovery in Databases, AAAI/MIT Press, Cambridge, MA.
  2. ۲٫۰ ۲٫۱ ۲٫۲ Agrawal, R.; Imieliński, T.; Swami, A. (1993). "Mining association rules between sets of items in large databases". Proceedings of the 1993 ACM SIGMOD international conference on Management of data - SIGMOD '93. pp. 207. DOI:10.1145/170035.170072. ISBN 0897915925.  ویرایش
  3. Hájek, Petr; Havel, Ivan; Chytil, Metoděj; The GUHA method of automatic hypotheses determination, Computing 1 (1966) 293-308
  4. Omiecinski, Edward R.; Alternative interest measures for mining associations in databases, IEEE Transactions on Knowledge and Data Engineering, 15(1):57-69, Jan/Feb 2003
  5. Aggarwal, Charu C.; and Yu, Philip S.; A new framework for itemset generation, in PODS 98, Symposium on Principles of Database Systems, Seattle, WA, USA, 1998, pages 18-24
  6. Brin, Sergey; Motwani, Rajeev; Ullman, Jeffrey D.; and Tsur, Shalom; Dynamic itemset counting and implication rules for market basket data, in SIGMOD 1997, Proceedings of the ACM SIGMOD International Conference on Management of Data (SIGMOD 1997), Tucson, Arizona, USA, May 1997, pp. 255-264
  7. Piatetsky-Shapiro, Gregory; Discovery, analysis, and presentation of strong rules, Knowledge Discovery in Databases, 1991, pp. 229-248
  8. Brin, Sergey; Motwani, Rajeev; Ullman, Jeffrey D.; and Tsur, Shalom; Dynamic itemset counting and implication rules for market basket data, in SIGMOD 1997, Proceedings of the ACM SIGMOD International Conference on Management of Data (SIGMOD 1997), Tucson, Arizona, USA, May 1997, pp. 265-276