استفاده از استخراج قوانين وابستگی از پايگاه داده در سيستم های پيشنهاد دهنده

استفاده از استخراج قوانين وابستگی از پايگاه داده در سيستم های پيشنهاد دهنده نیره غلامزاده سارا مصباح تابستان 88

مقدمه • تعریف سیستم های پیشنهاد دهنده: سیستم های پیشنهاد دهنده سعی می کنند به كاربران خود با استفاده از داده های گذشته سیستم، پيشنهادهاي متناسب و نزدیک به علايق آن ها ارائه دهند (فيلم, كتاب, جك، مقاله و.....). • انواع سیستم های پیشنهاد دهنده • Content-based recommendation • Collaborative recommendation • مثال • www.Amazon.com • www.MovieLens.com • www.contentadvisor.com

مقدمه (ادامه....) • تكنيك هاي ارائه شده در اين زمينهداراي كارايي محدودي هستند • استفاده از قوانین وابستگی در سیستمهای پیشنهاد دهنده • هدف قوانين وابستگي: تفسير حجم زيادي از داده ها و استخراج روابط مفيد بين آنها • مفید بودن اين ويژگي در سيستمهاي پيشنهاد دهنده • انواع قوانین در این سیستم ها • Item association: نشان دهنده روابط میان آیتم ها • User association: نشان دهنده روابط میان کاربران

کارهای انجام شده • برخی از تکنیک های متداول استفاده شده • تکنیک های پیشگویی ساده • مبتنی بر همبستگی (correlation-bsed method) • یادگیری ماشین

کارهای انجام شده (ادامه..) • مبتنی بر همبستگی • مدل شبکه Bayesian و Bayesian Classifier • شبکه های عصبی به همراه تکنیک های کاهش ویژگی • Unison-CF • Content-boosted collaborative filtering • الگوریتم های پیشنهاد دهنده فیلتر کردن همکاری مبتنی بر آیتم • کاربرد کاهش ابعاد در سیستم های پیشنهاد دهنده • ترکیب کردن فیلترهای همکاری و مبتنی بر محتوا در یک روزنامه بر خط

روش مبتنی بر همبستگی • محاسبه امتیاز کاربر جاری (a) برای سند j : • Vi,j :: رای کاربر iام برای ایتم jام • : میانگین امتیازات کاربر i ام • N: تعداد کاربران • شباهت بین هر کاربر i با کاربر جاری • معایب: • عدم اندازه گیری اهمیت همبستگی (correlation) بین کاربران (support) • اگر دو كاربر مشتركا مقاله هايي را ارزيابي نكنند، آنها طبق این روشنمی توانند مشابه شوند حتي اگر آنها علايق مشتركي داشته باشند

تعريف مسئله • استخراج قوانین وابستگی با استفاده از الگوریتمی کارا • ارائه سیستم پیشنهاد دهنده collaborative به کاربر براساس قوانین استخراج شده

الگوريتم ارائه شده • استفاده از الگوریتمهای Apriori , CBA-RG • تخمین minimum support حین عمل استخراج قوانین • دستیابی به تعداد مناسب قوانین مفید • استخراج قوانینی با وجود کاربر یا آیتم هدف در سمت راست

استخراج قوانين وابستگی • شروع با minimum support مشخص • استفاده ازبازه minRule , maxRule برای تعداد قوانین • تغییر minimum support در صورت نیاز • استخراج قوانین به شکل: [-> Target_User:like] • برآورده کردن min support , min confidence

پارامترهای الگوريتم • انتخاب مقادیر مناسب برای پارامترهای مهم • مقدار امتیاز معادل با Like یا Dislike (مثلا امتیازات بالای 2 به عنوان like در نظر گرفته شوند) • Min_conf برای قوانین وابستگی (90%) و min_Support برای آیتم های مکرر (20%) • تعیین min_Rule و Max_Rule (15,90) • انتخاب مقادیر پارامترهای فوق بر اساس تجربه

مزايای استخراج قوانين فقط برای کاربر و آيتم هدف • بدست آمدن قوانین مربوط به آیتم های جدید • کاهش تعداد قوانین موردنظر باعث بهبود کارایی • استخراج قوانین از زیرمجموعه ای از تراکنشها باعث کاهش زمان اجرا

پياده سازی الگوريتم • پیاده سازی الگوریتم در دو نسخه offline وonline • دارای دو تابع اصلی: • :AR1بررسی قوانین استخراج شده در محدودیتهای الگوریتم • کنترل min support • استخراج قوانینی با بيشترين support ممکن • تعداد قوانین در بازه از پيش تعريف شده • بررسی min confidenceو min support قوانين • AR2: استخراج قوانین وابستگی • استخراج قوانین براساس الگوریتم CBA-RG • استخراج قوانين وابستگي با چندين گذر روي تراكنشها • تفاوت با الگوریتم CBA-RG در شرط خاتمه الگوریتم • تعداد قوانین مساوی یا بزرگتر از maxRule

AR1 تابع

آماده سازی data set • هدف ما تعیین like or dislike یک فیلم برای کاربر هدف • تبدیل امتیازات به like ,dislike • [M2:Like]AND [M5:Like]=>[ target_M:like] • “[user1 : like] AND[user2 : like] => [userT : like] conf = 80% , supp = 45% • “[user1 : like] AND [user2 : dislike] => [usercT: like] conf = 80% , supp = 45%

مکانيسم پشنهاد • پيشنهاد براساس بهرهگيري از مزاياي هر دو نوع قوانينmovie association و user association • User association: online • Movie association: offline • استفاده ازmoive associationبرای کاربری با تعداد فيلم هاي امتياز داده شده کمتر از يك آستانه • امکان پذیر نبودن پیشنهاد این فیلمها با استفاده از user association • استفاده از score محاسبه شده برای هر قانون

بررسی زمان الگوريتم • استخراج قوانین MovieAssociation به صورت offline • کوچک نمودن مجموعه داده training با توجه به کاربر هدف • متوقف نمودن تولید قوانین در maxRule

نتيجه گيری • استفاده از مجموعه داده ای MovieLens • 100000رکورد • 943کاربر • 1682 فیلم • مقادیر امتیازات داده شده در بازه [1,5]

نتيجه گيری (ادامه...) • معیارهای ارزیابی الگوریتم • انجام آزمایشات برای دو مجموعه داده ای • انتخاب تصادفی 100 کاربر که به حداقل 35فیلم امتیاز داده اند به عنوان کاربر collaborative • انتخاب کل مجموعه • استفاده از روش 5-fold cross-validation بر روی مجموعه فیلم هایی که کاربر هدف امتیاز دهی کرده است

نتيجه گيری (ادامه...) • پیشنهاد بر اساس قوانین به دست آمده از فیلم ها و کاربران به طور جداگانه • بهتر بودن نتایج به دست آمده از کاربران • استخراج قوانین وابستگی فیلم ها به صورت offline زمان پاسخگویی بهتر استفاده از ترکیب آن ها

ترکيب User Ass. و Movie Ass. • تعداد فیلم های امتیاز داده شده کمتر از مقدار آستانه • movie Association • پیشنهاد دادن فیلم هایی که توسط افراد کمی امتیاز داده شده اند • تعداد فیلم های امتیاز داده شده بیشتر از مقدار آستانه • استفاده از هر دو • استفاده از score محاسبه شده برای هر قانون • انتخاب قانون با score بیشتر مقایسه معیارها برای User Ass.،Movie Ass ترکیب آنها

نتيجه گيری (ادامه...) • مقایسه نتایج به دست آمده با 3 روش زیر • Correlation based • شبکه های عصبی همرا ه با بهره اطلاعات • شبکه های عصبی با تجزیه مقدار تکین • نتایج به دست آمده • Presicion= 0.75411 • Recall = 0.2257 مقایسه precision وRecall برای سه روش Info.Gain، SVD و correlation

کارهای آينده • تست کردن الگوریتم بر روی مجموعه داده ای دیگر • Jester یا انواع دیگری از مجموعه داده ای MovieLens • تعریف کردن معیار دیگری به عنوان ارزش برای قوانین • استفاده از الگوریتم های استخراج قوانینی وابستگی دیگر در بخش استخراج قوانین وابستگی

مراجع • [1] Daniel Billsus and Michael J. Pazzani. Learning collaborative information filters. In Proc. of the Fifteenth International Conference on Machine Learning, Madison, Wisconsin, 1998. Morgan Kaufmann Publishers. • [2] J. Breese, D. Heckerman, and C. Kadie. Empirical analysis ofp redictive algorithms for collaborative filtering. In Proceedings of the Fourteenth Conference on Uncertainty in Artificial Intelligence, Madison, WI, July 1998 • [3] Daniel Billsus and Michael J. Pazzani. Learning collaborative information filters. In Proc. of the Fifteenth International Conference on Machine Learning, Madison, Wisconsin, 1998. Morgan Kaufmann Publishers. • [4] Xiaobin Fu, Jay Budzik, and Kristian J. Hammond. Mining navigation history for recommendation. In Proceedings of the 2000 international conference on Intelligent user interfaces, pages 106–112, New Orleans, LA, January 2000. ACM. • [5] R. Cooley, B. Mobasher, and J. Srivastava. Grouping web page references into transactions for mining world wide web browsing patterns. Technical Report TR 97-021, Department ofComp uter Science and Engineering, University of Minnesota, Minneapolis, MN 55455, USA, June 1997. • [6] R. Cooley, J. Srivastava, and B. Mobasher. Web mining: Information and pattern discovery on the world wide web. In Proceedings of the 9th IEEE International Conference on Tools with Artificial Intelligence (ICTAI’97), November 1997. • [7] Bing Liu, Wynne Hsu, and Yiming Ma. Integrating classification and association rule mining. In Proceedings of the Fourth International Conference on Knowledge Discovery and Data Mining, pages 80–86, New York, August 1998.

با تشکر

استفاده از استخراج قوانين وابستگی از پايگاه داده در سيستم های پيشنهاد دهنده

استفاده از استخراج قوانين وابستگی از پايگاه داده در سيستم های پيشنهاد دهنده

Presentation Transcript