1 / 123

دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: احمد عبداله زاده بارفروش (استاد)

به نام خداوند جان و خرد. الگوکاوي در پايگاه‌هاي تراکنش بسيار بزرگ با استفاده از رويکرد تقسيم وحل Frequent Pattern Mining on Very Large Transaction Databases Using Divide-and-Conquer Approach. دانشگاه صنعتي اميرکبير دانشکده مهندسي کامپيوتر. دانشجو: محمد کريم سهرابي 84131906

deo
Télécharger la présentation

دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: احمد عبداله زاده بارفروش (استاد)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. به نام خداوند جان و خرد الگوکاوي در پايگاه‌هاي تراکنش بسيار بزرگ با استفاده از رويکرد تقسيم وحلFrequent Pattern Mining on Very Large Transaction Databases Using Divide-and-Conquer Approach دانشگاه صنعتي اميرکبير دانشکده مهندسي کامپيوتر دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: احمد عبداله زاده بارفروش (استاد) ارديبهشت 1391

  2. فهرست مطالب • تعريف مساله • رهيافت هاي جاري براي حل مساله • كارهاي مرتبط • رويكرد بيتي در بسترسازي براي حل مساله الگوكاوي • الگوكاوي سريال (افقي- عمودي از پايين به بالا- عمودي از بالا به پايين) • الگوكاوي موازي • كاوش الگوهاي بسيار بزرگ با گذر از الگوهاي كوچك و متوسط • نتيجه گيري و كارهاي آينده • مراجع

  3. فهرست مطالب • تعريف مساله • رهيافت هاي جاري براي حل مساله • كارهاي مرتبط • رويكرد بيتي در بسترسازي براي حل مساله الگوكاوي • الگوكاوي سريال (افقي- عمودي از پايين به بالا- عمودي از بالا به پايين) • الگوكاوي موازي • كاوش الگوهاي بسيار بزرگ با گذر از الگوهاي كوچك و متوسط • نتيجه گيري و كارهاي آينده • مراجع

  4. تعريف مساله الگو مدل مشخصي از داده در پايگاه تراكنش (پايگاه داده) ساختارهای گوناگونی از داده‌ها (مجموعه داده، رشته، گراف، ...) انواع الگوهاي مهم مجموعه آيتم ها توالي ها گراف ها 4

  5. تعريف مساله مجموعه آيتم ها I: مجموعه همه آيتم هاي داده اي به كاررفته در پايگاه تراكنش مثال: در پايگاه داده فروشگاه: {نان، پنير، خامه، تخم مرغ} I= مجموعه آيتم (itemset): هر زير مجموعه X از I مثال: {نان، پنير} X= 5

  6. تعريف مساله تراكنش تراكنش: يك چندگانه به فرم T=(tid, X) tid: شماره تراكنش X: يك مجموعه آيتم تراكنش شامل مجموعه آيتم Y: تراكنش T=(tid, X) كه در آن پايگاه تراكنش: مجموعه چند تراكنش مجموعه پشتيباني تراكنش X (D(X)): مجموعه شماره سطرهاي تراكنش هاي شامل X Sup(X): تعداد تراكنش هاي موجود در مجموعه پشتيبانيX 6

  7. تعريف مساله تراكنش مثال: نمونه پايگاه تراكنش فروشگاه با سه تراكنش تراكنش هاي 1 و 3 شامل مجموعه آيتم {پنير} تراكنش 1 شامل مجموعه آيتم {پنير، خامه} مجموعه پشتيباني {پنير}:{1,3} 7

  8. تعريف مساله تكرارشوندگي (frequency) آستانه زيربري (minsup): حد آستانه مورد نظر كاربر مجموعه آيتم تكرارشونده: مجموعه آيتم X با شرط مثال: به ازاي minsup = 2 {پنير}: تكرارشونده {پنير، خامه}: ناتكرارشونده (تكرارناشونده) به كار بردن واژه هاي الگو و مجموعه آيتم به جاي هم در ارائه 8

  9. تعريف مساله الگوهاي بسته (closed Pattern) الگوي بسته : عدم وجود ابر الگويي از الگو با همان مجموعه پشتيباني مثال: {پنير}: الگوي نابسته مجموعه پشتيباني {پنير}: {1و 3} مجموعه پشتيباني {پنير، نان}: {1و 3} مثال: {نان، پنير}: الگوي بسته الگوي تكرار شونده بسته: الگوي تكرارشونده و بسته مثال: {نان، پنير}: الگوي تكرارشونده بسته بر اساس minsup=2 مثال: {خامه، پنير}: الگوي ناتكرارشونده بسته بر اساس minsup=2 9

  10. تعريف مساله فرضيات مساله كاوش الگوهاي تكرارشونده از پايگاهي از تراكنش هاي هم جنس (مثال: تراكنش هاي فروش) عدم وجود داده هاي خراب و غير قطعي در پايگاه تراكنش عدم تغيير و به روزرساني پايگاه تراكنش در زمان الگوكاوي 10

  11. فهرست مطالب • تعريف مساله • رهيافت هاي جاري براي حل مساله • كارهاي مرتبط • رويكرد بيتي در بسترسازي براي حل مساله الگوكاوي • الگوكاوي سريال (افقي- عمودي از پايين به بالا- عمودي از بالا به پايين) • الگوكاوي موازي • كاوش الگوهاي بسيار بزرگ با گذر از الگوهاي كوچك و متوسط • نتيجه گيري و كارهاي آينده • مراجع

  12. رهيافت هاي جاري براي حل مساله کاوش مجموعه آيتم هاي تكرارشونده به ازاي d آيتم موجود در I، 2^dمجموعه آيتم روش سردستي(Naïve) ساخت همه مجموعه آيتم هاي ممكن مقايسه آنهابا همه تراکنش‌هاي موجود در پايگاه تراکنش شمارش تعداد تراکنش‌هاي مشتمل بر مجموعه آيتم مزبور مشخص نمودن مجموعه آيتم‌هاي تكرارشونده مرتبه نمايي تعداد مجموعه آيتم‌ها امکان وجود هزاران آيتمدر پايگاه‌ تراکنش مورد استفاده 12

  13. رهيافت هاي جاري براي حل مساله شبکه اي از همه مجموعه آيتم هاي ممکن به ازاي 5 آيتم {A, B, C, D, E} null C D B A E AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCE ABDE ACDE BCDE ABCD ABCDE مثالي از شبکه بندي زيرمجموعه‌اي 13

  14. رهيافت هاي جاري براي حل مساله انواع روش هاي كاوش بر اساس رويكرد جستجو الگوريتم‌هاي اول سطح (Apriori) شروع از نود راس شبکه توليد مجموعه آيتم‌هاي کانديد هر سطح از مجموعه آيتم هاي تكرار شونده سطح قبل تست تكرار شوندگي مجموعه آيتم‌هاي کانديد هر سطح الگوريتم‌هاي اول عمق (FP-Growth) ساخت درخت آيتم ها بر اساس پايگاه تراكنش جستجوي عمقي درخت 14

  15. رهيافت هاي جاري براي حل مساله اصل Apriori عدم وجود ابرالگوي تكرارشونده از يک الگوي ناتكرارشونده الگوريتم Apriori: يافتن الگوهاي تكرار شونده يك آيتمي (آيتم هاي تكرار شونده) ساخت مجموعه الگوهاي كانديد تكرارشوندگي kآيتمي از روي مجموعه الگوهاي تكرار شونده (k-1)آيتمي تست تكرارشوندگي آنها با پويش پايگاه تراكنش مثال: يافتن مجموعه آيتم هاي تكرارشونده در پايگاه تراکنش زير (TDB) و با حد آستانه S=3 L1: مجموعه همه مجموعه آيتمهاي تكرارشونده تک آيتمي L1={a, b, c, f, m, p} 15

  16. رهيافت هاي جاري براي حل مساله C2={ab,ac,af,am,ap,bc,bf,bm,bp,cf,cm,cp,fm,fp,mp} L2={ac, af, am, cf, cm, fm} C3={acf, acm, afm} L3={acf, acm, afm} C4={} L4={} 16

  17. رهيافت هاي جاري براي حل مساله Apriori معايب حجم بسيار زياد الگوهاي کانديد ايجاد شده در مقايسه با الگوهاي تکرار شونده (مرتبه نمايي) پويش چندين باره پايگاه تراکنش (در هر مرحله يک پويش) 17

  18. رهيافت هاي جاري براي حل مساله FP-Growth ساخت درخت FP-Tree: 1- يک بار پويش پايگاه تراکنش به منظور يافتن آيتم هاي تکرارشونده و مرتب کردن آيتم هاي يافته شده بر اساس ترتيب نزولي تعداد تکرار L={f:4, c:4, a:3, b:3, m:3, p:3} 2- مرتب کردن هر تراکنش بر اساس ترتيب مشخص شده و حذف آيتم هاي تکرارناشونده از هر تراکنش 18

  19. رهيافت هاي جاري براي حل مساله FP-Growth • TID Items • 100 {f, a, c, d, g, i, m, p} • {a, b, c, f, l, m, o} • 300 {b, f, h, j, o} • 400 {b, c, k, s, p} • 500{a, f, c, e, l, p, m, n} Item frequency f 4 c 4 a 3 b 3 m 3 p 3 TID Items (ordered) frequent items 100 {f, a, c, d, g, i, m, p}{f, c, a, m, p} 200 {a, b, c, f, l, m, o}{f, c, a, b, m} 300 {b, f, h, j, o}{f, b} 400 {b, c, k, s, p}{c, b, p} 500{a, f, c, e, l, p, m, n}{f, c, a, m, p} 19

  20. رهيافت هاي جاري براي حل مساله FP-Growth {} {} f:1 f:2 {f, c, a, b, m} {f, c, a, m, p} c:1 c:2 {} a:1 a:2 m:1 b:1 m:1 p:1 p:1 m:1 20

  21. رهيافت هاي جاري براي حل مساله FP-Growth {} {} {} f:3 c:1 f:3 f:4 c:1 {f, b} {c, b, p} {f, c, a, m, p} c:2 b:1 b:1 c:2 c:3 b:1 b:1 b:1 a:2 p:1 a:2 a:3 p:1 m:1 b:1 m:1 b:1 m:2 b:1 p:1 m:1 p:1 m:1 p:2 m:1 21

  22. رهيافت هاي جاري براي حل مساله FP-Growth {} Header Table Item head f c a b m p f:4 c:1 c:3 b:1 b:1 a:3 p:1 m:2 b:1 p:2 m:1 22

  23. رهيافت هاي جاري براي حل مساله FP-Growth مزايا ساخته شدن درخت كامل با دو پويش بر روي پايگاه فشرده سازي پايگاه تراكنش براي كاوش 23

  24. رهيافت هاي جاري براي حل مساله FP-Growth به كار گيري درخت FP-Tree براي الگوكاوي عمقي: کاوش FP-tree به روش تقسيم و حل {} {} {} f:4 c:1 f:4 c:1 f:4 c:1 c:3 b:1 b:1 b:1 fc:3 fb:1 fc:3 fb:1 b:1 a:3 p:1 p:1 fca:3 fa:3 p:1 m:2 b:1 fcb:1 fm:2 fcm:2 fb:1 p:2 m:1 fcm:1 fp:2 fm:1 fcp:2 24

  25. فهرست مطالب • تعريف مساله • رهيافت هاي جاري براي حل مساله • كارهاي مرتبط • رويكرد بيتي در بسترسازي براي حل مساله الگوكاوي • الگوكاوي سريال (افقي- عمودي از پايين به بالا- عمودي از بالا به پايين) • الگوكاوي موازي • كاوش الگوهاي بسيار بزرگ با گذر از الگوهاي كوچك و متوسط • نتيجه گيري و كارهاي آينده • مراجع

  26. كارهاي مرتبط انواع الگوريتم هاي كاوش بر اساس رويكرد جستجو 26

  27. كارهاي مرتبط انواع الگوريتم هاي كاوش بر اساس رويكرد جستجو 27

  28. كارهاي مرتبط انواع الگوريتم هاي كاوش بر اساس رويكرد جستجو 28

  29. كارهاي مرتبط انواع الگوريتم هاي كاوش الگوهاي بسته 29

  30. كارهاي مرتبط 30

  31. فهرست مطالب • تعريف مساله • رهيافت هاي جاري براي حل مساله • كارهاي مرتبط • رويكرد بيتي در بسترسازي براي حل مساله الگوكاوي • الگوكاوي سريال (افقي- عمودي از پايين به بالا- عمودي از بالا به پايين) • الگوكاوي موازي • كاوش الگوهاي بسيار بزرگ با گذر از الگوهاي كوچك و متوسط • نتيجه گيري و كارهاي آينده • مراجع

  32. رويكرد بيتي در بسترسازي براي حل مساله الگوكاوي منطق روش بيتي وجود یک آیتم در یک تراکنش معادل یک بودن بیت متناظر آن و عدم وجود معادل صفر بودن در صورت وجود n آیتم در پایگاه تراکنش، هر تراکنش یک رشته n بیتی در یک پایگاه تراکنش با m تراکنش، پایگاه تراکنش معادل یک ماتریس m*n بیتی نگهداری مجموع یک های سطرها در قالب آرایه rowsum نگهداری مجموع یک های ستونها در قالب آرایه colsum شکل 2-1. درخت واره مراحل تکامل الگوریتم 32

  33. رويكرد بيتي در بسترسازي براي حل مساله الگوكاوي شکل 2-1. درخت واره مراحل تکامل الگوریتم 33

  34. رويكرد بيتي در بسترسازي براي حل مساله الگوكاوي هرس کردن ماتریس بیتی حذف همه ستونهایی که colsum آنها کمتر از minsup است. اصلاح مقادیر rowsum پس از حذف شکل 2-1. درخت واره مراحل تکامل الگوریتم 34

  35. رويكرد بيتي در بسترسازي براي حل مساله الگوكاوي تعیین تکرارشوندگی یک الگو با استفاده از ماتریس بیتی: شکل 2-1. درخت واره مراحل تکامل الگوریتم cd تکرارشونده و بقیه ناتکرارشونده به ازای minsup=3 35

  36. رويكرد بيتي در بسترسازي براي حل مساله الگوكاوي تعيين بسته بودن الگوها: - شکل 2-1. درخت واره مراحل تکامل الگوریتم 36

  37. فهرست مطالب • تعريف مساله • رهيافت هاي جاري براي حل مساله • كارهاي مرتبط • رويكرد بيتي در بسترسازي براي حل مساله الگوكاوي • الگوكاوي سريال (افقي- عمودي از پايين به بالا- عمودي از بالا به پايين) • الگوكاوي موازي • كاوش الگوهاي بسيار بزرگ با گذر از الگوهاي كوچك و متوسط • نتيجه گيري و كارهاي آينده • مراجع

  38. الگوكاوي سريال رويكرد هاي كاوش افقي و عمودي رویکرد افقی: هر پایگاه تراکنش شامل تعدادی تراکنش (سطرهاي پايگاه تراكنش) هر تراكنش شامل تعدادی آیتم شکل 2-1. درخت واره مراحل تکامل الگوریتم 38

  39. الگوكاوي سريال رويكرد هاي كاوش افقي و عمودي رویکرد عمودي: نگهداري آیتم ها بر اساس مجموعه تراکنش هایی (شماره تراکنش هايي) که دارای آن آيتم هستند مثال: {c, 1,2,4} {d, 1,2,3,4} پايگاه هاي تراكنش ابعاد بالا (high dimensional) شکل 2-1. درخت واره مراحل تکامل الگوریتم 39

  40. الگوكاوي سريال رويكرد هاي كاوش افقي و عمودي رویکرد عمودي: درخت عمودي از پايين به بالا درخت عمودي از بالا به پايين شکل 2-1. درخت واره مراحل تکامل الگوریتم 40

  41. الگوكاوي سريال رويكرد هاي كاوش افقي و عمودي درخت عمودي: از پايين به بالا شکل 2-1. درخت واره مراحل تکامل الگوریتم 41

  42. الگوكاوي سريال رويكرد هاي كاوش افقي و عمودي درخت عمودي: از بالا به پايين شکل 2-1. درخت واره مراحل تکامل الگوریتم 42

  43. الگوكاوي سريال HPM: الگوكاوي بيتي افقي تعريف: رابطه شمول x: قضيه: افراز هر مجموعه از الگوهاي تكرارشونده به دو مجموعه بر اساس آيتم x نتيجه: تقسيم خروجي (مجموعه الگوهاي تكرارشونده) به n دسته n: تعداد آيتم هاي تكرارشونده موجود در پايگاه تراكنش فرض: مجموعه مرجع I شامل n+m آیتم n آیتم تکرار شونده m آیتم ناتکرارشونده I={a1,a2,..,an,an+1,…,an+m} شکل 2-1. درخت واره مراحل تکامل الگوریتم 43

  44. الگوكاوي سريال HPM: الگوكاوي بيتي افقي مجموعه همه الگوهای تکرارشونده قابل کاوش : دسته اول: الگوهای تکرار شونده مشتمل بر آیتمa1. دسته دوم: الگوهای تکرار شونده مشتمل بر آیتم a2 و فاقد آیتم a1 دسته سوم: الگوهای تکرار شونده مشتمل بر آیتم a3 و فاقد آیتم a1 و a2 ... دسته (n-1)ام: الگوهای تکرار شونده مشتمل بر an-1و فاقد آیتم های a1 و a2 و... و an-2 نباشند. دستهnام: الگوهای تکرار شونده مشتمل بر آیتم anباشند ولی حاوی آیتم های a1 و a2 و... و an-1 نباشند(یعنی الگوی تك آيتميan). شکل 2-1. درخت واره مراحل تکامل الگوریتم 44

  45. الگوكاوي سريال HPM: الگوكاوي بيتي افقي (تعاريف) ماتريس ستوني مرتب: ماتريس بيتي با ستونهاي (آيتم‌هاي) مرتب شده بر اساس يک معيار مشخص ماتريس بدون x(x-eliminated): تنها شامل سطرهايي که مقدار ستون متناظر با آيتم x، در آنها برابر 1 باشد تنها شامل ستونهاي بعد از x از ماتريس ستوني مرتب ماتريس بدون y از x (x|y-eliminated) شکل 2-1. درخت واره مراحل تکامل الگوریتم 45

  46. الگوكاوي سريال HPM: الگوكاوي بيتي افقي ماتریس بدون a شکل 2-1. درخت واره مراحل تکامل الگوریتم 46

  47. الگوكاوي سريال HPM: الگوكاوي بيتي افقي (روش انجام) به ازای هر آیتمx : ماتریس بدونx را به دست آوریم. ماتریس بدون a (هرس نشده): شکل 2-1. درخت واره مراحل تکامل الگوریتم 47

  48. الگوكاوي سريال HPM: الگوكاوي بيتي افقي (روش انجام) هر الگوي استخراج شده از اين ماتريس شامل a است كاوش الگوهاي تكرارشونده شامل a يعني: استخراج الگوهاي ماتريس بدون a و ترکيب آنها با a. ستونهايي که colSum متناظر آنها از minsup کمتر باشد نمي‌توانند در ساخت الگو شرکت کنند: هرس ماتريس بدون a بر اساس minsup شکل 2-1. درخت واره مراحل تکامل الگوریتم 48

  49. الگوكاوي سريال HPM: الگوكاوي بيتي افقي (روش انجام) هرس ماتريس بدون a بر اساس minsup شکل 2-1. درخت واره مراحل تکامل الگوریتم 49

  50. الگوكاوي سريال HPM: الگوكاوي بيتي افقي ماتريس هاي هرس شده در عمق a قابل تولید بودن ماتريسy|x-eliminated xyیک الگوی تکرارشونده است ادامه روند توليد در اين شاخه تولید ماتريس خالي يا NULL شدن در اثر هرس xyیک الگوی تکرارشونده است توقف فرآیند کاوش الگوی این زیرشاخه شکل 2-1. درخت واره مراحل تکامل الگوریتم 50

More Related