1 / 34

به نام خدا انبار داده ها

به نام خدا انبار داده ها. زير نظر : دکتر رهگذر توسط :مصطفي چهرقاني. انبار داده ها. نياز به انبار داده ها : شکاف بين اطلاعات وجود ابزارهاي عملياتي ولي عدم وجود ابزارهاي پردازشي ويژگيهاي انبار داده : موضوع گرا یکپارچه متغیر بازمان غیر فرار. معماریهای انبار داده. معماری دولایه

Télécharger la présentation

به نام خدا انبار داده ها

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. به نام خداانبار داده ها زير نظر : دکتر رهگذر توسط :مصطفي چهرقاني

  2. انبار داده ها نياز به انبار داده ها : شکاف بين اطلاعات وجود ابزارهاي عملياتي ولي عدم وجود ابزارهاي پردازشي ويژگيهاي انبار داده : موضوع گرا یکپارچه متغیر بازمان غیر فرار

  3. معماریهای انبار داده معماری دولایه معماری دولين معماری سه لایه

  4. معماری دولایه • مراحل : • داده ها از فايلها و بانکها گرفته مي شوند • داده های منابع مختلف قبل از لود شودن یکپارچه می شوند • انبار داده براي پشتيباني از تصميم گيري • داده کاوي و OLAP • مشکل : عدم پشتيباني از توزيع

  5. معماری دولایه

  6. معماری دولين • سيستمهاي عملياتي و داده ها • enterprise data warehouse • Data martها

  7. معماری دولين

  8. معماری سه لایه • داده هاي عملياتي (Operational) • داده های مورد توافق (Reconciled ) • جزئی نشده • تاریخی • نرمال نشده • جامع • باکیفیت • داده های مشتق شده ( Derived data ) • Operation meta data • meta dataEDW • Data mart mata data

  9. معماری سه لایه

  10. فرآیند تطبیق • تبدیل داده های عملیاتی به داده های مورد توافق • مراحل : • capture (گرفتن ) • استخراج داده ها از فایلها و بانکهای مبدا • استفاده از فایل کارنامه بانک • scrub (پاک سازی) (cleansing) • افزایش کیفیت داده های مبدأ • استفاده از تطبیق الگو

  11. ادامه فرآیند تطبیق • Transform (تغییر شکل) • تبدیل فرمت داده های عملیاتی به فرمت EDW (بعد از اعمال capture ) • هدف scrub کردن تصحیح خطاها در مقادیر داده هاست در حالیکه هدف از Transformation تبدیل داده ها به فرمت EDW است • lode and index (بارگذاری و ایندکس) • بار کردن داده های انتخاب شده در EDW و ایجاد ایندکسهای مورد نیاز • استفاده از ايندکس bitmap

  12. انواع توابع Transformation • توابع در سطح رکورد • selection و join و aggregation و normalization • توابع در سطح فیلد • تک فیلدی • چند فیلدی

  13. ابزارهای تولید داده های مورد توافق • انواع : • ابزارهایی که کیفیت داده ها را کنترل می کنند • Analyze • کیفیت داده ها را می سنجد و توصیه هایی برای پاک سازی و سازماندهی داده ها قبل از استخراج و تبدیل می دهد • WizRules • جستجوي همه رکوردها و استخراج قوانين • مشخص کردن رکوردهايي که قوانين را ارضا ميکنند • ابزارهایی که عمل تبدیل داده را انجام می دهند • ابزارهایی که عمل پاکسازی داده را انجام می دهند

  14. ابزارهای تبدیل داده • کارهاي اصلي : • استخراج • تبدیل • بارگذاری و ایندکس • آنها بعنوان ورودی یک شما یا یک فایل توصیف گر از فایلهای مبداء و مقصد ونیز قوانین تبدیل را دریافت می کنند • قوانین تبدیل معمولاً به صورت فرمول ، الگوریتم و یا جداول Lock up هستند • این ابزارها کد لازم برای اجرای عمل تبدیل را تولید می کنند

  15. ابزارهای پاک سازی داده ها • کارهاي اصلي : • تحلیل کیفیت داده ها • پاک سازی داده ها • کشف قوانین و ارتباطات بین پدیده ها • از جمله اين ابزارها : • Integrity

  16. لايه مشتق شده • اهداف و فواید data mart : • فراهم ساختن استفاده آسان برای برنامه های تصمیم گیری • فراهم سازی زمان پاسخ کم برای پرس و جو های کاربران • د سته بندی داده ها به گروه های خاص • پشتیبانی از پرس و جو های تصادفی و برنامه های data mining • مشخصات data mart • هم داده های جرئی شده و هم داده های خلاصه شده باید موجود باشند • داده ها روی سرورهای مختلف پخش شوند • جدول داده ترجیحاً به صورت شمای ستاره ای باشد

  17. ابزار هاي پرس و جو و تحلیل داده های ذخیره شده در data warehouse و data mart • ابزارهای گزارش گیری و پرس و جوهای تجاری • ابزارهای OLAP • ابزارهای Data mining • ابزارهای Data visualization

  18. ابزارهای Data mining • OLAP • هزینه در مان برای افراد مجرد بیشتر است یا متأ هل ؟ و .... • Data mining • دنبال الگوها یا مجموعه ای از حقایق • اهداف Data mining • Explanatory • توضیح علت شرایط و پیشامد ها • Confirmatory • تأ یید یا رد نظریه • Exploratory • تحلیل داده ها برای ارتباطات پیش بینی نشده

  19. IQL • زبان تابعي و داراي نوع • پشتيباني از زوج مرتب{x,y,z} • پشتيباني از ليست [x,y,z] • توابع پيشوندي • (+), (-), (*), (/), (=), (!=), (<), (>), (<=), (>=), and, or, not, if • توابع ميانوندي • (--) , (++) • توابع جديد با استفاده از lambda abstractions • lambda {x,y,z} ((*) ((+) x y) z)

  20. ادامه IOL let v = q1 in q2 let v = ((+) 200 500) in ((*) v v) union : R ++ S duplicate elimination: distinct (R) setUnion R S Ξdistinct (R ++ S) difference : R – S projection : [{x,z} | {x,y,z} <- R]

  21. ادامه IOL • Cartesian product : • [{x1,y1,z1,x2,y2,z2,x3} | {x1,y1,z1} <- R; {x2,y2,z2} <- S; {x3} <- T] • Joins • [{x1,y1,z1,x2,y2,z2} | {x1,y1,z1} <- R; {x2,y2,z2} <- S; (=) y1 y2] • Grouping and Aggregation Operations • count R • sort R • distinct R

  22. ادامه IOL • Grouping and Aggregation Operations • max [y | {x,y,z} <- R] • min [y | {x,y,z} <- R] • sum [z | {x,y,z} <- R] • avg [z | {x,y,z} <- R] • group [{x,{y,z}} | {x,y,z} <- R] • gc agFun xs • groups xs on their first component • apply agFun to the second component • map f xs • applies f to each member of xs

  23. استفاده از IQL در AutoMed • مثال : اعمال قيد کليد اصلي (=) (count (distinct [n | {s,n} <- <<Student,name>>])) (count <<Student>>) • Name : field • Student : table

  24. مثالي از مسير transformation

  25. ادامه مثالي از مسير transformation • TS1,S2 = • addNode (dept,{“Maths”,“CompSci”}); • addNode (person, [x| x mathematician] ++ [x| x compScientist]); • addNode (avgDeptSalary, {avg [s| (m,s)«_, mathematician, salary»]} ++ • {avg [s| (c,s)«_, compScientist, salary»]}); • addEdge («_, dept, person», [( “Maths”, x)| x mathematician] ++ • [(“CompSci”, x) | x compScientist]); • addEdge («_, person, salary», «_, mathematician,salary» ++ «_, compScientist, salary»); • addEdge («_, dept, avgDeptSalary», {( “Maths”, avg [s| (m,s)«_, mathematician, salary»]),

  26. ادامه مثالي از مسير transformation • (“CompSci”, avg [s| (c,s)«_, compScientist, salary»])}); • delEdge («_, mathematician, salary», [(p, s)| (d, p) «_, dept, person»; (p’, s) «_, person, salary»; • d = “Maths”; p = p’]); • delEdge («_, compScientist, salary», [(p, s)| (d, p) «_, dept, person»; (p’, s)«_, person, salary»; • d = “CompSci”; p = p’}); • delNode (mathematician, [p| (d, p) «_, dept, person»; d = “Maths”]); • delNode («compScientist», [p| (d, p) «_, dept, person»; d = “CompSci”]);

  27. Incremental view maintenance • Di : set of base relations • ΔDi : bags inserted into Di • ⌂Di : bags deleted from Di • V : materialized view • ΔV : bags inserted into V • ⌂V : bags deleted from V • Vnew = (V ++ ΔV) -- ⌂V • شرط Minimality : • ΔV C V • ΔV∩ ⌂V = Ø

  28. ادامه Incremental view maintenance

  29. ادامه Incremental view maintenance

  30. ليست مقاله ها : • Research Issues in Data Warehousing • Modeling Multidimensional Databases • Improving Data Warehouse and Business Information Quality • Aspects of Data Modeling and Query Processing for Complex Multidimensional Data

  31. ليست مقاله ها : • Data Warehouse Data Policy • Tracing Data Lineage Using Schema Transformation Pathways • Using AutoMed Metadata in Data Warehousing Environments • A System Prototype for Warehouse View Maintenance

  32. ليست مقاله ها : • Incremental view maintenance and data lineage tracing in heterogeneous database environments • A Tutorial on the IQL Query Language • Practical Lineage Tracing in Data Warehouses • A Framework for supporting data integration using the materialized and virtual approaches

  33. ليست مقاله ها : • A logical approach to multidimensional databases • Bitmap Index Design and Evaluation • …

  34. سوال ؟

More Related