به نام خدا انبار داده ها

به نام خداانبار داده ها زير نظر : دکتر رهگذر توسط :مصطفي چهرقاني

انبار داده ها نياز به انبار داده ها : شکاف بين اطلاعات وجود ابزارهاي عملياتي ولي عدم وجود ابزارهاي پردازشي ويژگيهاي انبار داده : موضوع گرا یکپارچه متغیر بازمان غیر فرار

معماریهای انبار داده معماری دولایه معماری دولين معماری سه لایه

معماری دولایه • مراحل : • داده ها از فايلها و بانکها گرفته مي شوند • داده های منابع مختلف قبل از لود شودن یکپارچه می شوند • انبار داده براي پشتيباني از تصميم گيري • داده کاوي و OLAP • مشکل : عدم پشتيباني از توزيع

معماری دولایه

معماری دولين • سيستمهاي عملياتي و داده ها • enterprise data warehouse • Data martها

معماری دولين

معماری سه لایه • داده هاي عملياتي (Operational) • داده های مورد توافق (Reconciled ) • جزئی نشده • تاریخی • نرمال نشده • جامع • باکیفیت • داده های مشتق شده ( Derived data ) • Operation meta data • meta dataEDW • Data mart mata data

معماری سه لایه

فرآیند تطبیق • تبدیل داده های عملیاتی به داده های مورد توافق • مراحل : • capture (گرفتن ) • استخراج داده ها از فایلها و بانکهای مبدا • استفاده از فایل کارنامه بانک • scrub (پاک سازی) (cleansing) • افزایش کیفیت داده های مبدأ • استفاده از تطبیق الگو

ادامه فرآیند تطبیق • Transform (تغییر شکل) • تبدیل فرمت داده های عملیاتی به فرمت EDW (بعد از اعمال capture ) • هدف scrub کردن تصحیح خطاها در مقادیر داده هاست در حالیکه هدف از Transformation تبدیل داده ها به فرمت EDW است • lode and index (بارگذاری و ایندکس) • بار کردن داده های انتخاب شده در EDW و ایجاد ایندکسهای مورد نیاز • استفاده از ايندکس bitmap

انواع توابع Transformation • توابع در سطح رکورد • selection و join و aggregation و normalization • توابع در سطح فیلد • تک فیلدی • چند فیلدی

ابزارهای تولید داده های مورد توافق • انواع : • ابزارهایی که کیفیت داده ها را کنترل می کنند • Analyze • کیفیت داده ها را می سنجد و توصیه هایی برای پاک سازی و سازماندهی داده ها قبل از استخراج و تبدیل می دهد • WizRules • جستجوي همه رکوردها و استخراج قوانين • مشخص کردن رکوردهايي که قوانين را ارضا ميکنند • ابزارهایی که عمل تبدیل داده را انجام می دهند • ابزارهایی که عمل پاکسازی داده را انجام می دهند

ابزارهای تبدیل داده • کارهاي اصلي : • استخراج • تبدیل • بارگذاری و ایندکس • آنها بعنوان ورودی یک شما یا یک فایل توصیف گر از فایلهای مبداء و مقصد ونیز قوانین تبدیل را دریافت می کنند • قوانین تبدیل معمولاً به صورت فرمول ، الگوریتم و یا جداول Lock up هستند • این ابزارها کد لازم برای اجرای عمل تبدیل را تولید می کنند

ابزارهای پاک سازی داده ها • کارهاي اصلي : • تحلیل کیفیت داده ها • پاک سازی داده ها • کشف قوانین و ارتباطات بین پدیده ها • از جمله اين ابزارها : • Integrity

لايه مشتق شده • اهداف و فواید data mart : • فراهم ساختن استفاده آسان برای برنامه های تصمیم گیری • فراهم سازی زمان پاسخ کم برای پرس و جو های کاربران • د سته بندی داده ها به گروه های خاص • پشتیبانی از پرس و جو های تصادفی و برنامه های data mining • مشخصات data mart • هم داده های جرئی شده و هم داده های خلاصه شده باید موجود باشند • داده ها روی سرورهای مختلف پخش شوند • جدول داده ترجیحاً به صورت شمای ستاره ای باشد

ابزار هاي پرس و جو و تحلیل داده های ذخیره شده در data warehouse و data mart • ابزارهای گزارش گیری و پرس و جوهای تجاری • ابزارهای OLAP • ابزارهای Data mining • ابزارهای Data visualization

ابزارهای Data mining • OLAP • هزینه در مان برای افراد مجرد بیشتر است یا متأ هل ؟ و .... • Data mining • دنبال الگوها یا مجموعه ای از حقایق • اهداف Data mining • Explanatory • توضیح علت شرایط و پیشامد ها • Confirmatory • تأ یید یا رد نظریه • Exploratory • تحلیل داده ها برای ارتباطات پیش بینی نشده

IQL • زبان تابعي و داراي نوع • پشتيباني از زوج مرتب{x,y,z} • پشتيباني از ليست [x,y,z] • توابع پيشوندي • (+), (-), (*), (/), (=), (!=), (<), (>), (<=), (>=), and, or, not, if • توابع ميانوندي • (--) , (++) • توابع جديد با استفاده از lambda abstractions • lambda {x,y,z} ((*) ((+) x y) z)

ادامه IOL let v = q1 in q2 let v = ((+) 200 500) in ((*) v v) union : R ++ S duplicate elimination: distinct (R) setUnion R S Ξdistinct (R ++ S) difference : R – S projection : [{x,z} | {x,y,z} <- R]

ادامه IOL • Cartesian product : • [{x1,y1,z1,x2,y2,z2,x3} | {x1,y1,z1} <- R; {x2,y2,z2} <- S; {x3} <- T] • Joins • [{x1,y1,z1,x2,y2,z2} | {x1,y1,z1} <- R; {x2,y2,z2} <- S; (=) y1 y2] • Grouping and Aggregation Operations • count R • sort R • distinct R

ادامه IOL • Grouping and Aggregation Operations • max [y | {x,y,z} <- R] • min [y | {x,y,z} <- R] • sum [z | {x,y,z} <- R] • avg [z | {x,y,z} <- R] • group [{x,{y,z}} | {x,y,z} <- R] • gc agFun xs • groups xs on their first component • apply agFun to the second component • map f xs • applies f to each member of xs

استفاده از IQL در AutoMed • مثال : اعمال قيد کليد اصلي (=) (count (distinct [n | {s,n} <- <<Student,name>>])) (count <<Student>>) • Name : field • Student : table

مثالي از مسير transformation

ادامه مثالي از مسير transformation • TS1,S2 = • addNode (dept,{“Maths”,“CompSci”}); • addNode (person, [x| x mathematician] ++ [x| x compScientist]); • addNode (avgDeptSalary, {avg [s| (m,s)«_, mathematician, salary»]} ++ • {avg [s| (c,s)«_, compScientist, salary»]}); • addEdge («_, dept, person», [( “Maths”, x)| x mathematician] ++ • [(“CompSci”, x) | x compScientist]); • addEdge («_, person, salary», «_, mathematician,salary» ++ «_, compScientist, salary»); • addEdge («_, dept, avgDeptSalary», {( “Maths”, avg [s| (m,s)«_, mathematician, salary»]),

ادامه مثالي از مسير transformation • (“CompSci”, avg [s| (c,s)«_, compScientist, salary»])}); • delEdge («_, mathematician, salary», [(p, s)| (d, p) «_, dept, person»; (p’, s) «_, person, salary»; • d = “Maths”; p = p’]); • delEdge («_, compScientist, salary», [(p, s)| (d, p) «_, dept, person»; (p’, s)«_, person, salary»; • d = “CompSci”; p = p’}); • delNode (mathematician, [p| (d, p) «_, dept, person»; d = “Maths”]); • delNode («compScientist», [p| (d, p) «_, dept, person»; d = “CompSci”]);

Incremental view maintenance • Di : set of base relations • ΔDi : bags inserted into Di • ⌂Di : bags deleted from Di • V : materialized view • ΔV : bags inserted into V • ⌂V : bags deleted from V • Vnew = (V ++ ΔV) -- ⌂V • شرط Minimality : • ΔV C V • ΔV∩ ⌂V = Ø

ادامه Incremental view maintenance

ليست مقاله ها : • Research Issues in Data Warehousing • Modeling Multidimensional Databases • Improving Data Warehouse and Business Information Quality • Aspects of Data Modeling and Query Processing for Complex Multidimensional Data

ليست مقاله ها : • Data Warehouse Data Policy • Tracing Data Lineage Using Schema Transformation Pathways • Using AutoMed Metadata in Data Warehousing Environments • A System Prototype for Warehouse View Maintenance

ليست مقاله ها : • Incremental view maintenance and data lineage tracing in heterogeneous database environments • A Tutorial on the IQL Query Language • Practical Lineage Tracing in Data Warehouses • A Framework for supporting data integration using the materialized and virtual approaches

ليست مقاله ها : • A logical approach to multidimensional databases • Bitmap Index Design and Evaluation • …

سوال ؟

به نام خدا انبار داده ها

به نام خدا انبار داده ها

Presentation Transcript