120 likes | 451 Vues
BÀI GIẢNG KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU GIỚI THIỆU MÔN HỌC – K17HTTT. PGS. TS. HÀ QUANG THỤY HÀ NỘI 03-2011 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI. Giới thiệu chung về môn học. Tên môn học : Nhập môn khai phá dữ liệu và Kho dữ liệu ! Mã môn học : IS7702
E N D
BÀI GIẢNG KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆUGIỚI THIỆU MÔN HỌC – K17HTTT PGS. TS. HÀ QUANG THỤY HÀ NỘI 03-2011 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI
Giới thiệu chung về môn học Tênmônhọc: NhậpmônkhaiphádữliệuvàKhodữ liệu ! Mãmônhọc: IS7702 Sốtínchỉ: 2 (30=24+0+6) Tàiliệudạy - học: PaulrajPonniah, Data warehousing fundamentals, John Wiley & Sons Inc., 2001 W. H. Inmon (2002). Building the Data Warehouse (Third Edition). John Wiley & Sons, Inc. J. Han and M. Kamber (2006). Data Mining-Concepts and Techniques (Second Edition). Morgan Kaufmann. Tàiliệu tham khảo: Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009). Khai phá dữ liệu Web. NXBGD, Hà Nội, 2009. Các tài liệu tiểu luận. 2
Tổ chức dạy - học Hình thức dạy-học: - Giáo viên trình bày: 9-10 buổi - Học viên trình bày tiểu luận: 5-6 buổi Hình thức đánh giá và khung điểm - Đánh giá thường xuyên: 4 điểm + Kiểm tra giữa kỳ + Tiểu luận + Chuyên cần và đóng góp xây dựng bài - Thi cuối kỳ: 6 điểm Thời gian dự kiến: 15 tuần (05/04/2011- 21/07/2011) 3
Nội dung làm việc nhóm tiểu luận Nhóm tiểu luận - Mỗi nhóm có khoảng 2-3 học viên, có nhóm trưởng - Chịu trách nhiệm bài đọc theo phân công Nội dung công việc - Đọc nắm bắt được các nội dung cơ bản - Làm (nộp) bài thuyết trình nội dung được phân công - Trình bày bài thuyết trình và trả lời câu hỏi Trình bày thuyết trình - Mọi học viên trong nhóm đều trình bày một phần nội dung - Thời gian 1 nhóm: 30 phút cho trình bày + 20 phút cho trả lời - Mọi học viên khác đặt câu hỏi (Đặt câu hỏi được tính điểm chuyên cần) 4
Phân công các nhóm Nhóm 1 Jim Gray, SurajitChaudhuri, Adam Bosworth, Andrew Layman, Don Reichart, MuraliVenkatrao, Frank Pellow, HamidPirahesh (1997). Data Cube: A Relational Aggregation Operator Generalizing Group-by, Cross-Tab, and Sub Totals, Data Min. Knowl. Discov.1(1): 29-53 (1997) Jim Gray, Adam Bosworth, Andrew Layman, HamidPirahesh (1995). Data Cube: A Relational Aggregation Operator Generalizing Group-By, Cross-Tab, and Sub-Totals, Technical Report, MSR-TR-95-22, Microsoft Research Nhóm 2 C. Sapia, M. Blaschka, G. Höfling (1999). An Overview of multi-dimensional Data Models for OLAP, FORWISS Technical Report (FR-1999-001), February 1999, www.forwiss.tumuenchen.de/~system42/publications Nhóm 3 Il-Yeol Song and Kelly LeVan-Shultz (1999). Data Warehouse Design for E-Commerce Environment, Technical Report, Drexel University. 5
Phân công các nhóm Nhóm 4 SunitaSarawagi (1997). Indexing OLAP Data, IEEE Data Eng. Bull.20(1): 36-43. Jiawei Han, Jian Pei, Guozhu Dong, Ke Wang (2001). Efficient Computation of Iceberg Cubes with Complex Measures, SIGMOD Conference 2001: 1-12. Nhóm 5 (6 người) Best practices for a Data Warehouse on Oracle Database 11g: An Oracle White Paper, September 2008 Nhóm 6 Tianyi Wu, Dong Xin, Jiawei Han (2008). ARCube: Supporting Ranking Aggregate Queries in Partially Materialized Data Cubes, SIGMOD’08, June 9–12, 2008, Vancouver, BC, Canada. SlavoljubMilovanović (2008). Data Warehouse Development Management (UDC 004.6 005.8), Economics and Organization, 5,(1): 9-16, 2008. 6
Phân công các nhóm Nhóm 7 Bédard, Y., T. Merrett & J. Han, 2001, Fundamentals of Spatial Data Warehousing for Geographic Knowledge Discovery, Geographic Data Mining and Knowledge Discovery, Taylor & Francis, Vol. Research Monographs in GIS, No. Chap. 3, p. 53-73 Dong Xin, Jiawei Han, Xiaolei Li, Benjamin W. Wah (2003). Star-Cubing: Computing Iceberg Cubes by Top-Down and Bottom-Up Integration, Proceedings of the 29th VLDB Conference, Berlin, Germany, 2003 . Nhóm 8 FabrizioAngiulli and Clara Pizzuti (2002). Fast outlier Detection in High Dimensional Space, PKDD'02. Nhóm 9 Guozhu Dong, Jiawei Han, Joyce Lam, Jian Pei, Ke Wang (2001). Mining Multi-Dimensional Constrained Gradients in Data Cubes, Proceedings of the 27th VLDB Conference, Roma, Italy, 2001. Ke Wang, Yuelong Jiang, Jeffrey Xu Yu, Guozhu Dong, Jiawei Han (2003). Pushing Aggregate Constraints by Divide-and-Approximate, Technical report, the Natural Sciences and Engineering Research Council of Canada, and the Research Grants Council of the Hong Kong Special Administrative Region, China (CUHK4229/01E). 7
Phân công các nhóm Nhóm 10 Nick Roussopoulos, YannisKotidis, AlexandrosLabrinidis, and YannisSismanis (2000). The OpsisProject:Materialized Views for DataWarehouses and the Web, Technical Report, University of Maryland, College Park. Martin Suntinger, Josef Schiefer, Heinz Roth and HannesObweger (2008). Data Warehousing versus Event-Driven BI: Data Management and Knowledge Discovery in Fraud Analysis, Technical Report, 2008. Nhóm 11 Riadh Ben Messaoud, Sabine Rabaséda, Omar Boussaid, FadilaBentayeb (2001). OpAC: A New OLAP Operator Based on a Data Mining Method. SellappanPalaniappan, Tan Kim Hong (2008). Discretization of Continuous Valued Dimensions in OLAP Data Cubes, IJCSNS International Journal of Computer Science and Network Security, 8(11): 116-126, November 2008. Nhóm 12 Volker Markl, Rudolf Bayer (2000). Processing Relational OLAP Queries with UB-Trees and Multidimensional Hierarchical Clustering, Proceedings of the International Workshop on Design and Management of Data Warehouses (DMDW’2000). Xiaolei Li (2003). A performance Test of Iceberg Cubing Algorithm, $A performance Test of Iceberg Cubing Algorithm_li02iceperform.pdf. 8
Phân công các nhóm Nhóm 13 Analytic Data Warehouse Technology White Paper, Infobright, August 2008. Nhóm 14 SunitaSarawagi, RakeshAgrawal, Nimrod Megido (1998). Discovery-driven Exploration of OLAP Data Cubes, SAM98. Nhóm 15 John Vandermay. Considerations for Building a Real-time Data Warehouse, DataMirror Corporation White Paper, file: considerations.doc . Nhóm 16 Joyce Man Wing Lam (2001). Multi-dimentional Constrained Gradient Mining, Master Thesis, SIMON FRASER UNIVERSITY. Nhóm .. ... 9