400 likes | 810 Vues
Khai Thác Dữ Liệu. GV: Nguyễn Kim Long. Giới thiệu môn học. Kết quả đạt được. Trình bày được các khái niệm cơ bản trong khai thác dữ liệu. Các kỹ thuật, công nghệ, phương pháp áp dụng trong khai thác dữ liệu. Triển khai phương pháp khai thác dữ liệu đối với một lĩnh vực cụ thể .
E N D
Khai Thác Dữ Liệu GV: Nguyễn Kim Long
Kết quả đạt được • Trình bày được các khái niệm cơ bản trong khai thác dữ liệu. • Các kỹ thuật, công nghệ, phương pháp áp dụng trong khai thác dữ liệu. • Triển khai phương pháp khai thác dữ liệu đối với một lĩnh vực cụ thể. • Nâng cao kỹ năng tham khảo tài liệu về lĩnh vực khai thác dữ liệu.
Đánh giá kết quả • Điểm tích cực(30%) • Thuyết trình lý thuyết (1/2) • Bài tập hàng tuần (1/2) • Đồ án(30%) • Báo cáo tuần 9 (40%), tuần 13-14 (60%) • Thi cuối kỳ(40%) • Thi vấn đáp theo lịch phòng đào tạo
Tài liệu • Sách principle of DataMining • Sách DataMining Concepts and Techniques • Slides • DataMiningMSSQL2008 • google
Môi trường học và thực hành • Lý thuyết: trên lớp CS2 • Thực hành: phòng máy CS2 • Bài tập: tùy chọn
Nội dung môn học (Lý thuyết) • 1-2. Tổng quan • 3. Xác xuất và entropy • 4. Tiền xử lý dữ liệu • 5. Kho dữ liệu và OLAP • 6-7. Luật kết hợp • 8-9. Phân nhóm • 10-11. Phân cụm. • 12-13. Web Mining, Text Mining • 14. Ôn tập
Nội dung môn học (Thực hành) • 1-3. Làm quen công cụ mining • 4-8. MSSQL 2008 • 9-13. Text Mining • 14. Ôn tập
Nội dung 1. Lịch sử KTDL. 2. Tại sao khai thác dữ liệu? 3. Khái thác dữ liệu là gì? 4. Các bước KTDL. 5. Khai thác trên kiểu dữ liệu gì? 6. Chức năng KTDL 7. Các kỹ thuật (thuật tóan) KTDL 8. Phân lọai hệ thống KTDL 9. Tóm tắt
Lịch Sử • 1960s: HT xử lý tập tin đơn giản -> HT CSDL • 1970s: CSDL quan hệ, mô hình hóa, câu truy vấn,... • 1980s: lý thuyết mô hình hướng đối tượng, CSDL phân tán, ... => sự bùng nổ kho dữ liệu khổng lồ => „giàu dữ liệu, nghèo thông tin”
Các khái niệm tương đương • khai thác tri thức • Knowledge Discovery form Data (KDD) • knowledge mining from data • knowledge extraction • data/pattern analysis • data archaeology (khai quật dữ liệu) • data dredging (nạo vét dữ liệu)
Phân biệt KTDL • Tra cứu số điện thoại trong danh bạ. • Tìm xem trong 1 khu vực nhất định, cái tên nào phổ biến nhất. • Sử dụng Google để tìm kiếm thông tin về “Amazon” • Gom nhóm những tài liệu do Google trả về dựa trên ngữ cảnh (Rừng Amazon, trang web Amazon,...)
Các bước KTDL 1. Làm sạch dữ liệu – Data cleaning 2. Tích hợp dữ liệu Data integration 3. Lựa chọn dữ liệu Data selection 4. Chuyển hóa dữ liệu Data transformation 5. Khai thác dữ liệu Data mining 6. Đánh giá mẫu Pattern evaluation 7. Biểu diễn tri thức Knowledge representation
Kiểu dữ liệu • relational database (cơ sở dữ liệu quan hệ) • data warehouse (Kho dữ liệu) • Cơ sở dữ liệu giao dịch • Dữ liệu cao cấp, hệ thống thông tin và ứng dụng cao cấp • Cơ sở dữ liệu quan hệ đối tượng • Cơ sở dữ liệu thời gian, Cơ sở dữ liệu khoảng thời gian, và Cơ sở dữ liệu chuỗi thời gian • Cơ sở dữ liệu không gian và cơ sở dữ liệu không gian thời gian • Cơ sở dữ liệu văn bản và cơ sở dữ liệu đa truyền thông • Cơ sở dữ liệu hỗn tạp và Cơ sở dữ liệu kế thừa
relational database Table Attribute(column/field) Record (row/tuple) ER SQL (select, join, sum, min, max, avg) => nơi lưu trữ nhiều thông tin nhất hiện nay.
Data warehouse • Kho dữ liệu: • Def: Là nơi lưu trữ thông tin tập hợp từ nhiều nguồn khác nhau • Dạng lưu trữ: Schema (giản đồ), khối đa chiều • Các bước xây dựng kho dữ liệu: • Làm sạch dữ liệu • Tích hợp dữ liệu • Chuyển hóa dữ liệu • Nạp dữ liệu • Làm tươi dữ liệu (refresh)
Text database • Các dạng thường gặp: • Word, excel, pp, txt • Website, HTML/XML • Từ điển, thư viện • ... • Mục đích: • Mô tả chung • Từ khóa • Phân lọai • ...
Chức năng KTDL • Nhiệm vụ • Mô tả (descriptive) • Dự đoán (predictive) • Phân loại (Classification) - P • Phân nhóm (Clustering) - D • Kết hợp (Association) - D • Hồi quy (Regression) - P • Phân tích trình tự (Sequence Analysis) - D • Phân tích độ lệch (Deviation Analysis) - P
Classification (P)1/6 Sử dụng 1 tập các records có sẵn, mỗi record có chứa nhiều thuộc tính, trong đó có 1 thuộc tính là class.
Clustering (D)2/6 • Cho 1 tập các điểm dữ liệu (data points) với các thuộc tính và 1 đơn vị tương đương (similarity measure), tìm các nhóm sao cho: • Dữ liệu trong cùng 1 nhóm (cluster) thì giống nhau hơn nhóm khác. • Dữ liệu trong các nhóm khác nhau thì ít giống nhau hơn.
Association (D)3/6 Cho trước 1 nhóm records có chứa một số các items từ 1 bộ nhất định. Thiết lập các luật phụ thuộc để dự đoán sự xuất hiện của 1 số item dựa trên những item khác.
Regression (P)4/6 • Dự đoán giá trị của 1 thông số được cho liên tục, dựa trên giá trị của những thông số khác. • (Giả sử cho trước 1 mô hình phụ thuộc tuyến tính hay phi tuyến tính) • Áp dụng nhiều trong lĩnh vực thống kê, mạng lưới thần kinh.
Sequence Analysis (D)5/6 • Cho trước 1 tập các đối tượng, trong đó mỗi đối tượng có riêng 1 chuỗi các sự kiện. Cần tìm các quy luật dự đoán sự phụ thuộc tuần tự giữa các sự kiện. • Các quy luật được lập nên bằng cách đầu tiên tìm ra các kiểu mẫu. Các sự kiện xảy ra trong các mẫu này bị giới hạn về mặt thời gian.
Deviation Analysis (P)6/6 • Nhận ra những thay đổi khác biệt so với hành vi bình thường. • Ứng dụng: • Phát hiện gian lận credeit card. • Phát hiện xâm nhập network.
Các kỹ thuật (thuật tóan)KTDL • Lựa chọn thuộc tính: • Thuật tóan RELIEF, FOCUS, LVF, EBR, SCRAP, LVW, Neuralnet, Genetic, ... • Luật kết hợp: • Thuật tóan Apriori, AprioriTid, AprioriHybrid, FP-tree, PHP, PCY, PCY nhiều chặng, cây quyết định (ID3, các mở rộng của C4.5) • Phân lớp: • Cây quyết định, mạng bayes, mạng neural, SVM,...
Phân lọai hệ thống KTDL • Phân lọai theo cơ sở dữ liệu được khai thác • Phân lọai theo tri thức khai thác • Phân lọai theo kỹ thuật KTDL • Phân lọai theo môi trường ứng dụng
Theo CSDL(1/4) Hệ thống khai thác CSDL quan hệ Hệ thống khai thác CSDL giao dịch Hệ thống khai thác CSDL quan hệ đối tượng Hệ thống khai thác kho dữ liệu Hệ thống khai thác CSDL không gian, thời gian Hệ thống khai thác dữ liệu văn bản, đa truyền thông Hệ thống khai thác dữ liệu mạng tòan cần
Theo tri thức (2/4) Hệ thống mô tả và phân biệt dữ liệu Hệ thồng khai thác kết hợp và tương quan dữ liệu Hệ thống phân lớp và dự đóan dữ liệu Hệ thống gom nhóm dữ liệu HT phân tích dữ liệu ngọai lệ và tiến hóa HT khai thác tri thức phổ biến HT khai thác tri thức thô HT khai thác tri thức đa cấp độ
Theo kỹ thuật (3/4) HT khai thác dữ liệu tự động HT khai thác dữ liệu có tương tác HT khai thác dữ liệu theo truy vấn HT sử dụng kỹ thuật máy học, thống kê, mô phỏng, nhận dạng mẫu.
Theo môi trường ứng dụng (4/4) HT khai thác dữ liệu tài chính kế tóan HT khai thác dự liệu viễn thông HT khai thác dự liệudi truyền học HT khai thác dự liệu chứng khóan HT khai thác dự liệu giáo dục
Tổng kết • Các bước khai thác dữ liệu? Các bước thực hiện một bài tóan khai thác dữ liệu? • Nội dung thuyết trình. • Chủ đề 1 thi cuối kỳ: - tổng quan khai thác dữ liệu.