1 / 70

Data Mining

Data Mining. Romi Satria Wahon o romi@romisatriawahono.net http://romisatriawahono.net +6281586220090. Romi Satria Wahono. SD Sompok Semarang (1987) SMPN 8 Semarang (1990) SMA Taruna Nusantara , Magelang (1993)

akina
Télécharger la présentation

Data Mining

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Data Mining Romi Satria Wahonoromi@romisatriawahono.nethttp://romisatriawahono.net+6281586220090

  2. Romi Satria Wahono • SD Sompok Semarang (1987) • SMPN 8 Semarang (1990) • SMA Taruna Nusantara, Magelang (1993) • S1, S2 dan S3 (on-leave)Department of Computer SciencesSaitama University, Japan (1994-2004) • Research Interests: Software EngineeringandIntelligent Systems • Founder IlmuKomputer.Com • Peneliti LIPI (2004-2007) • Founder dan CEO PT Brainmatics Cipta Informatika

  3. Learning Design

  4. Learning Design

  5. Textbooks

  6. Course Outline • Pengenalan Data Mining • Proses Data Mining • Evaluasi dan Validasi pada Data Mining • Metode dan Algoritma Data Mining • Penelitian Data Mining

  7. Pretest • Jelaskan apa yang dimaksud dengan data mining? • Sebutkan peran data miningdan algoritma apa saja yang mendukung peran data mining tersebut? • Berikan contoh penerapan ataupun penelitian data mining

  8. Pengenalan Data Mining

  9. Pengenalan Data Mining • Apa itu Data Mining? • Peran Utama Data Mining • Algoritma Data Mining

  10. Apa itu Data Mining?

  11. Mengapa Data Mining? • Manusia dalam suatu organisasi, sadar atau tidak sadar telah memproduksi berbagai data yang jumlahnya sangat besar • Contoh data: bisnis, kedokteran, ekonomi, geografi, olahraga, … • Pada dasarnya, data adalah entitas yang tidak memiliki arti, meskipun kemungkinan memiliki nilai di dalamnya

  12. Apa itu Data Mining? • Disiplin ilmu yang mempelajari metode untuk mengekstrakpengetahuan atau menemukan poladari suatudata • Data: fakta yang terekam dan tidak membawa arti • Pengetahuan: pola, aturan atau model yang muncul dari data • Sehingga Data mining sering disebut Knowledge Discovery inDatabase (KDD) • Konsep TransformasiDataInformasiPengetahuan www.newmediamusings.com

  13. Data • Tidakmembawaarti, merupakankumpulandarifakta-faktatentangsuatukejadian • Suatucatatanterstrukturdarisuatutransaksi • Merupakanmateripentingdalammembentukinformasi

  14. Pengetahuan • Gabungandarisuatupengalaman, nilai, informasikontekstualdanjugapandanganpakaryang memberikansuatu framework untukmengevaluasidanmenciptakanpengalamanbarudaninformasi(Thomas H. Davenport, Laurence Prusak) • Bisaberupasolusipemecahansuatumasalah, petunjuksuatupekerjaandaninibisaditingkatkannilainya, dipelajaridanjugabisadiajarkankepada yang lain

  15. Data - Informasi – Pengetahuan DataKehadiranPegawai

  16. Data - Informasi – Pengetahuan InformasiAkumulasiBulananKehadiranPegawai

  17. Data - Informasi – Pengetahuan InformasiKondisiKehadiranMingguanPegawai

  18. Data - Informasi – Pengetahuan • Pengetahuantentangkebiasaanpegawaidalam jam datang/pulangkerja • Pengetahuantentangbagaimana teknik meningkatkankehadiranpegawai kebijakan

  19. Data - Informasi-Pengetahuan -Kebijakan • Kebijakanpenataan jam kerjakaryawankhususuntukharisenindanjumat • Peraturan jam kerja: • HariSenindimulai jam 10:00 • HariJumatdiakhiri jam 14:00 • Sisa jam kerjadikompensasikehari lain: • Senin pulang setelah maghrib, toh jalanan jakarta macet total di sore hari (bayar hutang 2 jam) • Rabu dan kamis bayar hutang setengah jam di pagi hari dan setengah jam di sore hari (bayar hutang 2 jam)

  20. Definisi Data Mining • Melakukan ekstraksi untuk mendapatkan informasi penting yang sifatnya implisit dan sebelumnya tidak diketahui, dari suatu data(Wittenetal., 2011) • Kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola dan hubungan dalam set data berukuran besar (Santosa, 2007)

  21. Definisi Data Mining • The analysis of (often large) observational data sets to findunsuspected relationships and to summarize the data in novel ways that areboth understandable and useful to the data owner (Han& Kamber, 2001) • The process of discoveringmeaningful new correlations, patterns and trendsby sifting through large amounts ofdata stored in repositories, using pattern recognition technologies as well as statisticalandmathematicaltechniques(Gartner Group)

  22. Irisan Bidang Ilmu Data Mining • Statistik: • Lebih bersifat teori • Fokus ke pengujian hipotesis • MachineLearning: • Lebih bersifat heuristik • Fokus pada perbaikan performansi dari suatu teknik learning • Data Mining: • Gabungan teori dan heuristik • Fokus pada seluruh proses penemuan knowledge dan pola • Termasuk data cleaning, learning dan visualisasi hasilnya

  23. Cognitive-Performance Test • Jelaskan dengan kalimat sendiri apa yang dimaksud dengan data mining? • Apa perbedaan antara data dan pengetahuan (knowledge)?

  24. Peran Utama Data Mining

  25. Peran Utama Data Mining • Estimation • Prediction • Classification • Clustering • Association

  26. Dataset with Attribute and Class Attribute Class/Label

  27. Estimasi Waktu Pengiriman Pizza Waktu Tempuh (T) = 0.48P + 0.23B + 0.5J

  28. Penentuan Kelulusan Mahasiswa

  29. Klastering Bunga Iris

  30. Klastering Bunga Iris

  31. Algoritma Data Mining (DM) • Estimation(Estimasi): • Linear Regression, NeuralNetwork, SupportVector Machine, etc • Prediction/Forecasting(Prediksi/Peramalan): • Linear Regression, NeuralNetwork, SupportVectorMachine, etc • Classification(Klasifikasi): • NaiveBayes, K-NearestNeighbor, C4.5, ID3, CART, Linear DiscriminantAnalysis, etc • Clustering(Klastering): • K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc • Association(Asosiasi): • FP-Growth, A Priori, etc

  32. Metode LearningPada Algoritma DM

  33. Metode LearningPada Algoritma DM • SupervisedLearning (Pembelajaran dengan Guru): • Sebagian besar algoritma data mining (estimation, prediction/forecasting, classification) adalah supervisedlearning • Variabel yang menjadi target/label/class ditentukan • Algoritma melakukan proses belajar berdasarkan nilai dari variabel targetyang terasosiasi dengan nilai dari variableprediktor

  34. Dataset with Attribute and Class Attribute Class/Label

  35. Metode LearningPada Algoritma DM • UnsupervisedLearning(Pembelajaran tanpa Guru): • Algoritma data mining mencari pola dari semua variable (atribut) • Variable (atribut) yang menjadi target/label/class tidak ditentukan (tidak ada) • Algoritma clusteringadalah algoritma unsupervisedlearning

  36. Dataset with Attribute (No Class) Attribute

  37. Metode LearningPada Algoritma DM • AssociationLearning(Pembelajaran untuk Asosiasi Atribut) • Proses learning pada algoritma asosiasi (associationrule) agak berbeda karena tujuannya adalah untuk mencari atribut yang muncul bersamaan dalam satu transaksi • Algoritma asosiasi biasanya untuk analisa transaksi belanja, dengan konsep utama adalah mencari “produk/item mana yang dibeli bersamaan” • Pada pusat perbelanjaan banyak produk yang dijual, sehingga pencarian seluruh asosiasi produk memakan cost tinggi, karena sifatnya yang kombinatorial • Algoritma associationruleseperti a priori algorithm, dapat memecahkan masalah ini dengan efisien

  38. Dataset Transaction

  39. Association Rules

  40. Proses Utama pada Data Mining

  41. Output/Pola/Model/Knowledge • Formula/Function (Rumus atau Fungsi Regresi) • WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN • Decision Tree (Pohon Keputusan) • Rule (Aturan) • IF ips3=2.8 THEN lulustepatwaktu • Cluster (Klaster)

  42. Input – Metode – Output – Evaluation

  43. Cognitive-Performance Test • Sebutkan 5 peran utama data mining! • Jelaskan perbedaan estimasi dan prediksi! • Jelaskan perbedaan estimasi dan klasifikasi! • Jelaskan perbedaan klasifikasi dan klastering! • Jelaskan perbedaan klastering dan prediksi! • Jelaskan perbedaan supervised dan unsupervised learning! • Sebutkan tahapan utama proses data mining!

  44. Algoritma Data Mining

  45. Algoritma Estimasi • Algoritma estimasi mirip dengan algoritma klasifikasi, tapi variabel target adalah berupa bilangan numerik (kontinyu) dan bukan kategorikal (nominal atau diskrit) • Estimasi nilai dari variable target ditentukan berdasarkan nilai dari variabel prediktor (atribut) • Algoritma estimasi yang biasa digunakan adalah: Linear Regression, Neural Network, Support Vector Machine

  46. Contoh: Estimasi Performansi CPU • Example: 209 differentcomputerconfigurations • Linear regressionfunction PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX + 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX Cycle time (ns) Main memory (Kb) Cache (Kb) Channels Performance MYCT MMIN MMAX CACH CHMIN CHMAX PRP 1 125 256 6000 256 16 128 198 2 29 8000 32000 32 8 32 269 … 208 480 512 8000 32 0 0 67 209 480 1000 4000 0 0 0 45

  47. Algoritma Prediksi • Algoritma prediksi/forecasting sama dengan algoritma estimasi di mana label/target/class bertipe numerik, bedanya adalah data yang digunakan merupakan data rentet waktu(data timeseries) • Istilah prediksi kadang digunakan juga untuk klasifikasi, tidak hanya untuk prediksi timeseries, karena sifatnya yang bisa menghasilkan class berdasarkan berbagai atribut yang kita sediakan • Semua algoritma estimasi dapat digunakan untuk prediksi/forecasting

  48. Contoh: Prediksi Harga Saham Dataset harga saham dalam bentuk time series (rentet waktu) harian

  49. Contoh: Prediksi Harga Saham (Plot)

  50. Contoh: Prediksi Harga Saham (Plot)

More Related