220 likes | 421 Vues
DATA WAREHOUSE. - PERTEMUAN 1 - KNOWLEGDE DISCOVERY in DATABASE (KDD ) Tujuan : Mahasiswa Dapat memahami konsep KDD yang merupakan tujuan akhir dari Data Warehouse dan Data Mining. DATA MINING & KDD. DATA MINING.
E N D
DATA WAREHOUSE - PERTEMUAN 1 - KNOWLEGDE DISCOVERY in DATABASE (KDD) Tujuan : MahasiswaDapatmemahamikonsep KDD yang merupakantujuanakhirdari Data Warehouse dan Data Mining
DATA MINING • Data Mining adalahkegiatanuntukmenemukaninformasiataupengetahuan yang bergunasecaraotomatisdari data yang jumlahnyabesar. • Data Mining merupakansalahsatuprosesdarikeseluruhanproses yang adapadaKnowledge Discovery in Databases (KDD).
KDD • Knowledge Discovery in Databases (KDD) merupakansekumpulanprosesuntukmenemukanpengetahuan yang bermanfaatdari data. • Kumpulan prosesdalam KDD meliputi : pembersihan data (data cleaning), integrasi data (data integration), pemilihan data (data selection), transformasi data (data transformation), penambangan data (data mining), evaluasipola (pattern evaluation), danpresentasipengetahuan (knowledge presentation). • Berdasarkandefinisiiniterlihatbahwadata mining hanyamerupakansalahsatuprosesdarikeseluruhanproses yang adapada KDD, tetapimerupakanproses yang sangatpentingdalammenemukanpola-pola yang bergunadarisejumlah data yang besar (data tersebutbisadisimpandalambasisdata, Data Warehouse, atau media penyimpananinformasilainnya).
DATA MINING & KDD DATA WAREHOUSE
KDD DATA MINING DATA WAREHOUSE
KDD vs. DM • MenurutCabena, Data Mining =Knowledge Discovery in Database (KDD). • MenurutJiawei Han, Data Mining merupakanSubset atausalahsatutahapdari KDD saja. Sehingga, batasanini yang selanjutkandigunakan. • Data Mining bertujuanmengekplorasi basis data untukmenemukanpola-polapengetahuan yang tersembunyididalam data tersebut.
TAHAPAN KNOWLEDGE DISCOVERY IN DATABASE Menurut Peter Cabena, Tahapan – tahapandalam KDDadalahsebagaiberikut : • PenentuanSasaranBisnis(Business Objective Determination) • Persiapan Data (Preparation Data) • Data Selection • Data Preprocessing • Data Transformation • Data Mining • Anaysis of Result • Assimilation of Knowledge
Business Objective Determination - 1 • Merupakansebuahtahapan yang mendefinisikanpermasalahanatautantanganbisnisdenganjelas. Hal inimerupakanaspek yang sangatesensialdalamsetiapproyek data mining. • ContohSasaranBisnis : Mengembangkansuatustrategi marketing untukmempertahankanloyalitas customer diJawa Tengah danJawaTimuruntukproduk soft drink dengan brand danukurantertentu (200ml dalamkotakalumunium) selamabulan April, Mei , Juni yang akandatang. Perusahaan akanmenggunakankombinasidariberbagaistrategi marketing (mixed marketing), yang salahsatunyaadalahdirect mail campaignkepada customer yang tampaknya "mudahrusak" loyalitasnya.
Business Objective Determination - 2 • Sehinggadampakkeseluruhan KDD adalah : • – Data Selection: dipilih customers yang membeliproduk soft drink 200 ml dalamkotakalumuniumdiJawa Tengah danJawaTimur. • – Data Transformation: customers yang membeliproduk soft drink 200 ml dalamkotakalumuniumdisortingdalam 10 kategori, yang masing-masingmembedakantingkatloyalitasnya: membeliproduktersebut 0-10%, 11-20%, ..... , 81-90%, 91-100% sepanjangwaktupembeliannya. Selanjutnya data inilah yang akandibawaketahap data mining.
Persiapan Data (Preparation Data) -1 • Merupakantahapanuntukmempersiapkan data yang diperlukanuntukproses data mining. Tujuannyaadalah agar data yang digunakanbenar-benarsesuaidenganpermasalahan yang akandipecahkan, dapatdijaminkebenarannya, dandalam format yang sesuai/tepat. • Tahap yang paling banyakmengkonsumsi resources (manusia, biaya, waktu) yang tersedia. Biasanyamencapai 60% keseluruhanproyek KDD.
Persiapan Data (Preparation Data) -2 • Data Selection • Mengidentifikasisemuasumberinformasi internal daneksternaldanmemilihsebagiansajadari data yang diperlukanuntukaplikasi data mining. • Data Preprocessing • Meyakinkankualitas data yang telahdipilihpadatahapansebelumnya. 2 issue yang seringdihadapkanpadatahapaniniadalah Noisy Data dan Missing Value. • Data Transformation • Mengubah data kedalam model analitissertamemodelkan data agar sesuaidengananalisa yang diharapkandan format data yang diperlukanolehalgoritma data mining.
Data Mining -1 • Melakukanprosespencarianpengetahuanterhadap data yang ditransformasikanpadatahapsebelumnya. • ContohPengetahuanberbentukAssociation Rule untukkasus "Soft Drink“: • IF soft drink sejenisdenganukuran yang lebihbesar (bukanbotolkecil) dibelilebihdari 58% dalamsejarahpembelian soft drink seorang consumer • THEN consumer tersebutdiprediksi Loyal. • Pemilihantugas data mining : pemilihan goal dariproses KDD misalnyaklasifikasi, regresi, clustering, dll.
Data Mining -2 • Proses Data mining yaituprosesmencaripolaatauinformasimenarikdalam data terpilihdenganmenggunakanteknikataumetodetertentu. Teknik, metode, ataualgoritmadalamdata mining sangatbervariasi. Pemilihanmetodeataualgoritma yang tepatsangatbergantungpadatujuandanproses KDD secarakeseluruhan.
Anaysis of Result • Menginterpretasikandanmengevaluasi output daritahap mining: patterns. • Pendekatananalisa yang digunakanakanbervariasimenurutoperasi data mining yang digunakan, tetapibiasanyaakanmelibatkanteknikvisualisasi.
Assimilation of Knowledge • Menggunakanhasil mining yang telahdievaluasikedalamperilakuorganisasidansisteminformasiperusahaan.
DATA MINING dan PROSES KDD - 2 • Pembersihan data (Data Cleaning) • Digunakanuntukmembuang data yang tidakkonsistendan noise. • Intergrasi Data (Data Integration) • Data yang diperlukanuntuk data mining tidakhanyaberasaldarisatu database tetapijugaberasaldaribeberapa database atau file teks. Hasilintegrasi data seringdiwujudkandalamsebuah data warehouse karenadengan data warehouse, data dikonsolidasikandenganstrukturkhusus yang efisien. Selainitu data warehouse jugamemungkinkantipeanalisaseperti OLAP. • Transformasi data • Transformasidanpemilihan data iniuntukmenentukankualitasdarihasil data mining, sehingga data diubahmenjadibentuksesuaiuntukdi-Mining. • AplikasiTeknik Data Mining • Aplikasiteknik data mining sendirihanyamerupakansalahsatubagiandariproses data mining. Adabeberapateknik data mining yang sudahumumdipakai. • Evaluasipola yang ditemukan • Dalamtahapinihasildariteknik data mining berupapola-pola yang khasmaupun model prediksidievaluasiuntukmenilaiapakahhipotesa yang adamemangtercapai. • PresentasiPengetahuan • Presentasipola yang ditemukanuntukmenghasilkanaksitahapterakhirdariproses data mining adalahbagaimanamemformulasikankeputusanatauaksidarihasilanalisa yang didapat.