540 likes | 821 Vues
Proces Odločanja. doc. dr. Bojan Cestnik Temida d.o.o. & In š titut Jožef Stefan Ljubljana bojan.cestnik@temida.si. Strojno učenje iz primerov Upravljanje odnosov s strankami (CRM) Ocenjevanje verjetnosti pri strojnem učenju. Vsebina. Vloga strojnega učenja pri sintezi baze znanja
E N D
Proces Odločanja doc. dr. Bojan Cestnik Temida d.o.o. & Inštitut Jožef Stefan Ljubljana bojan.cestnik@temida.si
Strojno učenje iz primerov Upravljanje odnosov s strankami (CRM) Ocenjevanje verjetnosti pri strojnem učenju Vsebina
Vloga strojnega učenja pri sintezi baze znanja Sistemi za strojno učenje Področja uporabe Gradnja odločitvenih dreves Trije praktični primeri Zaključek Strojno učenje iz primerov
Struktura ekspertnih sistemov Mehanizem sklepanja Uporabniški vmesnik Baza znanja
Strojno učenje Podatki Vloga strojnega učenja “Know-how” Tehnolog znanja “Say-how” ??? Baza znanja Eksperti Literatura
Vhodni podatki CA1A2 … AN ______________________________________________ C1 V1,1V1,2 … V1,N C2 V2,1V2,2 … V2,N … CM VM,1VM,2 … VM,N ______________________________________________ Naloga: poiskati pravilo za razred C glede na vrednosti A1 do AN
Primer 1 Dobiček Starost Konkurenca Vrsta _______________________________________________________________________________________ pada staro ne SW pada srednje da SW narašča srednje ne HW pada staro ne HW narašča novo ne HW narašča novo ne SW narašča srednje ne SW narašča novo da SW pada srednje da HW pada staro da SW _______________________________________________________________________________________
Odločitveno drevo 1 Starost staro srednje, novo pada Konkurenca ne da Starost narašča srednje novo pada narašča
Statistične metode k-najbližjih sosedov, diskriminantna analiza, Bayesov klasifikator, … Induktivno učenje simboličnih pravil odločitvena drevesa, odločitvena pravila, indukcija logičnih programov, … Umetne nevronske mreže večnivojske usmerjene NM s povratno povezavo, Kohonenove NM, Hopfieldove NM, … Sistemi za strojno učenje
Zanesljivost delovanja iz podatkov dobimo relevantno informacijo, velika klasifikacijska točnost Transparentnost naučenega znanja eksplicitna simbolična oblika, razumljiva ekspertom Sposobnost pojasnjevanja argumentiranje, podpora ekspertnim odločitvam Odpornost proti manjkajočim podatkom problemi iz realnega sveta Zahteve
S4 S2 S1 S3 S1 S2 0 1 0 1 S3 S4 0 1 0 1 Primer 2 S1 S2 S3 S4 Luč ---------------------------------------------------- 1 0 1 1 sveti …
Medicina Diagnostika in prognostika Industrija Kontrola kvalitete Procesna kontrola Upravljanje in odločanje Analiza podatkov “Data mining” - “Podatkovno rudarjenje” – odkrivanje zakonitosti v podatkih Področja uporabe
Če vsi učni primeri pripadajo istemu razredu C, potem je rezultat list C Sicer Izberi najinformativnejši atribut A Razdeli učno množico glede na vrednosti A Rekurzivno zgradi poddrevesa T1..Tk za vsako podmnožico Rezltat je drevo z vozliščem A in poddrevesi T1..Tk Postopek gradnje odločitvenih dreves A … T1 Tk
Splošno pravilo: dopolnitve z dodatnimi mehanizmi za izboljšanje delovanja Izbira atributa atributi z večjim številom vrednosti prednost delitve na manjše podmnožice Preveliko prilagajanje učnim primerom rezanje odločitvenih dreves oz. pravil kot sredstvo za borbo proti “šumu” v podatkih Ocenjevanje verjetnosti na majhnih vzorcih Izboljšave sistemov
Rezanje dreves R Rezanje naprej N N1 N2 Rezanje nazaj
Funkcija nečistoče f(p1, p2, ..., pn) maksimum pri (1/n, 1/n, ..., 1/n) minimum pri (1, 0, ..., 0), ..., (0, 0, ..., 1) f je simetrična glede na argumente Merilo nečistoče i = f(p1, p2, ..., pn) Kvaliteta razbitja množice: Izbira atributa
Gini index (Breiman in sod. 1984) Entropija (Shannon & Weaver 1949) Mere nečistoče v podatkih
n poskusov, r uspešnih Relativna frekvenca Laplaceov zakon zaporednosti m-ocena verjetnosti Ocenjevanje verjetnosti
Bayesova formula: verjetnost razreda C pri pogoju V1..Vn Predpostavka neodvisnosti V1..Vn (naivnost) Bayesova formula
Igra: “Ugani kdo?” Vprašanja z odgovori da/ne Določitev ustreznih vprašanj (atributov) Cilj: čim manjše odločitveno drevo (strategija igranja) Alternative: različni nabori atributov Možnosti eksperimentiranja Primer 3
Uporabnost: iskanje medsebojnih odvisnosti v podatkih Dodatno razumevanje in opisovanje pojavov Spodbujanje kreativnega (kritičnega) razmišljanja Zaključek
Strojno učenje iz primerov Upravljanje odnosov s strankami (CRM) Ocenjevanje verjetnosti pri strojnem učenju Vsebina
Potencialni kupec Novi kupec Uveljavljeni kupec visoka vrednost visok potencial nizka vrednost Bivši kupec Življenjski cikel kupca I
Življenjski cikel kupca II Uveljavljeni kupec Bivši kupec Novi kupec Potencialni kupec Visoka vrednost Prostovoljni izstop Ciljno tržišče Novi kupec Začetni kupec Visok potencial Nizka vrednost Načrtovan izstop Ponovna pridobitev
Pridobivanje novih kupcev (kampanja) Odgovori na kampanjo (pošta, telefon, web-obrazec, …) Prvi nakup, ostali nakupi Kampanje za razširitev spektra uporabljanih izdelkov in storitev, nakup izboljšanih verzij, … Izstopi kupcev: načrtovani, prostovoljni, tihi Kampanje za ponovno pridobitev bivših kupcev Dogodki v ciklu
Zgodovina kampanj, demografski podatki, … Uporaba izdelkov in storitev, plačilni podatki, odgovori na kampanje, … Razlogi za izstop (prekinitev) Podatki v ciklu
Pošiljanje pošte po seznamu znanih strank Tipičen odziv: 1% strank, ki so prejele pošto, se odzove in kupi ponujeni izdelek 100,000 pisem bo prineslo okoli 1,000 nakupov Data mining: ugotovitev, katere stranke se bodo najverjetneje odzvale na ponujeni izdelek z nakupom (glede na pretekle izkušnje) Povečanje odziva od 1% na 1.25%: prodajo 1,000 izdelkov lahko dosežemo s samo 80,000 pismi, kar zmanjša stroške pošiljanja za petino Primer I – Ponudba novega izdelka
Lastniki hitrih športnih avtomobilov spadajo v skupino z visokim tveganjem Data mining iz zbranih podatkov: če imajo lastniki hitrih športnih avtomobilov še drugi (navaden) avto, potem njihovo tveganje ni večje od preostale populacije – lahko jim ponudimo ugodno zavarovalno polico Kot rezultat odkrite niše med lastniki hitrih športnih avtomobilov je zavarovalnica spremenila politiko določanja cen pri zavarovanju športnih avtomobilov Primer II – Avtomobilsko zavarovanje
Trije tipi lastnikov kreditnih kartic glede na njihovo donosnost: “Revolvers”: visoki zneski na računih, zamude pri plačilih (limit), visoka donosnost zaradi obresti na visoke zneske “Transactors”: visoki zneski, redno plačevanje; majhne obresti, samo članarina “Convenience users”: občasno visoki računi (potovanja, večji nakupi, …), obročno odplačevanje Podatki: 18 mesecev zgodovine Segmentacija glede na oceno donosnosti in potencial Primer III – Obnašanje strank
“Churn” – stranka mobilnega operaterja, ki bo v bližnji prihodnosti zamenjala ponudnika Cena zadržanja stranke je bistveno manjša kot cena ponovne pridobitve stranke Tradicionalni pristop: prepričevanje dobrih strank (darilo), da podpišejo pogodbo še za eno leto Data mining: segmentiranje strank, ocena vrednosti stranke, ponuditi stranki to, kar potrebuje (zanesljivost, sodobno funkcionalnost, ugodno ceno nočnih pogovorov, …) Upoštevanje časa: izbira pravega trenutka Primer IV – Modeliranje prestopov
Vse širša vrzel med zmožnostjo zbiranja in hranjenja podatkov o strankah, izdelkih, … zmožnostjo analiziranja in identificiranja uporabnih informacij (“actionable information”) iz podatkov Vloga “Data mininga”: premoščanje nastale vrzeli Zaključek
Strojno učenje iz primerov Upravljanje odnosov s strankami (CRM) Ocenjevanje verjetnosti pri strojnem učenju Vsebina
Strojno učenje ob koncu 80-tih Gradnja odločitvenih dreves Naivni Bayesov klasifikator Ocenjevanje pogojnih verjetnosti z m-oceno Vpliv m-ocene na delovanje algoritmov in rezultate Ocenjevanje verjetnosti
Atributna predstavitev primerov Naloga: poišči pravilo za C v odvisnosti od A1 … AN
Gradimo drevo na množici primerov S: Če vsi primeri iz S pripadajo enemu razredu C, potem je rezultat list z oznako C sicer izberi najinformativnejši atribut A, ki ima vrednosti v1 do vK razdeli množico S na S1 do SK glede na vrednosti atributa A rekurzivno zgradi poddrevesa T1 do TK za S1 do SK rezultat je vozlišče A s poddrevesi T1 do TK Gradnja odločitvenih dreves A v1 vK … T1 TK
Izbira atributa v vozlišču • Funkcija nečistoče • Maximum pri (1/n, 1/n, …, 1/n) • Minimum pri (1, 0, …, 0), …, (0, 0, …, 1) • Simetrična funkcija glede na argumente Mera nečistoče Ocena razdelitve (“goodness of split”):
Mere nečistoče Gini-indeks (Breiman et. al. 1984) Entropija (Shannon & Weaver 1949, Quinlan 1979)
Gini-indeks in entropija Za dva razreda: p1
Atributi z več vrednostmi => normalizacija, binarizacija Delitev na majhne podmnožice => razmerje informacijskega prispevka Prevelika prilagoditev drevesa podatkom => rezanje (poenostavljanje) dreves Izboljšave pri gradnji dreves
Bayesova formula aposteriorna verjetnost H apriorna verjetnost H verjetnost, da se zgodi E, če velja H verjetnost, da se neodvisno zgodi E
Bayesova formula: primer (I) Z metom kocke določimo, iz katere vreče bomo vzeli kroglico. Če vržemo 1 ali 2, potem kroglico vzamemo iz prve vreče, sicer (3, 4, 5 ali 6) iz druge vreče.
Bayesova formula: primer (II) Denimo, da smo izvlekli modro kroglico. Kakšna je verjetnost, da smo jo izvlekli iz prve vreče? E – izvlekli smo modro kroglico; H – vlekli smo iz prve vreče.
Naivni Bayesov klasifikator Bayesova formula za razred C pri pogoju V1 do VN: Ob predpostavki neodvisnosti atributov:
Očitna vloga v sistemih za strojno učenje, vendar zapostavljena Običajno: relativna frekvenca Knjige: I.J.Good (1965): The Estimation of Probabilities J.O.Berger (1980): Statistical Decision Theory and Bayesian Analysis “The estimation of probabilities can be difficult when the sample is small.” (I.J.Good, 1965) Ocenjevanje verjetnosti
Verjetnostna porazdelitev z gostoto Beta funkcija a uspešnih poskusov, b neuspešnih: Matematično upanje Varianca Bayesovska ocena verjetnosti
Apriorna porazdelitev , n poskusov, r uspešnih Relativna frekvenca: apriorna porazdelitev Laplaceov zakon: apriorna porazdelitev m-ocena verjetnosti: Bayesovska ocena II
Pomembne izboljšave rezultatov delovanja Poenostavitev algoritmov Nadomesti nekatere ‘ad-hoc’ mehanizme Bolj realistične razlage Vplivi m-ocene
Vpliv m-ocene podoben kot vpliv Quinlanove normalizacije Vpliv m-ocene je večji kot vpliv različnih mer nečistoče Z ustrezno nastavitvijo parametra m omilimo vpliv šuma in dosežemo izboljšanje klasifikacijske točnosti Izbira atributov pri gradnji odločitvenih dreves