Proces Odločanja

Proces Odločanja doc. dr. Bojan Cestnik Temida d.o.o. & Inštitut Jožef Stefan Ljubljana bojan.cestnik@temida.si

Strojno učenje iz primerov Upravljanje odnosov s strankami (CRM) Ocenjevanje verjetnosti pri strojnem učenju Vsebina

Vloga strojnega učenja pri sintezi baze znanja Sistemi za strojno učenje Področja uporabe Gradnja odločitvenih dreves Trije praktični primeri Zaključek Strojno učenje iz primerov

Struktura ekspertnih sistemov Mehanizem sklepanja Uporabniški vmesnik Baza znanja

Strojno učenje Podatki Vloga strojnega učenja “Know-how” Tehnolog znanja “Say-how” ??? Baza znanja Eksperti Literatura

Vhodni podatki CA1A2 … AN ______________________________________________ C1 V1,1V1,2 … V1,N C2 V2,1V2,2 … V2,N … CM VM,1VM,2 … VM,N ______________________________________________ Naloga: poiskati pravilo za razred C glede na vrednosti A1 do AN

Primer 1 Dobiček Starost Konkurenca Vrsta _______________________________________________________________________________________ pada staro ne SW pada srednje da SW narašča srednje ne HW pada staro ne HW narašča novo ne HW narašča novo ne SW narašča srednje ne SW narašča novo da SW pada srednje da HW pada staro da SW _______________________________________________________________________________________

Odločitveno drevo 1 Starost staro srednje, novo pada Konkurenca ne da Starost narašča srednje novo pada narašča

Statistične metode k-najbližjih sosedov, diskriminantna analiza, Bayesov klasifikator, … Induktivno učenje simboličnih pravil odločitvena drevesa, odločitvena pravila, indukcija logičnih programov, … Umetne nevronske mreže večnivojske usmerjene NM s povratno povezavo, Kohonenove NM, Hopfieldove NM, … Sistemi za strojno učenje

Zanesljivost delovanja iz podatkov dobimo relevantno informacijo, velika klasifikacijska točnost Transparentnost naučenega znanja eksplicitna simbolična oblika, razumljiva ekspertom Sposobnost pojasnjevanja argumentiranje, podpora ekspertnim odločitvam Odpornost proti manjkajočim podatkom problemi iz realnega sveta Zahteve

S4 S2 S1 S3 S1 S2 0 1 0 1 S3 S4 0 1 0 1 Primer 2 S1 S2 S3 S4 Luč ---------------------------------------------------- 1 0 1 1 sveti …

Odločitveno drevo 2

Medicina Diagnostika in prognostika Industrija Kontrola kvalitete Procesna kontrola Upravljanje in odločanje Analiza podatkov “Data mining” - “Podatkovno rudarjenje” – odkrivanje zakonitosti v podatkih Področja uporabe

Če vsi učni primeri pripadajo istemu razredu C, potem je rezultat list C Sicer Izberi najinformativnejši atribut A Razdeli učno množico glede na vrednosti A Rekurzivno zgradi poddrevesa T1..Tk za vsako podmnožico Rezltat je drevo z vozliščem A in poddrevesi T1..Tk Postopek gradnje odločitvenih dreves A … T1 Tk

Splošno pravilo: dopolnitve z dodatnimi mehanizmi za izboljšanje delovanja Izbira atributa atributi z večjim številom vrednosti prednost delitve na manjše podmnožice Preveliko prilagajanje učnim primerom rezanje odločitvenih dreves oz. pravil kot sredstvo za borbo proti “šumu” v podatkih Ocenjevanje verjetnosti na majhnih vzorcih Izboljšave sistemov

Rezanje dreves R Rezanje naprej N N1 N2 Rezanje nazaj

Funkcija nečistoče f(p1, p2, ..., pn) maksimum pri (1/n, 1/n, ..., 1/n) minimum pri (1, 0, ..., 0), ..., (0, 0, ..., 1) f je simetrična glede na argumente Merilo nečistoče i = f(p1, p2, ..., pn) Kvaliteta razbitja množice: Izbira atributa

Gini index (Breiman in sod. 1984) Entropija (Shannon & Weaver 1949) Mere nečistoče v podatkih

n poskusov, r uspešnih Relativna frekvenca Laplaceov zakon zaporednosti m-ocena verjetnosti Ocenjevanje verjetnosti

Bayesova formula: verjetnost razreda C pri pogoju V1..Vn Predpostavka neodvisnosti V1..Vn (naivnost) Bayesova formula

Igra: “Ugani kdo?” Vprašanja z odgovori da/ne Določitev ustreznih vprašanj (atributov) Cilj: čim manjše odločitveno drevo (strategija igranja) Alternative: različni nabori atributov Možnosti eksperimentiranja Primer 3

Odločitveno drevo 3

Uporabnost: iskanje medsebojnih odvisnosti v podatkih Dodatno razumevanje in opisovanje pojavov Spodbujanje kreativnega (kritičnega) razmišljanja Zaključek

Strojno učenje iz primerov  Upravljanje odnosov s strankami (CRM) Ocenjevanje verjetnosti pri strojnem učenju Vsebina

Potencialni kupec Novi kupec Uveljavljeni kupec visoka vrednost visok potencial nizka vrednost Bivši kupec Življenjski cikel kupca I

Življenjski cikel kupca II Uveljavljeni kupec Bivši kupec Novi kupec Potencialni kupec Visoka vrednost Prostovoljni izstop Ciljno tržišče Novi kupec Začetni kupec Visok potencial Nizka vrednost Načrtovan izstop Ponovna pridobitev

Pridobivanje novih kupcev (kampanja) Odgovori na kampanjo (pošta, telefon, web-obrazec, …) Prvi nakup, ostali nakupi Kampanje za razširitev spektra uporabljanih izdelkov in storitev, nakup izboljšanih verzij, … Izstopi kupcev: načrtovani, prostovoljni, tihi Kampanje za ponovno pridobitev bivših kupcev Dogodki v ciklu

Zgodovina kampanj, demografski podatki, … Uporaba izdelkov in storitev, plačilni podatki, odgovori na kampanje, … Razlogi za izstop (prekinitev) Podatki v ciklu

Pošiljanje pošte po seznamu znanih strank Tipičen odziv: 1% strank, ki so prejele pošto, se odzove in kupi ponujeni izdelek 100,000 pisem bo prineslo okoli 1,000 nakupov Data mining: ugotovitev, katere stranke se bodo najverjetneje odzvale na ponujeni izdelek z nakupom (glede na pretekle izkušnje) Povečanje odziva od 1% na 1.25%: prodajo 1,000 izdelkov lahko dosežemo s samo 80,000 pismi, kar zmanjša stroške pošiljanja za petino Primer I – Ponudba novega izdelka

Lastniki hitrih športnih avtomobilov spadajo v skupino z visokim tveganjem Data mining iz zbranih podatkov: če imajo lastniki hitrih športnih avtomobilov še drugi (navaden) avto, potem njihovo tveganje ni večje od preostale populacije – lahko jim ponudimo ugodno zavarovalno polico Kot rezultat odkrite niše med lastniki hitrih športnih avtomobilov je zavarovalnica spremenila politiko določanja cen pri zavarovanju športnih avtomobilov Primer II – Avtomobilsko zavarovanje

Trije tipi lastnikov kreditnih kartic glede na njihovo donosnost: “Revolvers”: visoki zneski na računih, zamude pri plačilih (limit), visoka donosnost zaradi obresti na visoke zneske “Transactors”: visoki zneski, redno plačevanje; majhne obresti, samo članarina “Convenience users”: občasno visoki računi (potovanja, večji nakupi, …), obročno odplačevanje Podatki: 18 mesecev zgodovine Segmentacija glede na oceno donosnosti in potencial Primer III – Obnašanje strank

“Churn” – stranka mobilnega operaterja, ki bo v bližnji prihodnosti zamenjala ponudnika Cena zadržanja stranke je bistveno manjša kot cena ponovne pridobitve stranke Tradicionalni pristop: prepričevanje dobrih strank (darilo), da podpišejo pogodbo še za eno leto Data mining: segmentiranje strank, ocena vrednosti stranke, ponuditi stranki to, kar potrebuje (zanesljivost, sodobno funkcionalnost, ugodno ceno nočnih pogovorov, …) Upoštevanje časa: izbira pravega trenutka Primer IV – Modeliranje prestopov

Vse širša vrzel med zmožnostjo zbiranja in hranjenja podatkov o strankah, izdelkih, … zmožnostjo analiziranja in identificiranja uporabnih informacij (“actionable information”) iz podatkov Vloga “Data mininga”: premoščanje nastale vrzeli Zaključek

Strojno učenje iz primerov  Upravljanje odnosov s strankami (CRM)  Ocenjevanje verjetnosti pri strojnem učenju Vsebina

Strojno učenje ob koncu 80-tih Gradnja odločitvenih dreves Naivni Bayesov klasifikator Ocenjevanje pogojnih verjetnosti z m-oceno Vpliv m-ocene na delovanje algoritmov in rezultate Ocenjevanje verjetnosti

Atributna predstavitev primerov Naloga: poišči pravilo za C v odvisnosti od A1 … AN

Gradimo drevo na množici primerov S: Če vsi primeri iz S pripadajo enemu razredu C, potem je rezultat list z oznako C sicer izberi najinformativnejši atribut A, ki ima vrednosti v1 do vK razdeli množico S na S1 do SK glede na vrednosti atributa A rekurzivno zgradi poddrevesa T1 do TK za S1 do SK rezultat je vozlišče A s poddrevesi T1 do TK Gradnja odločitvenih dreves A v1 vK … T1 TK

Izbira atributa v vozlišču • Funkcija nečistoče • Maximum pri (1/n, 1/n, …, 1/n) • Minimum pri (1, 0, …, 0), …, (0, 0, …, 1) • Simetrična funkcija glede na argumente Mera nečistoče Ocena razdelitve (“goodness of split”):

Mere nečistoče Gini-indeks (Breiman et. al. 1984) Entropija (Shannon & Weaver 1949, Quinlan 1979)

Gini-indeks in entropija Za dva razreda: p1

Atributi z več vrednostmi => normalizacija, binarizacija Delitev na majhne podmnožice => razmerje informacijskega prispevka Prevelika prilagoditev drevesa podatkom => rezanje (poenostavljanje) dreves Izboljšave pri gradnji dreves

Bayesova formula aposteriorna verjetnost H apriorna verjetnost H verjetnost, da se zgodi E, če velja H verjetnost, da se neodvisno zgodi E

Bayesova formula: primer (I) Z metom kocke določimo, iz katere vreče bomo vzeli kroglico. Če vržemo 1 ali 2, potem kroglico vzamemo iz prve vreče, sicer (3, 4, 5 ali 6) iz druge vreče.

Bayesova formula: primer (II) Denimo, da smo izvlekli modro kroglico. Kakšna je verjetnost, da smo jo izvlekli iz prve vreče? E – izvlekli smo modro kroglico; H – vlekli smo iz prve vreče.

Naivni Bayesov klasifikator Bayesova formula za razred C pri pogoju V1 do VN: Ob predpostavki neodvisnosti atributov:

Očitna vloga v sistemih za strojno učenje, vendar zapostavljena Običajno: relativna frekvenca Knjige: I.J.Good (1965): The Estimation of Probabilities J.O.Berger (1980): Statistical Decision Theory and Bayesian Analysis “The estimation of probabilities can be difficult when the sample is small.” (I.J.Good, 1965) Ocenjevanje verjetnosti

Verjetnostna porazdelitev z gostoto Beta funkcija a uspešnih poskusov, b neuspešnih: Matematično upanje Varianca Bayesovska ocena verjetnosti

Apriorna porazdelitev , n poskusov, r uspešnih Relativna frekvenca: apriorna porazdelitev Laplaceov zakon: apriorna porazdelitev m-ocena verjetnosti: Bayesovska ocena II

Pomembne izboljšave rezultatov delovanja Poenostavitev algoritmov Nadomesti nekatere ‘ad-hoc’ mehanizme Bolj realistične razlage Vplivi m-ocene

Vpliv m-ocene podoben kot vpliv Quinlanove normalizacije Vpliv m-ocene je večji kot vpliv različnih mer nečistoče Z ustrezno nastavitvijo parametra m omilimo vpliv šuma in dosežemo izboljšanje klasifikacijske točnosti Izbira atributov pri gradnji odločitvenih dreves

Proces Odločanja