380 likes | 697 Vues
DUOMENŲ GAVYBA. Paskaita 5 . Klasifikavimas. Kęstutis Žilinskas Šiaulių universitetas, 2013. Klasifikavimas. Klasifikavimas – paprasčiausias ir populiariausias DG uždavinys. Klasifikavimas – sistemi n is tyrinėjamų objektų išskirstymas pagal tam tikrus požymius.
E N D
DUOMENŲ GAVYBA Paskaita5.Klasifikavimas Kęstutis Žilinskas Šiaulių universitetas, 2013
Klasifikavimas • Klasifikavimas – paprasčiausias ir populiariausias DG uždavinys. • Klasifikavimas – sisteminis tyrinėjamų objektų išskirstymas pagal tam tikrus požymius. • Klasifikavimas – pradinių sąvokų grupavimas ir jų išdėstymas tam tikra tvarka, nusakančia panašumo laipsnį.
Klasifikavimas • Klasifikavimas – sutvarkyta pagal tam tikrą principą aibė objektų, turinčių panašius kvalifikacinius požymius (vieną ar keletą savybių), parinktus panašumo arba skirtingumo tarp objektų nustatymui.
Klasifikavimo taisyklės • Kiekviename skirstymo žingsnyje turi būti taikoma tik viena savybė; • Skirstymas turi būti visuotinis, bendras tūris lygus skirstinių tūriui; • Skirstymo nariai tarpusavyje nesuderinami, skirstymų tūriai turi nesikirsti; • Skirstymas turi būti nuoseklus.
Klasifikavimo rūšys • Pagalbinis (dirbtinis) klasifikavimas, vykdomas pagal išorinį požymį, leidžiantis suteikti objektų aibei tam tikrą tvarką; • Natūralusis klasifikavimas, vykdomas pagal esminius požymius, apibūdinančius objektų vidinį bendrumą.
Klasifikavimo rūšys • Paprastoji – skirstymas tik pagal požymį ir tik vieną kartą visoms objektų rūšims. • Dichotomija (A ir ne A). • Sudėtingoji – skirstymas pagal kelis požymius ir šių paprastųjų skirstymų sintezė. • Periodinė cheminių elementų lentelė.
Klasifikavimas • Klasifikavimas – objekto (įvykio, reiškinio) priskyrimas vienai iš anksto žinomai klasei. • Klasifikavimas – dėsningumas, leidžiantis daryti išvadą apie konkrečios grupės (klasės) požymius. • Klasifikavimas – tai strategija „mokymas su mokytoju“ (supervisedlearning), kontroliuojamas arba valdomas mokymas.
Klasifikavimo uždavinys • Kategoriškai priklausomo kintamojo numatymas, remiantis tolydinių ir/arba kategorinių kintamųjų parinkimu. • Galima numatyti, kas iš firmos klientų yra potencialūs tam tikros prekės pirkėjai, o kas – ne. • Turime binarinį klasifikavimą, kai priklausomas kintamasis gali turėti tik dvi reikšmes.
Klasifikavimas • Kitas klasifikavimo variantas – priklausomas kintamasis gali turėti reikšmes iš tam tikros iš anksto nustatytų klasių aibės. • Reikia nustatyti, kokios markės automobilį klientas nori pirkti. • Nagrinėjama priklausomojo kintamojo klasių aibė.
Klasifikavimo rūšys • Vienmatis klasifikavimas (pagal vieną požymį). • Daugiamatis klasifikavimas (pagal du ar daugiau požymių). • Biologinių organizmų klasifikavimas, kai organizmai skirstomi į porūšius priklausomai nuo jų fizinių parametrų matavimo rezultatų.
Pavyzdys • Tegul turime turistinės agentūros klientų duomenų bazę. • Joje yra informacija apie klientų amžių ir mėnesines pajamas. • Turima dviejų rūšių reklama: brangesnis ir komfortiškesnis poilsis (1) bei pigus jaunatviškas poilsis (2). • Apibrėžtos dvi atitinkamos klientų klasės.
Užduotis • Nustatyti, kuriai klasei priklauso naujas klientas ir kurios rūšies reklamą jam verta siųsti.
Grafinis duomenų vaizdas • Oranžinė spalva – 1 klasė, pilka – 2. Uždavinio tikslas – nustatyti, kuriai klasei priklauso naujas klientas (balta spalva).
Klasifikavimo procesas • Klasifikavimo proceso tikslas – sukurti modelį, kuris ima prognozuojamus atributus kaip įeinančiuosius parametrus ir gauna priklausomo atributo reikšmę. • Klasifikavimo proceso esmė – suskaidyti objektų aibę į klases pagal tam tikrą kriterijų.
Klasifikatorius leidžia nustatyti pagal objekto požymių vektorių kuriai iš anksto apibrėžtai klasei priklauso šis objektas. • Klasifikuojant matematiniais metodais reikia turėti formalųjį objekto aprašymą, kuriuo galima operuoti panaudojant klasifikavimo matematinį aparatą.
Mūsų atveju toks aprašas – duomenų bazė. • Kiekvieno objekto (duomenų bazės įrašo) kiekviename lauke – informacija apie tam tikrą objekto savybę. • Pradiniai duomenys (arba jų imtis) skaidomi į apmokančiuosius ir testinius.
Apmokančioji aibė • Apmokančioji aibė (trainingset) – aibė, apimanti duomenis, kurių pagalba apmokomas (konstruojamas) modelis. • Aibę sudaro įeinantieji ir išeinantieji (tikslo) parametrai. • Išeinantieji parametrai (jų reikšmės) skirti modelio apmokymui.
Testinė aibė • Testinė aibė (testset) – duomenys, nepatekę į apmokamąją aibę. • Ją taip pat sudaro įeinantieji ir išeinantieji parametrai. • Išeinančiųjų parametrų reikšmės leidžia patikrinti modelio veiksmingumą.
Klasifikavimo procesas • Klasifikavimo procesą sudaro du etapai: • Modelio konstravimas; • Modelio panaudojimas.
Modelio konstravimas - iš anksto apibrėžtų klasių aprašymas: • Kiekvienas duomenų rinkinio pavyzdys priskiriamas vienai iš klasių; • Šiame etape apmokančioje aibėje konstruojamas modelis; • Gautas modelis pateikiamas klasifikavimo taisyklėmis, sprendimų medžiu arba matematine formule.
Modelio naudojimas - naujų arba nežinomų reikšmių klasifikavimas: • Modelio teisingumo (tikslumo) įvertinimas. • Žinomos testinio pavyzdžio reikšmės palyginamos su gauto modelio panaudojimo rezultatais. • Tikslumo lygis – teisingai klasifikuotų testinės aibės pavyzdžių procentas. • Testinė aibė negali priklausyti nuo apmokamosios aibės.
Jei modelio tikslumas priimtinas, modelį galima naudoti naujų pavyzdžių, kurių klasė nežinoma, klasifikavime.
Klasifikavimo metodai • K. sprendimų medžiais. • Bajeso (naivusis) K. • K. dirbtiniais neuroniniais tinklais. • K. atraminiais vektoriais. • Tiesinė regresija. • K. artimiausio kaimyno metodu. • K. CBR-metodu. • K. genetiniais algoritmais.
Klasifikavimas sprendimu medžiu if X > 5 thengrey elseif Y > 3 thenorange elseif X > 2 thengrey elseorange
Klasifikavimo tikslumas • Klasifikavimo tikslumo įvertinimas galimas kryžminiu patikrinimu (Cross-validation). • Tai kvalifikavimo patikrinimas testinės aibės duomenimis. • Testinės aibės klasifikavimo tikslumas palyginamas su apmokančiosios aibės klasifikavimo tikslumu. • Jei abu tikslumai beveik lygūs, modelis praėjo kryžminį patikrinimą.
Duomenų skaidymas į apmokančiąją ir testinę aibes tam tikra proporcija. • Pvz.: apmokančioji aibė 2/3 duomenų, testinė – 1/3. • Jei imtis maža, galima taikyti specialius metodus, leidžiančius šioms aibėms dalinai kirstis.
Klasifikavimo metodų įvertinimas • Metodus galima įvertinti pagal šias charakteristikas: • Greitis; • Robastiškumas; • Interpretuojamumas; • Apimtis. • Patikimumas.
Greitis • Laikas reikalingas modelio sukūrimui bei jo panaudojimui.
Robastiškumas • Nepriklausomumas nuo kokių nors pradinių prielaidų netikslumų. • Užtikrina galimybę dirbti su duomenimis „su triukšmu“ bei praleistomis duomenų reikšmėmis.
Interpretuojamumas • Įgalina analitiką suprasti gautą modelį.
Apimtis • Sprendimų medžio dydis. • Klasifikavimo taisyklių kompoktiškumas.
Patikimumas • Metodais veikia, jei duomenų rinkinyje yra triukšmai ar netikslumai.