Modell alapú idősor-osztályozó fejlesztése és kiterjesztése

Modell alapú idősor-osztályozó fejlesztése és kiterjesztése Hidasi Balázs (hidasib@freemail.hu) Konzulens: Gáspár-Papanek Csaba (gaspar@tmit.bme.hu) 2011. június 21, Budapest

ShiftTree algoritmus • Idősor-osztályozó algoritmus • Bináris döntési fa alap • Dinamikusan előállított attribútumok • Hol nézzük? (időtengely) • Mit nézzünk? (számítások) • Előnyök • Modell alapúság előnyei • Értelmezhető • Szakértői tudás nélkül is pontos • Szakértői tudással pontosabbá tehető • Hátrányok • Modell alapúság hátrányai Súlyozott átlag

Modell építés idejének csökkentése • Tanítás során attribútum választás • Célfüggvény minimalizálása • Célfüggvény tulajdonságai • Adott rendezés mellett minimumok csak az egybefüggő intervallumok szélén lehetnek • Minimum előre meghatározható • Nem léphetünk ki minimumnál, de… • Ha eléri, akkor csak 2-2 helyet kell vizsgálni a további rendezéseknél • Jelentősen csökken a célfüggvény értékének meghatározásának száma • Futási idő átlagosan 22,33%-kal csökkent • Pl.: FordB – 3636 tanítóminta: • 214,94s  173,52s (-19,27%) • Pl.: CBF – 30 tanítóminta: • 0,246s  0,145s (-41,18%) • Pl.: Beef – 30 tanítóminta • 0,574s  0,517s (-9,9%)

Fejlesztések a pontosság növelésére • Operátorkészlet jelentős kibővítése • Heurisztika egyezően jó attribútum jelöltek közüli választásra • Legyen maximális a határsáv • Eltérő nagyságrendek miatt normalizálás • Nyesés • Több módszer kipróbálása • Romlott a pontosság • Más módszerekhez viszont szükség van rájuk

Modellek kombinálása • Több modell építése • Címkézésnél súlyozott szavazás • Hatékony, ha a modellek önmagukban pontosak és az egyes modellek eltérőek (más mintákat osztályoznak jól) • Boosting • Súlyok a tanítómintákhoz • Felépített modell kiértékelése a tanítómintákon • Modell súly • Rosszul osztályozott tanítóminták relatív súlyának növelése (nyesés!) • Klasszikus AdaBoost követelmény: pontosság a tanítómintán minimum 50% (és kevesebb, mint 100%) • SAMME: minimális pontosság követelmény csak 1/(osztályok száma) • XV • Egyszerű kombinálás, keresztvalidáción alapul • Tanítóhalmaz véletlenszerű szétbontása, csak egy részén tanul, másik részén kiértékel • Pontosság  modell súlya

Kombinált modellek eredményei • Boosting vagy XV? • Bizonyos esetekben a boosting leáll • „Tökéletes” modell a tanítóhalmazon • Főleg kis tanítóminták mellett • Ilyenkor az XV még segíthet

Osztályozási konfidencia • Mennyire biztos a modellünk a kimenetben • Levél (csomópont) konfidencia • Pl. többségi osztály aránya a levélben (nyesés!) • Útvonal konfidencia • Osztályozási útvonalon a konfidenciák (súlyozott) összegzése • Egyfajta nyesési eljárás • On-line tanulás (újratanulás) • Teljes modellépítés helyett a modell kisméretű megváltoztatása • Útvonal konfidencia, mint dinamikus nyesés • Arányok változásával változik a nyesés

Összefoglalás • Modell alapú idősor-osztályozó döntési fa alapon • Tanítás gyorsítása: -22% futási idő • Pontosság növelése • Új operátorok • Attribútum választási heurisztika • Kombinált modellek • On-line tanulás teljes modellépítés helyett • Útvonal konfidenciák használatával • Fejlesztési lehetőségek • Streamben jelfelismerés (csúszóablakos megoldás) • Az elv alapján bármilyen félig-struktúrált/struktúrált adat osztályozására kiterjeszthető További ShiftTree-vel kapcsolatos kutatási anyagok az oldalamon:http://www.hidasi.eu

Modell alapú idősor-osztályozó fejlesztése és kiterjesztése

Modell alapú idősor-osztályozó fejlesztése és kiterjesztése

Presentation Transcript

a mendeli anal zis kiterjeszt se

S LO SE PUEDE MEJORAR LO QUE SE PUEDE EVALUAR

M r s- rt kel s - fejleszt s

Eur pai Region lis Fejleszt si Alap ERFA 2007-2013

Grafomotoros fejleszt s

Tantervi szab lyoz s

Mikrov llalkoz sok l trehoz sa s fejleszt se

Emberi Eroforr s Menedzsment Az emberi eroforr sok fejleszt se

A gy gy-idegenforgalom muk d se s fejleszt se Magyarorsz gon

Se acontecer ...

SE CIB SE DO SE PA SE PES

Se présenter et se décrire

Az atomreaktorok oszt lyoz sa

SE DESPIERTA

“Se” impersonal

Se Verden – Se Livet

Podsjeti se

Java SE

Seznamujeme se s počítačem I.

SE impersonal / Passive SE

Vyrovnání se s minulostí

Se