120 likes | 197 Vues
Informatikai tudásleképezés paradigmái és problémái. Szekeres András Márk. Ontológia projekt célja. A célja, hogy a nyelv fogalmainak formális reprezentációjával a világ megértését biztosítsuk a gép számára. Gyökerei a 70-es évek AI kutatásában Újabb fellendülés 2000 körül, Semantic Web
E N D
Informatikai tudásleképezés paradigmái és problémái Szekeres András Márk
Ontológia projekt célja • A célja, hogy a nyelv fogalmainak formális reprezentációjával a világ megértését biztosítsuk a gép számára. • Gyökerei a 70-es évek AI kutatásában • Újabb fellendülés 2000 körül, Semantic Web • Csalódás mindkét esetben, 2007-től kezdve csökken az érdeklődés
Ontológia alapja • Fogalmak és köztük lévő viszony formális logikai leírása. • Pl: ha X feleség, akkor kell léteznie Y-nak, hogy Y egy férfi, és X férje. • Fontos fajtája a relációknak a generikus reláció (a kutya az egy emlős, az emlős az egy állat), amik mentén taxonómiába rendezhetőek a fogalmak.
Az ontológia projekt naivitása • A kudarc az alapkoncepcióból következik • Naív elképzelés azt hinni, hogy a nyelv reprezentációjával a világ entitásait tudjuk megragadni. • “ontológia” = lételmélet, a név is szerencsétlen. Valójában a fogalmak és nem a létezők rendszerezése történik. • A filozófia 2500 éve lefutotta ezeket a köröket.
Világról szóló tudás formalizálása • A világ formális leírása mikrovilágok esetében bizonyult csak kivitelezhetőnek. • Expert systems • Szakemberrel megfogalmaztatjuk a szabályokat • A tudás itt merev, végleges és egy szempontot érvényesít csak
Nyelv formalizálása • A formális logikán alapuló megközelítés csődöt mondott nagy domain esetében. • A nagy domain fontos esete a nyelv • A nyelv rendkívül komplex és végtelen kreativitással működik. • Épp ezért tudunk bármiről beszélni • Formalizáltan nem sikerül megragadni
Nyelv formalizálása • Az ontológia projekt az elavult logikai pozitivista nyelvfilozófiára alapozott. • Ők a szavak jelentést logikailag formalizálhatónak tartották • Legfőbb képviselőik maguk mondták ki saját tévedésüket (Wittgenstein, Carnap) • Az informatikusok nem voltak naprakészek a nyelvfilozófia területén • Pedig nagyon is praktikus dolgokat tanulhattak volna, pl metafóra elmélet.
Statisztikai megközelítések • Nyelvtechnológia terén statisztikai megközelítések térnyerése • Ontológia projekt újabb kudarca 2007+ • Növekvő számítási kapacitás • Interneten elérhető növekvő corpus. • Big Data • Corpus nyelvészet • Ontológiák terén is inkább Topic Maps
Statisztikai megközelítés hátrányai • Nagy corpus szükséges • Legtöbb szervezetnek nincs elég saját adata • A felismert összefüggések bizonytalanok, képlékenyek • Nem látnak túl a corpuson, az előállított összefüggéseknek nincs semmi megbízható kapcsolata a szövegeken túli világgal
Korreláció bizonytalansága • Statisztikai megközelítések lényegében egy viszonnyal dolgoznak: korreláció. • Erős clusterezésben, de nagyon rossz döntési pontokban. • Macska és kutya sok tulajdonsága egyezik, de ha tudjuk, hogy X ugat... • Google search színész+film esetén
Igény egy új megközelítésre • Tudás kinyerés automatizálása, hogy képes legyen nagy domaineket feldolgozni, de ne csak a szövegből táplálkozzon • Komplex viszonyokat kezeljen, ne csak korrelációkat • A benne tárolt tudás változásokat tudja flexibilisen követni • Döntés támogatás, döntési pontok felismerése