200 likes | 418 Vues
Pēteris Paikens. Datorzinātne un tās starpdisciplinārie lietojumi dabaszinātnēs un sociālajās zinātnēs. Par mani. 3. kurss doktorantūrā Semantiskās informācijas ieguve no dabiskās valodas avotiem LU MII mākslīgā intelekta laboratorija: datorlingvistikas pētījumi un projekti
E N D
Pēteris Paikens Datorzinātne un tās starpdisciplinārie lietojumi dabaszinātnēs un sociālajās zinātnēs
Par mani • 3. kurss doktorantūrā Semantiskās informācijas ieguve no dabiskās valodas avotiem • LU MII mākslīgā intelekta laboratorija: datorlingvistikas pētījumi un projekti • Teksta automātiskas datorlingvistikas analīzes pētījums jauna informācijas arhīva produkta izstrādē (LETA)
Tēma Semantiskās informācijas ieguve no dabiskās valodas avotiem • Metodes tekstu priekšapstrādei • Faktu un teksta jēgas reprezentācija • Iespējas automātiskai faktu ieguvei • Adaptācija praktiskiem lietojumiem
Praktiskā problēma • Ir milzīgs apjoms informācijas nestrukturētā dabiskā valodā(tīmeklis, grāmatas, avīzes, radio) • Cilvēki māk meklēt faktus (google u.c.) • Cilvēki māk apkopot atrastos faktus • ... bet tas nav mērogojams ... • Kā to darīt automātiski?
Morfoloģija un sintakse Tekstu avots Zināšanu bāze NER un anaforas Semantikas analīze Anotēts dokuments Piesaiste realitātei Fakti
Šodienas stāsts • Starpdokumentu koreferences — personu identitātes noskaidrošana • Zināšanu bāze kā palīglīdzeklis teksta analīzei • Vārdformu un nosaukumu identificēšana • Koreferenču risināšana
Termini • Entītija • Lietojumam svarīgie reālie objekti • Personas, organizācijas, vietas, u.c. • Pieminējums • Atsevišķa frāze, kas nosauc entītiju • NER – Named Entity Recognition • Entītiju pieminējumu atrašana, to robežu noteikšana un klasificēšana tekstā
Koreferences • Pieminējumi vai frāzes, kas apraksta vienu reālās pasaules entītiju [Latvietis1] [Jānis Bērziņš1] ir [jauns zinātnieks1] un [universitātes profesors1]. [Profesors1] ir veicis nozīmīgus pētījumus kopā ar [doktoru2] [Pēteri Kalniņu2]. [Viņš1] kopā ar [līdzgaitnieku2] [Kalniņu2] uzstāsies konferencē Itālijā.
Koreferenču noteikšana • Pieminējumu noteikšana • NER, kā arī vietniekvārdi u.c. frāzes • Pieminējumu grupēšana ķēdēs • Gramatiski saistītie pieminējumi • Pretrunas kā ierobežojumi apvienošanai • Reprezentatīvais nosaukums un veids Sīkāk – LU MII A. Znotiņa pētījumi
Praktiskā problēma - ilustrācija «Arī otra figūra Daimler lietā ir Bojāra ārštata padomnieks, un sens eksmēra draugs no armijas laikiem – Armands Zeihmanis.» Citāts no tvnet.lv raksta • Bojārs ↔ Zeihmanis: draugs, padomnieks • «Bojāra» → Gundars Bojārs, dz. 1967 • «eksmērs» = Bojārs (mērs 2001-2006)
Starpdokumentu koreferences • Vai vienā dokumentā redzēta entītija ir tā pati, kas otrā dokumentā redzēta? • Kurai no autoritatīvajām entītijām atbilst šajā dokumentā redzētā? • Vai šī ir jauna, neredzēta entītija? • Atšķirības no koreferenču problēmas • Nevis atsevišķi pieminējumi, bet ķēdes • Būtiski lielāks entītiju skaits
Entītiju savstarpējā atbilstība • Salīdzinot tiešā veidā entītijas – nepraktiska (n2) sarežģītība • Hierarhisko puduru metodes • Apvienojot entītijas, saglabā to informāciju • Katram ‘pudurim’ izveido MM klasifikatoru • Kā interpretēt datus? • Grupa – entītija vai tās konteksts?
Entity Linking • Entītiju piesaiste autoritatīvam avotam • Angļu, vācu u.c. – Wikipedia • Plašs pārklājums • Nodalīti ‘vārdabrāļi’ • Laba informācija par katru entītiju • Mašīnmācīšanās no zināmiem datiem • Weblapas ar norādi uz konkrēto entītiju
Analīzei pieejamie dati • Pilns dokumenta teksts • Kā tieši dokumentā viņu piemin? • Par ko vēl tur ir rakstīts? • Dokumenta metadati • Kad, kur, kas to raksta? • Tīmekļa saites (abos virzienos) • Zināšanu bāzes • Strukturēti dati • Wikipedia
Kā cilvēks nosaka atbilstību? • Entītijas informācija dokumentā • Izglītības un zinātnes ministre Ina Druviete (V)... • Zināmie fakti par entītiju • Pseidonīmi, amati • Citi dokumentā minētie • Saistītās organizācijas un vietas • Dokumenta tēma • Vienādi sauktas entītijas var būt ‘pašsaprotamas’ savā nozarē
LU MII eksperimenti • Personu daudznozīmības risināšana • Ziņu teksti • Atbilstība gatavam personu sarakstam • Problēmas īpatnības • Bootstrapping no profila informācijas • Nav paraugdokumentu kā angļu valodai • Pieminējumi mēdz būt bez detaļām
Izvēlētā metode • Kandidātu atlase • Vārdabrāļi (pēc vārdu normalizācijas) • Pieņem, ka ir zināms cik/kādi ir varianti • Asimetriskas iezīmes (dokuments/profils) • Pieminējumi ↔ vārda variācijas + amati • Organizācijas dokumentā ↔ ar faktiem saistītās • Konteksts dokumentā ↔ atslēgvārdi CV • Kosinusu līdzības mērījums • Darbojas arī ar ļoti minimāliem datiem
Entītiju līdzības realizācija • Apraksta šos datus katrai entītijai ar skaitļu vektoru (vektoriem) • Raksturojošie vārdi • Vārda biežums nosaukumā vai amatā • ‘Draudzīgās’ entītijas • Kopīgie pieminējumi, vai URL saites • Tēmu vai nozaru atslēgvārdi
Interesanti izaicinājumi • Starpvalodu CDC • Raksti krievu valodā • Globāli zināmo personu piesaiste Wiki • Autoritatīvo sarakstu apvienošana • Latviskā vikipēdija • Amatpersonu dati • Laika faktors • Dati par amatu un saistības periodu • Vārdu izvēle – ‘bijušais’, ‘ekspremjers’
Paldies par uzmanību! Jautājumi?