1 / 20

Pēteris Paikens

Pēteris Paikens. Datorzinātne un tās starpdisciplinārie lietojumi dabaszinātnēs un sociālajās zinātnēs. Par mani. 3. kurss doktorantūrā Semantiskās informācijas ieguve no dabiskās valodas avotiem LU MII mākslīgā intelekta laboratorija: datorlingvistikas pētījumi un projekti

hanley
Télécharger la présentation

Pēteris Paikens

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Pēteris Paikens Datorzinātne un tās starpdisciplinārie lietojumi dabaszinātnēs un sociālajās zinātnēs

  2. Par mani • 3. kurss doktorantūrā Semantiskās informācijas ieguve no dabiskās valodas avotiem • LU MII mākslīgā intelekta laboratorija: datorlingvistikas pētījumi un projekti • Teksta automātiskas datorlingvistikas analīzes pētījums jauna informācijas arhīva produkta izstrādē (LETA)

  3. Tēma Semantiskās informācijas ieguve no dabiskās valodas avotiem • Metodes tekstu priekšapstrādei • Faktu un teksta jēgas reprezentācija • Iespējas automātiskai faktu ieguvei • Adaptācija praktiskiem lietojumiem

  4. Praktiskā problēma • Ir milzīgs apjoms informācijas nestrukturētā dabiskā valodā(tīmeklis, grāmatas, avīzes, radio) • Cilvēki māk meklēt faktus (google u.c.) • Cilvēki māk apkopot atrastos faktus • ... bet tas nav mērogojams ... • Kā to darīt automātiski?

  5. Morfoloģija un sintakse Tekstu avots Zināšanu bāze NER un anaforas Semantikas analīze Anotēts dokuments Piesaiste realitātei Fakti

  6. Šodienas stāsts • Starpdokumentu koreferences — personu identitātes noskaidrošana • Zināšanu bāze kā palīglīdzeklis teksta analīzei • Vārdformu un nosaukumu identificēšana • Koreferenču risināšana

  7. Termini • Entītija • Lietojumam svarīgie reālie objekti • Personas, organizācijas, vietas, u.c. • Pieminējums • Atsevišķa frāze, kas nosauc entītiju • NER – Named Entity Recognition • Entītiju pieminējumu atrašana, to robežu noteikšana un klasificēšana tekstā

  8. Koreferences • Pieminējumi vai frāzes, kas apraksta vienu reālās pasaules entītiju [Latvietis1] [Jānis Bērziņš1] ir [jauns zinātnieks1] un [universitātes profesors1]. [Profesors1] ir veicis nozīmīgus pētījumus kopā ar [doktoru2] [Pēteri Kalniņu2]. [Viņš1] kopā ar [līdzgaitnieku2] [Kalniņu2] uzstāsies konferencē Itālijā.

  9. Koreferenču noteikšana • Pieminējumu noteikšana • NER, kā arī vietniekvārdi u.c. frāzes • Pieminējumu grupēšana ķēdēs • Gramatiski saistītie pieminējumi • Pretrunas kā ierobežojumi apvienošanai • Reprezentatīvais nosaukums un veids Sīkāk – LU MII A. Znotiņa pētījumi

  10. Praktiskā problēma - ilustrācija «Arī otra figūra Daimler lietā ir Bojāra ārštata padomnieks, un sens eksmēra draugs no armijas laikiem – Armands Zeihmanis.» Citāts no tvnet.lv raksta • Bojārs ↔ Zeihmanis: draugs, padomnieks • «Bojāra» → Gundars Bojārs, dz. 1967 • «eksmērs» = Bojārs (mērs 2001-2006)

  11. Starpdokumentu koreferences • Vai vienā dokumentā redzēta entītija ir tā pati, kas otrā dokumentā redzēta? • Kurai no autoritatīvajām entītijām atbilst šajā dokumentā redzētā? • Vai šī ir jauna, neredzēta entītija? • Atšķirības no koreferenču problēmas • Nevis atsevišķi pieminējumi, bet ķēdes • Būtiski lielāks entītiju skaits

  12. Entītiju savstarpējā atbilstība • Salīdzinot tiešā veidā entītijas – nepraktiska (n2) sarežģītība • Hierarhisko puduru metodes • Apvienojot entītijas, saglabā to informāciju • Katram ‘pudurim’ izveido MM klasifikatoru • Kā interpretēt datus? • Grupa – entītija vai tās konteksts?

  13. Entity Linking • Entītiju piesaiste autoritatīvam avotam • Angļu, vācu u.c. – Wikipedia • Plašs pārklājums • Nodalīti ‘vārdabrāļi’ • Laba informācija par katru entītiju • Mašīnmācīšanās no zināmiem datiem • Weblapas ar norādi uz konkrēto entītiju

  14. Analīzei pieejamie dati • Pilns dokumenta teksts • Kā tieši dokumentā viņu piemin? • Par ko vēl tur ir rakstīts? • Dokumenta metadati • Kad, kur, kas to raksta? • Tīmekļa saites (abos virzienos) • Zināšanu bāzes • Strukturēti dati • Wikipedia

  15. Kā cilvēks nosaka atbilstību? • Entītijas informācija dokumentā • Izglītības un zinātnes ministre Ina Druviete (V)... • Zināmie fakti par entītiju • Pseidonīmi, amati • Citi dokumentā minētie • Saistītās organizācijas un vietas • Dokumenta tēma • Vienādi sauktas entītijas var būt ‘pašsaprotamas’ savā nozarē

  16. LU MII eksperimenti • Personu daudznozīmības risināšana • Ziņu teksti • Atbilstība gatavam personu sarakstam • Problēmas īpatnības • Bootstrapping no profila informācijas • Nav paraugdokumentu kā angļu valodai • Pieminējumi mēdz būt bez detaļām

  17. Izvēlētā metode • Kandidātu atlase • Vārdabrāļi (pēc vārdu normalizācijas) • Pieņem, ka ir zināms cik/kādi ir varianti • Asimetriskas iezīmes (dokuments/profils) • Pieminējumi ↔ vārda variācijas + amati • Organizācijas dokumentā ↔ ar faktiem saistītās • Konteksts dokumentā ↔ atslēgvārdi CV • Kosinusu līdzības mērījums • Darbojas arī ar ļoti minimāliem datiem

  18. Entītiju līdzības realizācija • Apraksta šos datus katrai entītijai ar skaitļu vektoru (vektoriem) • Raksturojošie vārdi • Vārda biežums nosaukumā vai amatā • ‘Draudzīgās’ entītijas • Kopīgie pieminējumi, vai URL saites • Tēmu vai nozaru atslēgvārdi

  19. Interesanti izaicinājumi • Starpvalodu CDC • Raksti krievu valodā • Globāli zināmo personu piesaiste Wiki • Autoritatīvo sarakstu apvienošana • Latviskā vikipēdija • Amatpersonu dati • Laika faktors • Dati par amatu un saistības periodu • Vārdu izvēle – ‘bijušais’, ‘ekspremjers’

  20. Paldies par uzmanību! Jautājumi?

More Related