1 / 23

Tulajdonnév felismerés

Tulajdonnév felismerés. 2007. 10. 10. Tulajdonnév felismerés. Szemantika és a szintaktika közt félúton. Az első olyan feladat aminek közvetlen alkalmazásai is vannak. Fontos részfeladat: információkinyerés alapegységei gépi fordítás: Kovács János -> John Smith ….

gin
Télécharger la présentation

Tulajdonnév felismerés

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Tulajdonnév felismerés 2007. 10. 10.

  2. Tulajdonnév felismerés Szemantika és a szintaktika közt félúton. Az első olyan feladat aminek közvetlen alkalmazásai is vannak. Fontos részfeladat: információkinyerés alapegységei gépi fordítás: Kovács János -> John Smith …

  3. Mi egy tulajdonnév? • Magyar Helyesírási kézikönyv: tulajdonnév pl: Magyar Nemzeti Bank köznév pl: asztal, alma, bank ? File Transfer Protocol, Blootouth, BUX ? Botond étterem Nincs egzakt szabály ennek eldöntésre! • named entity: „a szövegnek egy olyan eleme, amely a világ valamelyentitására unikusan referál” rfarkas@inf.u-szeged.hu is egy NE

  4. Tulajdonnév a HLT-ben „Előre definiált osztályokba tartozó tokensorozatok felismerése és klasszifikálása”. Az osztályokat egy tanítóhalmaz manuális annotációjával „definiálják”. Például: helynevek, személynevek, szervezetek, e-mail címek Vannak olyan osztályok amik egyszerű szabályokkal (általában reguláris kifejezésekkel) leírhatóak, például e-mail címek

  5. A klasszifikáció nehézségei (Felismerés viszonylag egyszerű feladat) Nyílt halmaz, nem fedhető le szótárakkal! Gyakran a szövegkörnyezet dönti el a jelentést pl.: Ford személy, repülőtér, vállalat vagy márkanév? Szintaktikai információkból kell szemantikai döntéseket meghozni.

  6. Gépi tanulási megközelítések Mivel minden feladat más és más, egy szabály alapú rendszer előállítása igen költséges lenne. Milyen jellemzőkkel írhatóak le az osztályok? Két különböző megközelítés: • Token alapú klasszifikáció • Szekvencia jelölés

  7. Jellemzőkészlet • Ortográfiai jellemzők kezdőbetű típusa, szóhossz, tartalmaz számot / írásjelet, arab / római szám • Gyakorisági adatok kis/nagybetűs-, mondatközi nagybetűs/nagybetűs arányok, gyakoriság • Szövegkörnyezet info trigger uni- / bi- / trigramok, mondatpozíció, dokumentum pozició • Kifejezés-szintű info megelőző tokenek címkéi, zárójelben/idézőjelben van, reguláris kifejezések • Egyértelmű szavak szótára tanuló adatbázisból összegyűjtve, betegségek nevei • Trigger szótárak keresztnevek, kórházformák, országok, városok

  8. Token szintű osztályozás Az egyes tokeneket klasszifikáljuk. A környezetből nyerhető információkat egy ablakkal felvesszük a token jellemzői közé: pl: elöző szó kisbetűs-e Kérdés: megadhatjuk-e a környezet osztálycímkéit? Általában szükség van egy utófeldolgozó lépésre: MagyarORG NemzetiLOC BankORG Rt.ORG

  9. Szekvenciális modellek Cél: egész szekvenciára (mondatra) egyszerre megmondani a legvalószínűbb jelölést. • P(T|x) : tageloszlás a jellemzőtér felett x: {kisbetűs, gyakori, zárójelben van} T: {nem tulajdonnév, szervezet, helység} • P(Tt|Tt-1) : átmenet-valószínűségek P(helység|szervezet)=0.0001 Ezeket a tanuló adatbázis alapján becsüljük.

  10. Szekvenciális modellek

  11. Alkalmazási területek • Magyar gazdasági rövidhírek elemzése • Angol újsághírek elemzése • Orvosi kórlapok anonimizálása • Lényegében ugyanaz a modell működik: • angolra és magyarra • Két teljesen más feladatra (domainre)

  12. Kiértékelési metrika Csak a tulajdonnév osztályokra számoljuk. Precízió: Amit C-nek jelölünk az hány esetben C Lefedettség: Az összes C-ből hányat találtunk meg. Fβ=1 a precízió és a lefedettség harmonikus közepe Frázis szintű metrika Token szintű MagyarORG NemzetiLOC BankORG Rt.ORG P_tokenORG=3/3 R_tokenORG=3/4 P_frázisORG=0/2 R_frázisORG=0/1

  13. SzegedNE korpusz • 200 ezer szövegszó • Gazdasági rövidhírek (NewsML) • Személynév, Szervezet, Hely és Egyéb • 15 ezer tulajdonnév • A korpusz és magyar tulajdonnévtrigger-listák letölthetőek (licensz) • hamarosan: HUNNER

  14. Eredmények a SzegedNE korpuszon Első statisztikai tulajdonnév-felismerő modell magyar nyelvre

  15. CoNLL 2003 adatbázis • A tulajdonnév-felismerés talán legfontosabb nemzetközi referencia adatbázisa • 200+50 ezer szövegszó • Angol nyelvű újsághírek • gazdaság, sport, politika témában • Személynév, Szervezet, Hely és Egyéb • Ez szolgált mintául a SzegedNE korpuszhoz

  16. Eredmények angol nyelvre

  17. Orvosi rekordok feldolgozása Motiváció: Hasznos információk tűnnek el a szövegben Szöveges adatbázisok megosztása szélesebb körben (kórházak) Adatok gyűjtése, statisztikák készítése Kutatómunka elősegítése A feladatok nagy része automatizálható Ehhez azonban a személyes információkat el kell távolítani, pontosabban le kell őket generált egyedekre cserélni!

  18. Anonimizálás Cél:PHI-k azonosítása és osztályozása a zárójelentésekben • 8különböző kategória (sokmindent lefed): PATIENT, DOCTOR, HOSPITAL, LOCATION,ID, PHONE, DATE, AGE (csak ha 90 év feletti) • Ezek pont a klasszikus named entity osztályok! Anonimizálás vs De-identifikáció

  19. A felhasznált adatbázis • I2B2 nemzetközi nyílt verseny • 671 címkézett orvosi zárójelentés • (400 ezer token, tartalmaz strukturált részeket is) • Kiértékelés 206 ismeretlen zárójelentésen • Orvosi nyelvi feldolgozás „A/P: 64 yo M known CAD, s/p CABG and PCI in '03 presents w NSTEMI in settin of EKG changes s/p cardiac cath and ETT MIBI positive for diffuse disease w mild reversibility in PDA territory cw 100% lesion in SVG.” • Anonimizált adatbázis

  20. Kiértékelés (Fβ=1)

  21. A rendszer adaptálása a három feladatra • Szótárak (keresztnevek, cégformák stb.) cseréje angolra • Orvosi szövegekhez mindössze a cégforma listát cseréltük le {hospital, clinics, memorial, …}-re • A CoNLL és I2B2 adatbázisokon felhasználtuk a dokumentumok struktúrájában rejlő információkat (1-1 plusz jellemző)

  22. A jellemzők jellemzői  • Próbáltunk POS és szintaktikai kódokat használni, de vagy elhanyagolható volt a jelentőségük vagy csak összekavarták a rendszert • Nem használtunk semmilyen domain-specifikus szótárat (mint például MeSH kódok) • Csak felszíni információk felhasználásával elérhető versenyképes eredmény!

  23. A jellemzők hatása az anonimizálás feladatnál • Alap jellemzők: kezdőbetű, triggerek, előző tokenek címkéi • Ortográfiaijellemzők • Gyakorisági adatok • Struktúra információ • Reguláris kifejezések • Helység szótárak (országok, városok) • Mondat pozíció • Idézőjelek / Zárójelek között • Keresztnevek • Nem-NE listák

More Related