Zinnen en Grammatica
170 likes | 450 Vues
Zinnen en Grammatica. Natuurlijke taalverwerking week 4. Automatisch zinsontleden. Herkennen van zinsdelen Onderwerp Persoonsvorm Lijdend voorwerp Bijwoordelijke bepalingen Woorden benoemen op woordsoort. Toepassingen. Correctie van grammaticale fouten
Zinnen en Grammatica
E N D
Presentation Transcript
Zinnen en Grammatica Natuurlijke taalverwerking week 4
Automatisch zinsontleden • Herkennen van zinsdelen • Onderwerp • Persoonsvorm • Lijdend voorwerp • Bijwoordelijke bepalingen • Woorden benoemen op woordsoort Natuurlijke Taalverwerking
Toepassingen • Correctie van grammaticale fouten • jan word ziek • dit kind is verwent • Dialoogsystemen: • USER: wanneer gaat de volgende trein? • SYSTEM: over vijftien minuten • Automatisch vertalen Natuurlijke Taalverwerking
Demonstraties • NP-chunker • Vind NP’s (zelfstandige naamwoordgroep) in een tekst • Alvey Tools Grammar • algemene grammatica voor het Engels (klein woordenboek) • NWO-TST (OVIS) parser in Hdrug • Voor openbaar vervoer reisinformatie (gesproken taal, semantiek) Natuurlijke Taalverwerking
Wat is een grammatica • Verzameling regels (en een woordenboek) die de grammaticale zinnen van een taal beschrijven • Doelstelling 1: (automatisch) bepalen of een zin grammaticaal is (d.w.z. voldoet aan de regels van de grammatica)) of niet. • Doelstelling 2: Structuur (constituenten, betekenis) toekennen aan zinnen van de taal. Natuurlijke Taalverwerking
Regels: S --> NP VP NP --> Det A N VP --> V VP --> V NP Woordenboek: Det --> een N --> voorbeeld A --> eenvoudig V --> is NP --> dit Context-vrije grammatica Natuurlijke Taalverwerking
Dit is een eenvoudig voorbeeld S NP VP V NP Det A N eenvoudig Dit is een voorbeeld Natuurlijke Taalverwerking
FSA versus CFG: 1. recursieve regels • Sommige talen of zinsconstructies zijn niet met een Finite state Grammatica (reguliere expressies) te beschrijven: • AN BN : een aantal A’s, gevolgd door hetzelfde aantal B’s. S --> a S B S --> a b Natuurlijke Taalverwerking
FSA versus CFG:1. Recursieve regels • Recursieve regels zijn in grammatica’s heel gewoon: • een dun iel dom oud boompje • een huis met tuin in Haren in de dorpskern • N --> A N • N --> N PP • Niet iedere recursie is echt nodig: • macro(np, [det, a*, n, pp*]). • pas wel op dat pp niet een macro mag zijn waarin np voorkomt Natuurlijke Taalverwerking
FSA versus CFG:1. Recursieve regels • Problemen ontstaan bij `center-embedding’: recursie die in het midden van een regel optreedt: • de fotograaf die de vrouw fotografeerde • NP --> Det N Pronoun NP V • (ik ken) de fotograaf die de vrouw die de man die de hond die de kat achtervolgdezagkustfotografeerde,…. • (Probleem: zinnen met ‘center-embedding’ zijn zeer moeilijk te verwerken Natuurlijke Taalverwerking
FSA versus CFG:2. Structuur • NP --> Det N, N --> A N, N --> N PP • macro(np,[det,a*,n,pp*]) • Grammatica’s zijn equivalent in zwakzwakke generatieve kracht: ze accepteren dezelfde strings. • Niet equivalent in sterke generatieve kracht: CFG levert constituent-structuur op (boompjes), FSA niet. • (syntactische) ambiguiteit is onzichtbaar in FSA Natuurlijke Taalverwerking
FSA versus CFG: 2. Structuur • VP --> V NP • VP --> VP PP • An eet rijst met een vork • NP --> NP PP • An eet rijst met kip • macro(vp,[v,np,pp*]) Natuurlijke Taalverwerking
FSA versus CFG: 2. Structuur VP PP VP VP eetrijst met een vork NP V eet NP PP rijst met kip Natuurlijke Taalverwerking
Voorbij CFG • CFG met features (kenmerken, attributen) en unificatie • voorbeelden: Definite Clause Grammar, Unificatie Grammatica. • Transformationele grammatica is te lastig voor computationele doeleinden: • weinig formele precisie • lastig voor automatisch ontleden Natuurlijke Taalverwerking
Voorbij CFG • De taal WW (een rij woorden gevolgd door dezelfde rij woorden) is niet context-vrij: • aabcccaabccc • Nederlandse werkwoordsclusters vertonen vergelijkbare ‘cross-serial dependencies’: • dat PeterHansCecilia de kraanvogels zaghelpenfotograferen Natuurlijke Taalverwerking