1 / 27

Pascale S ébillot Équipe TexMex, IRISA, Rennes

Acquisition de connaissances linguistiques en corpus par apprentissage symbolique ou quand l’apprentissage perd son aspect bo îte noir e. Pascale S ébillot Équipe TexMex, IRISA, Rennes. Plan. Acquisition num érique versus symbolique Principes de la programmation logique inductive (PLI)

Télécharger la présentation

Pascale S ébillot Équipe TexMex, IRISA, Rennes

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Acquisition de connaissances linguistiques en corpus par apprentissage symbolique ou quand l’apprentissage perd son aspect boîte noire Pascale Sébillot Équipe TexMex,IRISA, Rennes

  2. Plan • Acquisition numérique versus symbolique • Principes de la programmation logique inductive (PLI) • Expérience d’acquisition de relations sémantiques nomino-verbales par PLI

  3. Acquisition numérique versus symbolique • Pas opposition numérique vs linguistique • Approche numérique • exploite l’aspect fréquentiel des données • utilise des techniques statistiques • indices statistiques, analyse distributionnelle… • Approche symbolique • exploite l’aspect structurel des données • utilise des informations structurelles ou symboliques • expertise linguistique ou apprentissage symbolique

  4. Indices statistiques (app. num.) • Cooccurrences dans une fenêtre • Mots apparaissant ensemble de manière statistiquement significative • Coefficients d’association • table de contingence • coefficient d’information mutuelle IM= log2(a/(a+b)(a+c)) • test du 2 (Church-Gale 91) = (ad-bc)2/((a+b)(a+c)(b+c)(b+d)) • Segments répétés (Lebart et Salem 94)

  5. Analyse distributionnelle (app. num.) • Linguistique Harrissienne (Harris et al. 89) • Approches en 3 étapes • extraction des cooccurrents d'un mot • mise en évidence de la proximité/distance des mots 2 à 2 selon leurs cooccurrents • regroupement en classes • Classes sémantiques… Grefenstette 94, Bouaud et al. 97… • Limites : interprétabilité, détection au niveau du corpus… mais portabilité

  6. Approche linguistique (app. symb.) • Définitions opérationnelles des éléments à acquérir, établies par expertise linguistique • Patrons, marqueurs • Lexter (Bourigault 94)… • Seek (Jouis 95) : règles d'exploration contextuelle • plus de 220 règles SI <condition de co-présence de marqueurs linguistiques> ALORS <actions> OU <conclusions> manipulant plus de 3300 marqueurs linguistiques, construites manuellement • détection de couples de mots en relation binaire (localisation, tout à partie…)

  7. Apprentissage symbolique (app. symb.) • Marqueurs de la relation issus d’une analyse d’exemples et non d’une connaissance linguistique a priori  extraction de patrons à partir d’exemples • Hearst (92) : méthodologie en 5 étapes • choisir une relation cible R • réunir une liste de paires en relation R • trouver les phrases contenant ces paires ; enregistrer leurs contextes lexical et syntaxique • trouver les points communs entre ces contextes ; supposer que c’est un schéma de R • appliquer les schémas pour avoir de nouvelles paires et retourner en 3 • Hyponymie (Morin 99) • SN tel que LISTE(arbres fruitiers tels que des pommiers, des poiriers…)

  8. Intérêt de l’approche symbolique • Interprétabilité, détection au niveau de l’occurrence • Définition opérationnelle d’un concept • Intérêt quand une relation est connue partiellement en extension et pas en intention, c’est-à-dire non formalisée par une règle • Généraliser automatiquement  apprentissage artificiel (automatique) symbolique

  9. Principes de la PLI[Muggleton & De Raedt 94] • Intérêt : exemples à manipuler contenant un nombre variables d’objets et relations entre objets importantes • Technique d’apprentissage symbolique supervisée • E+ et E- : exemples positifs et négatifs (contre-exemples) • B : connaissances préalables (background knowledge) • B, E+, E- exprimés en logique des prédicats • But : l’algorithme de PLI infère, par généralisation des exemples positifs, des règles (hypothèses, clauses) H qui caractérisent les exemples positifs par rapport aux négatifs • possibilité d’autoriser un peu de bruit (exemples négatifs couverts)

  10. Exemple : apprendre quels animaux volent • E+ = {vole(canari). vole(chauve-souris).} • E- = {:-vole(chien).} • B = {oiseau(canari). mamm(chien). mamm(chauve-souris). ailé(chauve-souris). ailé(canari).} • H = {vole(X) :- ailé(X).} général vole(X). vole(X) :- oiseau(X). vole(X) :- mamm(X). vole(X) :- ailé(X). Eh vole(X) :- oiseau(X), mamm(X). spécifique

  11. Un peu plus formellement… • Choix du langage des exemples et du langage des hypothèses • Lien entre les deux espaces : notion de couverture • Hypothèses organisées par une notion de généralisation • Algorithme de PLI (ALEPH - Srinivasan 00) • choisir un exemple dans E+ ; arrêt s’il n’y en a plus • définir un espace de recherche d’hypothèses à partir de E+ et du langage d’hypothèses • rechercher l’hypothèse dans l’espace de solutions maximisant une fonction de score • conserver cette hypothèse et ôter les exemples qu’elle couvre (explique) ; retourner en 1

  12. Expérience d’acquisition de relations sémantiques N-V par PLI • Travail réalisé avec C. Fabre (Erss), P. Bouillon (Tim/Issco) et V. Claveau (Irisa)  logiciel ASARES • Acquisition de couples N-V sémantiquement liés • Liens définis dans la structure des qualia du Lexique génératif (Pustejovsky 95) : rôles qualia • télique : fonction ou but d’un objet (couper – couteau) • agentif : mode de création d’un objet (construire – maison) • couple N-V qualia par la suite • Pasd’a priori sur les structures portant les rôles qualia dans un corpus • Méthode symbolique d’acquisition : intérêt linguistique (schémas porteurs, verbalisation des rôles)

  13. Extraction symbolique supervisée • Concept à apprendre : distinguer les paires N-V qualia des non-qualia en contexte (en corpus) • Informations utilisées • contexte (informations apportées par étiquetages) • ordre et distance entre N et V, succession des mots • Construction d’ensembles d’exemples E+ et E- par un expert • e+ : « À l’aide des manettes, déverrouiller le siège et ... » • e- : «Gonfler la roue à la pression prescrite... » • Règles générées = patrons d’extraction interprétables fonction ?

  14. Extraction symbolique supervisée système PLI E+ et E- expert LG B corpus étiqueté patrons d’extraction ? Étiquetages couples qualia corpus

  15. Corpus et étiquetages • Manuel de maintenance d’hélicoptères de MATRA-CCR • corpus technique : nombreux termes concrets • vocabulaire et structures syntaxiques homogènes • 104 000 mots, 700 Koctets • Étiquetage catégoriel • segmentation, lemmatisation, étiquetage (moins de 2% d’erreurs) • manettes est un nom commun au pluriel • Étiquetage sémantique (Bouillon et al. 00) • construction d’une hiérarchie d’étiquettes (à partir de WordNet) • ex : un instrument est un type d’artefact, d’objet... • manettes désigne un instrument • moins de 1.5% d’erreurs

  16. Exemples et connaissances a priori • Exemples • description des mots de la phrase • étiquettes catégorielles • étiquettes sémantiques • description des successions de mots • distance en nombre de mots et verbes entre N et V • Connaissances préalables : entre autres les hiérarchies des étiquettes catégorielles et sémantiques pour permettre des généralisations

  17. Spécificités • Hypothèse bien formée pour identifier une paire N-V qualia • clause donnant des informations sur les mots (N, V, mots du contexte) ou sur les positions respectives du N et du V dans la phrase • Prise en compte des connaissances hiérarchiques • Règles linguistiquement pertinentes • concision : au plus une information catégorielle et sémantique par mot • introduction de variables si contraintes

  18. Inférence des patrons d’extraction • Supervision : 3000 exemples positifs et 3000 négatifs • Apprentissage : 20min (vs 12h+ sans modifications) • Résultats : 9 patrons inférés • is_qualia(N,V) :- precedes(V,N), near_verb(N,V), infinitive(V), action_verb(V). • V d’action à l’infinitif + (tout sauf un verbe)* + N • obturer avec les bouchons • is_qualia(N,V) :- precedes(V,N), suc(V,C), colon(C), pred(N,D), punctuation(D), singular_common_noun(N). • V + : + (tout mot)* + [:,;] + N • ouvrir : le capot coulissant, le capot droit et…

  19. Résultats - validation • Validation théorique de l’apprentissage et de ses paramétrages (validation croisée) • Validation empirique  jeu de test • sous-corpus de 32 000 mots • focus sur 7 noms : vis, écrou, porte, voyant… • 286 paires annotées par des experts du LG, dont 66 qualia

  20. Résultats - validation • Application des 9 patrons et comparaison des résultats d’extraction des patrons inférés à ceux des experts • Calcul des taux de rappel, précision et F-mesure (2PR/(P+R))

  21. Comparaison avec des méthodes d’extraction statistiques Système Précision (P) Rappel (R) F-mesure PLI 62.2% 92.4% 0.744 coeff Ochiai 82.4%42.4%0.56 coeff IM392.3%36.4%0.522 test chi2 78.1%37.9%0.464 coeff loglike 80%42.4%0.554 • Cooccurrences de N et V dans une phrase, basées sur les lemmes • Meilleure précision mais taux de rappel plus faible • Travail uniquement sur les lemmes alors que la PLI bénéficie d’informations sémantiques et catégorielles • Pas besoin de supervision

  22. Comparaison avec une méthode syntaxique manuelle • Extraction basée sur une analyse syntaxique : annotation syntaxique (sujet, objet, modifieur) manuelle des paires N-V • Paire N-V détectée si en relation syntaxique • Le lien qualia est plus qu’un simple lien syntaxique (rappel) (poser l’ensemble : rondelle, vis et serrer au couple)

  23. Pertinence linguistique des patrons d’extraction • is_qualia(N,V) :- precedes(V, N), near_verb(N, V), infinitive(V), action_verb(V). • is_qualia(N, V) :- contiguous(N, V). • is_qualia(N, V) :- precedes(V, N), near_word(N, V), near_ verb(N, V), suc(V,C), preposition(C). • is_qualia(N, V) :- near_word(N, V), sentence_beginning(N). • is_qualia(N, V) :- precedes(V, N), singular_common_noun(N), suc(V,C), colon(C), pred(N,D), punctuation(D). • is_qualia(N, V) :- near_word(N, V), suc(V,C), suc(C,D), action_verb(D). • is_qualia(N, V) :- precedes(N, V), near_word(N, V), pred(N,C), punctuation(C). • is_qualia(N, V) :- near_verb(N, V), pred(V,C), pred(C,D), pred(D,E), preposition(E), sentence_beginning(N). • is_qualia(N, V) :- precedes(N, V), near_verb(N, V), pred(N,C), subordinating_conjunction(C).

  24. Pertinence linguistique des patrons d’extraction • À ce niveau de généralisation, peu de marqueurs linguistiques usuels sauf informations morphologiques et sémantiques pour les verbes • infinitifs et verbes d’action privilégiés • Autres critères • proximité : N et V proches dans la phrase, sans verbe entre eux • position : N ou V souvent en début de phrase (en particulier V) • ponctuations telles que « : » « , » « ; » • catégorisation morphosyntaxique • 1e clause  verbe d’action à l’infinitif • débrancher les prises, déposer les obturateurs…

  25. Pertinence linguistique des patrons d’extraction • Patrons propres au corpus et interprétables • Recoupement en partie de structures trouvées manuellement (Galy 00) • V infinitif + déterminant + N (visser le bouchon) • N + V (un bouchon obture) • être + V participe passé + par + déterminant + N (sont obturées par les bouchons) • … • Pertinence des structures infinitives, patrons avec N et V proches • Généralisations des structures de Galy (actif et passif  clause 2) • Non trouvés : marqueurs polylexicaux (avoir pour but de…) • Mais indices nouveaux par rapport à l’analyse manuelle

  26. Approche numérique vs symbolique • Numérique • méthodes portables, automatiques • résultats peu interprétables • détection au niveau du corpus : une occurrence (retenue ou non) pas explicable • cas rares problématiques • Symbolique • connaissances a priori (patrons, exemples) • résultats interprétables • détection au niveau de l’occurrence • cas rares pouvant être pris en compte

  27. Acquisition de connaissances linguistiques en corpus par apprentissage symbolique ou quand l’apprentissage perd son aspect boîte noire Pascale Sébillot Équipe TexMex,IRISA, Rennes Merci de votre attention

More Related