1 / 28

Apprentissage faiblement supervisé de paraphrases

Apprentissage faiblement supervisé de paraphrases. Florence Duclaye - 28 janvier 2003 - LIMSI Équipe Langues Naturelles, France Télécom R&D, Lannion Département INFRES, Groupe Information, Interaction, Intelligence, ENST, Paris. Déroulement de la présentation.

cassie
Télécharger la présentation

Apprentissage faiblement supervisé de paraphrases

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Apprentissage faiblement supervisé de paraphrases Florence Duclaye - 28 janvier 2003 - LIMSI Équipe Langues Naturelles, France Télécom R&D, Lannion Département INFRES, Groupe Information, Interaction, Intelligence, ENST, Paris

  2. Déroulement de la présentation • Présentation du sujet et du contexte général • Sujet de recherche • Précisions terminologiques préliminaires • Etat de l’art • Système d’apprentissage automatique de paraphrases • Aperçu général • Procédures d’acquisition, de classification et de filtrage des paraphrases • Résultats • Conclusions et perspectives

  3. Présentation du sujet de recherche • Sujet : • L’apprentissage automatique de paraphrases sur le Web pour l’amélioration d’un système de questions-réponses. • Exemple : • Question : Quelle est la hauteur de la Tour Eiffel ? • Réponse : La hauteur de la Tour Eiffel est 300 mètres. • Paraphrases possibles de la réponse : • La Tour Eiffel culmine à 300 mètres. • La Tour Eiffel fait 300 mètres de haut. • …

  4. Précisions terminologiques préliminaires • Paraphrase • Subjectivité de la relation d’équivalence de sens • Différents types de paraphrases • Invariant sémantique entre les phrases, sur lequel peuvent se greffer diverses modifications sémantiques (règles d’inférence chez Lin et Pantel, Univ. Alberta, Canada) • Dépendance par rapport au contexte • Formulation : • Pour l’instant, forme verbale (ex : acheter) d’une relation sémantique. Par la suite, forme verbale ou nominalisée (ex : l’acquisition de … par …). • Tuple d’arguments : • Ensemble des arguments régis par une formulation (ex : AOL - Netscape)

  5. Quelques éléments intéressants de l’état de l’art • Barzilay (Univ. Cornell, USA) et McKeown (Univ. Columbia, USA) Apprentissage de paraphrases à partir de corpus parallèles (Harris) • Lin (Univ. Alberta, Canada) et Pantel (Univ. Alberta, Canada) Apprentissage de règles d’inférence pour le QA • Ellen Riloff (Univ. Utah, USA) : Bootstrapping pour l’extraction de lexiques sémantiques • Kentaro Torisawa (Univ. Tokyo) : Apprentissage de paraphrases avec l’algo EM • Seigei Brin (Google) : Extraction de relations à partir du Web • Thomas Hofmann et Jan Puzicha : LSA, PLSA • Peter Turney (Institut des technologies de l’information, Ottawa) : fouille du Web à la découverte de relations de synonymie

  6. Fonctionnement global du système d’apprentissage de paraphrases (1/3)

  7. E Phrase initiale T A Phrase 1 Requête 1 P Ens. de E formulations ... ... {f , ...,f } 1 j D Phrase k Requête k E CLASSIFICATION ETAPE D'ACQUISITION Extracteur d'arguments Extracteur de formulations Requête 1 Phrase 1 Ens. de tuples ... ... d'argument {a , ..., a } 1 k Requête l Phrase l Fonctionnement global du système d’apprentissage de paraphrases (2/3)

  8. Fonctionnement global du système d’apprentissage de paraphrases (3/3)

  9. Procédure d’acquisition automatique de paraphrases potentielles Technique employée : bootstrapping Outil utilisé : système de questions-réponses + analyseur syntaxique Éléments acquis alternativement : formulations et tuples d’args Hypothèse de départ : hypothèse distributionnelle de Harris

  10. Utilisation du système de questions-réponses comme outil d’IE (1/3)

  11. Utilisation du système de questions-réponses comme outil d’IE (2/3) Analyseur utilisé par le système de Questions-Réponses : produit une analyse syntaxique par étiquetage parenthésé (chunks) Exemple : GS2 : GN-NPGV-CT GN-NC GP-NP SEPF Hermann Melville est l’auteur de Moby Dick. GS1 GN-NPGN-NPGV-CTGN-DGN-NCGP-SGN-NPGN-NPSEPF [Hermann] [Melville] [être] [le] [auteur] [de] [Moby] [Dick] [.]

  12. Utilisation du système de questions-réponses comme outil d’IE (3/3) • La requête est envoyée telle quelle au système • Ex : tuple d’arguments : Melville – Moby Dick -> = requête • Patrons d’extraction des formulations et des tuples d’arguments écrits spécialement pour nos besoins • Ex : Melville [GV] Moby Dick ; Moby Dick [GV] Melville • [GN-NP] a écrit [GN-NP] • Accès restreint aux 1000 premiers résultats des moteurs de recherche (previews)

  13. Acquisition automatique : quelques mots sur le corpus utilisé AVANTAGES Application immédiate : QA sur le Web Source d’informations linguistiques constamment mise à jour Redondance des informations Variété des informations sous des formes linguistiques différentes Information linguistique en contexte INCONVÉNIENTS Corpus mouvant Hétérogénéité, non pertinence des données -> bruit Forte dépendance vis-à-vis des moteurs de recherche utilisés Rapidité d’accès au Web très variable Corpus de taille difficile à évaluer

  14. E Phrase initiale T A Phrase 1 Requête 1 P Ens. de E formulations ... ... {f , ...,f } 1 j D Phrase k Requête k E CLASSIFICATION ETAPE D'ACQUISITION Extracteur d'arguments Extracteur de formulations Requête 1 Phrase 1 Ens. de tuples ... ... d'argument {a , ..., a } 1 k Requête l Phrase l

  15. Procédure de classification et de filtrage des paraphrases potentielles acquises (1/2) • Apprentissage très faiblement supervisé • Classification (2 classes) • Nombreuses méthodes de calcul possibles • EM, diverses mesures de similarité/distance comme Jaccard, … • Multiples stratégies de filtrage possibles • Ex : conserver x meilleures formulations, prendre un seuil, … • Méthodes testées : algo EM, Jaccard pondéré

  16. Procédure de classification et de filtrage des paraphrases potentielles acquises (2/2) Exemple de tableau de comptages d’occurrences : vouloir intégrer choisit acquiert rachète achetait AOL – Netscape 1 2 1 12 1 Vivendi – Seagram 0 0 2 2 0 HP – Compaq 1 0 0 6 0 Apple – Astarte 0 0 0 2 1 …

  17. Filtrage par Estimation-Maximisation (1/4) Objectif : classer chaque formulation acquise comme une paraphrase valide de la relation sémantique de départ ou une paraphrase invalide, en se basant sur des données de cooccurrence entre formulations et tuples d’arguments. Supervision très faible : On a un exemple positif de départ (rép. à une question) On considère que chaque phrase (1 formulation f et 1 tuple d’arguments a) est générée par le modèle stochastique suivant : f : formulation a : tuple d’arguments S : ens. des relations sémantiques exprimées dans les phrases du corpus (S = 1 ou 0)

  18. Filtrage par Estimation-Maximisation (2/4) Estimation Maximisation f : formulation a : tuple d’arguments s : relation sémantique N : comptage d’occurrences

  19. Filtrage par Estimation-Maximisation (3/4) fi : formulation de départ ai : tuple d’argts de départ f : autres formulations a : autres tuples d’arguments S : relation sémantique Puis on fait tourner EM (itérations de E-steps et de M-steps) jusqu’à convergence des paramètres maximisés

  20. Filtrage par Estimation-Maximisation (4/4) Étape finale de classification : Mais on peut imaginer plusieurs autres stratégies de classification différentes

  21. Résultats quantitatifs obtenus sur EM Stratégie de filtrage : Estimation-Maximisation (1ère itération) Indice de filtrage Taux de sélection Précision 7 44% 42.9% (3.5% – 100%) 25 29.8% 47.3% (1.7% - 100%) 48 23.9% 47.3% (6.1% - 100%) 117 14.2% 54.9% (2.8% - 100%) 186 10% 66.6% (2.8% - 100%) 232 9.4% 65.4% (3.3% - 100%)

  22. Résultats qualitatifs : un exemple • Relation d’achat • 1ère itération : • ' acheter', ' pour intégrer‘, vouloir réssusciter‘,' utiliser', " c' être", ' tester le navigateur', ' de vouloir intégrer', ' ramasser', ' parler', ' choisir‘,' permettre‘, signer‘,' supplanter', 'envoie au diable', ' lire, ' sélectionner', ' compter', ' signifier', ' collaborer pour intégrer', ' enfant utiliser', ' modifier‘,' choisir d‘,' défiler', ' lancer', ' dévoiler', ' qui acheter', ' absorber‘,' publier', ' envoyer un message' • 2ème itération : • ' acheter', ' pour intégrer', ' vouloir réssusciter', ' choisir', ' utiliser', " c' être", ' tester le navigateur', ' de vouloir intégrer', ' parler‘,' ramasser', " n' être", ' venir', ' passer', ' voir', ' féliciter', ' permettre', ' sélectionner', 'envoie au diable', ' lire', ' compter', ' supplanter‘, ' signer', ' détrôner', ' qui devancer', ' dominer', ' prendre', ' battre', ' signifier', ' devenir’, ' dépasser', ' ils parler', ' collaborer pour intégrer', ' enfant utiliser', ' qui signifier', ' qui parler', ' remplacer le magnétoscope', ' rejoindre' • 3ème itération : • ' acheter‘,' pour intégrer', ' vouloir réssusciter', ' utiliser', " c' être", ' tester le navigateur', ' de vouloir intégrer', ' parler', ' ramasser', ' choisir', " n' être", ' venir‘,' passer', ' féliciter', ' voir', ' permettre', 'envoie au diable', ' sélectionner', ' lire', ' compter', ' tracer', ' aimer', ' encourager', ' venir renforcer', ' obliger‘, ' à louer la', ' autoriser', ' rester sur', ' recevoir', ' qui voir', ' grouper'

  23. Filtrage par la mesure de Jaccard pondérée (1/2) Objectif : calculer l’indice de similarité entre chaque formulation acquise et la formulation de départ, en se basant sur des données de cooccurrence entre formulations et tuples d’arguments. Principe : Nb de caractéristiques partagées (intersection) / union des caractéris.

  24. Filtrage par la mesure de Jaccard pondérée (2/2) Étape finale de classification : Conservation des N meilleures formulations Leurs distances d(F, F1) doivent être les plus fortes de toutes les formulations (F1 = formulation de départ)

  25. Conclusions • Mise en place d’un outil d’apprentissage automatique de paraphrases faiblement supervisé (1 exemple positif d’apprentissage) • Stratégies de classification et de filtrage testées basées sur EM, Jaccard pondéré • Intérêts : • Paraphrases : amélioration du système de QA (réponses + rapides et + fiables, complexification des questions possibles), classification automatique de documents, recherche d’informations, résumé automatique, TAO, … • Formulations thématiques (ex : AOL a acheté Netscape -> lancer, englober, investir, détenir, sauver, lorgner, …) : constitution d’annuaires thématiques • Couples d’entités nommées acquis (ex : Castro dirige Cuba -> Irak – Saddam Husseim, Milosevic – Serbie, Chili – Salvador Allende, …) : lexiques sémantiques, constitution de BDD spécialisées • Mécanisme d’apprentissage indépendant de la langue visée

  26. Perspectives pour les mois à venir • Amélioration acquisition : • Formulations plus complexes (ex : l’acquisition de Y par X, analyse en dépendances) • Reclassification préliminaire des previews : utilisation d’informations contextuelles pour améliorer la constitution du corpus à chaque requête • Amélioration du filtrage : • Autres méthodes de calcul de similarité (Chi2, cosinus, …) • Autres stratégies de filtrage (prendre plusieurs phrases de départ, conserver les x meilleures formulations, exemples négatifs avec les y plus mauvaises formulations, supervision manuelle, éliminer les arguments avec peu de productions, …) • Évaluation de mes travaux sur le système de QA

  27. Références bibliographiques E. Riloff : “Learning Dictionaries for Information Extraction by multi-level bootstrapping”, AAAI99. R. Barzilay, K. McKeown : “Extracting paraphrases from a parallel corpus”, ACL01. D. Lin, P. Pantel : “Discovery of inference rules for QA”, NL Engineering 7(4) : 343-360, 2001. X. Zhu, R. Rosenfeld : “Improving Trigram Language Modeling with the World Wide Web”, ICASSP01. C. Fuchs : “La Paraphrase”, PUF, 1982. T. Hofmann : “Probabilistic Latent Semantic Analysis”, UAI99. Publications de thèse : F. Duclaye, P. Filoche, J. Sitko, O. Collin : “A Polish Question-Answering for Business Information”, BIS02 F. Duclaye, F. Yvon, O. Collin : “Using the Web as a linguistic resource for learning reformulations automatically”, LREC02

  28. Merci !

More Related