Apprentissage faiblement supervisé de paraphrases

Apprentissage faiblement supervisé de paraphrases Florence Duclaye - 28 janvier 2003 - LIMSI Équipe Langues Naturelles, France Télécom R&D, Lannion Département INFRES, Groupe Information, Interaction, Intelligence, ENST, Paris

Déroulement de la présentation • Présentation du sujet et du contexte général • Sujet de recherche • Précisions terminologiques préliminaires • Etat de l’art • Système d’apprentissage automatique de paraphrases • Aperçu général • Procédures d’acquisition, de classification et de filtrage des paraphrases • Résultats • Conclusions et perspectives

Présentation du sujet de recherche • Sujet : • L’apprentissage automatique de paraphrases sur le Web pour l’amélioration d’un système de questions-réponses. • Exemple : • Question : Quelle est la hauteur de la Tour Eiffel ? • Réponse : La hauteur de la Tour Eiffel est 300 mètres. • Paraphrases possibles de la réponse : • La Tour Eiffel culmine à 300 mètres. • La Tour Eiffel fait 300 mètres de haut. • …

Précisions terminologiques préliminaires • Paraphrase • Subjectivité de la relation d’équivalence de sens • Différents types de paraphrases • Invariant sémantique entre les phrases, sur lequel peuvent se greffer diverses modifications sémantiques (règles d’inférence chez Lin et Pantel, Univ. Alberta, Canada) • Dépendance par rapport au contexte • Formulation : • Pour l’instant, forme verbale (ex : acheter) d’une relation sémantique. Par la suite, forme verbale ou nominalisée (ex : l’acquisition de … par …). • Tuple d’arguments : • Ensemble des arguments régis par une formulation (ex : AOL - Netscape)

Quelques éléments intéressants de l’état de l’art • Barzilay (Univ. Cornell, USA) et McKeown (Univ. Columbia, USA) Apprentissage de paraphrases à partir de corpus parallèles (Harris) • Lin (Univ. Alberta, Canada) et Pantel (Univ. Alberta, Canada) Apprentissage de règles d’inférence pour le QA • Ellen Riloff (Univ. Utah, USA) : Bootstrapping pour l’extraction de lexiques sémantiques • Kentaro Torisawa (Univ. Tokyo) : Apprentissage de paraphrases avec l’algo EM • Seigei Brin (Google) : Extraction de relations à partir du Web • Thomas Hofmann et Jan Puzicha : LSA, PLSA • Peter Turney (Institut des technologies de l’information, Ottawa) : fouille du Web à la découverte de relations de synonymie

Fonctionnement global du système d’apprentissage de paraphrases (1/3)

E Phrase initiale T A Phrase 1 Requête 1 P Ens. de E formulations ... ... {f , ...,f } 1 j D Phrase k Requête k E CLASSIFICATION ETAPE D'ACQUISITION Extracteur d'arguments Extracteur de formulations Requête 1 Phrase 1 Ens. de tuples ... ... d'argument {a , ..., a } 1 k Requête l Phrase l Fonctionnement global du système d’apprentissage de paraphrases (2/3)

Fonctionnement global du système d’apprentissage de paraphrases (3/3)

Procédure d’acquisition automatique de paraphrases potentielles Technique employée : bootstrapping Outil utilisé : système de questions-réponses + analyseur syntaxique Éléments acquis alternativement : formulations et tuples d’args Hypothèse de départ : hypothèse distributionnelle de Harris

Utilisation du système de questions-réponses comme outil d’IE (1/3)

Utilisation du système de questions-réponses comme outil d’IE (2/3) Analyseur utilisé par le système de Questions-Réponses : produit une analyse syntaxique par étiquetage parenthésé (chunks) Exemple : GS2 : GN-NPGV-CT GN-NC GP-NP SEPF Hermann Melville est l’auteur de Moby Dick. GS1 GN-NPGN-NPGV-CTGN-DGN-NCGP-SGN-NPGN-NPSEPF [Hermann] [Melville] [être] [le] [auteur] [de] [Moby] [Dick] [.]

Utilisation du système de questions-réponses comme outil d’IE (3/3) • La requête est envoyée telle quelle au système • Ex : tuple d’arguments : Melville – Moby Dick -> = requête • Patrons d’extraction des formulations et des tuples d’arguments écrits spécialement pour nos besoins • Ex : Melville [GV] Moby Dick ; Moby Dick [GV] Melville • [GN-NP] a écrit [GN-NP] • Accès restreint aux 1000 premiers résultats des moteurs de recherche (previews)

Acquisition automatique : quelques mots sur le corpus utilisé AVANTAGES Application immédiate : QA sur le Web Source d’informations linguistiques constamment mise à jour Redondance des informations Variété des informations sous des formes linguistiques différentes Information linguistique en contexte INCONVÉNIENTS Corpus mouvant Hétérogénéité, non pertinence des données -> bruit Forte dépendance vis-à-vis des moteurs de recherche utilisés Rapidité d’accès au Web très variable Corpus de taille difficile à évaluer

E Phrase initiale T A Phrase 1 Requête 1 P Ens. de E formulations ... ... {f , ...,f } 1 j D Phrase k Requête k E CLASSIFICATION ETAPE D'ACQUISITION Extracteur d'arguments Extracteur de formulations Requête 1 Phrase 1 Ens. de tuples ... ... d'argument {a , ..., a } 1 k Requête l Phrase l

Procédure de classification et de filtrage des paraphrases potentielles acquises (1/2) • Apprentissage très faiblement supervisé • Classification (2 classes) • Nombreuses méthodes de calcul possibles • EM, diverses mesures de similarité/distance comme Jaccard, … • Multiples stratégies de filtrage possibles • Ex : conserver x meilleures formulations, prendre un seuil, … • Méthodes testées : algo EM, Jaccard pondéré

Procédure de classification et de filtrage des paraphrases potentielles acquises (2/2) Exemple de tableau de comptages d’occurrences : vouloir intégrer choisit acquiert rachète achetait AOL – Netscape 1 2 1 12 1 Vivendi – Seagram 0 0 2 2 0 HP – Compaq 1 0 0 6 0 Apple – Astarte 0 0 0 2 1 …

Filtrage par Estimation-Maximisation (1/4) Objectif : classer chaque formulation acquise comme une paraphrase valide de la relation sémantique de départ ou une paraphrase invalide, en se basant sur des données de cooccurrence entre formulations et tuples d’arguments. Supervision très faible : On a un exemple positif de départ (rép. à une question) On considère que chaque phrase (1 formulation f et 1 tuple d’arguments a) est générée par le modèle stochastique suivant : f : formulation a : tuple d’arguments S : ens. des relations sémantiques exprimées dans les phrases du corpus (S = 1 ou 0)

Filtrage par Estimation-Maximisation (2/4) Estimation Maximisation f : formulation a : tuple d’arguments s : relation sémantique N : comptage d’occurrences

Filtrage par Estimation-Maximisation (3/4) fi : formulation de départ ai : tuple d’argts de départ f : autres formulations a : autres tuples d’arguments S : relation sémantique Puis on fait tourner EM (itérations de E-steps et de M-steps) jusqu’à convergence des paramètres maximisés

Filtrage par Estimation-Maximisation (4/4) Étape finale de classification : Mais on peut imaginer plusieurs autres stratégies de classification différentes

Résultats quantitatifs obtenus sur EM Stratégie de filtrage : Estimation-Maximisation (1ère itération) Indice de filtrage Taux de sélection Précision 7 44% 42.9% (3.5% – 100%) 25 29.8% 47.3% (1.7% - 100%) 48 23.9% 47.3% (6.1% - 100%) 117 14.2% 54.9% (2.8% - 100%) 186 10% 66.6% (2.8% - 100%) 232 9.4% 65.4% (3.3% - 100%)

Résultats qualitatifs : un exemple • Relation d’achat • 1ère itération : • ' acheter', ' pour intégrer‘, vouloir réssusciter‘,' utiliser', " c' être", ' tester le navigateur', ' de vouloir intégrer', ' ramasser', ' parler', ' choisir‘,' permettre‘, signer‘,' supplanter', 'envoie au diable', ' lire, ' sélectionner', ' compter', ' signifier', ' collaborer pour intégrer', ' enfant utiliser', ' modifier‘,' choisir d‘,' défiler', ' lancer', ' dévoiler', ' qui acheter', ' absorber‘,' publier', ' envoyer un message' • 2ème itération : • ' acheter', ' pour intégrer', ' vouloir réssusciter', ' choisir', ' utiliser', " c' être", ' tester le navigateur', ' de vouloir intégrer', ' parler‘,' ramasser', " n' être", ' venir', ' passer', ' voir', ' féliciter', ' permettre', ' sélectionner', 'envoie au diable', ' lire', ' compter', ' supplanter‘, ' signer', ' détrôner', ' qui devancer', ' dominer', ' prendre', ' battre', ' signifier', ' devenir’, ' dépasser', ' ils parler', ' collaborer pour intégrer', ' enfant utiliser', ' qui signifier', ' qui parler', ' remplacer le magnétoscope', ' rejoindre' • 3ème itération : • ' acheter‘,' pour intégrer', ' vouloir réssusciter', ' utiliser', " c' être", ' tester le navigateur', ' de vouloir intégrer', ' parler', ' ramasser', ' choisir', " n' être", ' venir‘,' passer', ' féliciter', ' voir', ' permettre', 'envoie au diable', ' sélectionner', ' lire', ' compter', ' tracer', ' aimer', ' encourager', ' venir renforcer', ' obliger‘, ' à louer la', ' autoriser', ' rester sur', ' recevoir', ' qui voir', ' grouper'

Filtrage par la mesure de Jaccard pondérée (1/2) Objectif : calculer l’indice de similarité entre chaque formulation acquise et la formulation de départ, en se basant sur des données de cooccurrence entre formulations et tuples d’arguments. Principe : Nb de caractéristiques partagées (intersection) / union des caractéris.

Filtrage par la mesure de Jaccard pondérée (2/2) Étape finale de classification : Conservation des N meilleures formulations Leurs distances d(F, F1) doivent être les plus fortes de toutes les formulations (F1 = formulation de départ)

Conclusions • Mise en place d’un outil d’apprentissage automatique de paraphrases faiblement supervisé (1 exemple positif d’apprentissage) • Stratégies de classification et de filtrage testées basées sur EM, Jaccard pondéré • Intérêts : • Paraphrases : amélioration du système de QA (réponses + rapides et + fiables, complexification des questions possibles), classification automatique de documents, recherche d’informations, résumé automatique, TAO, … • Formulations thématiques (ex : AOL a acheté Netscape -> lancer, englober, investir, détenir, sauver, lorgner, …) : constitution d’annuaires thématiques • Couples d’entités nommées acquis (ex : Castro dirige Cuba -> Irak – Saddam Husseim, Milosevic – Serbie, Chili – Salvador Allende, …) : lexiques sémantiques, constitution de BDD spécialisées • Mécanisme d’apprentissage indépendant de la langue visée

Perspectives pour les mois à venir • Amélioration acquisition : • Formulations plus complexes (ex : l’acquisition de Y par X, analyse en dépendances) • Reclassification préliminaire des previews : utilisation d’informations contextuelles pour améliorer la constitution du corpus à chaque requête • Amélioration du filtrage : • Autres méthodes de calcul de similarité (Chi2, cosinus, …) • Autres stratégies de filtrage (prendre plusieurs phrases de départ, conserver les x meilleures formulations, exemples négatifs avec les y plus mauvaises formulations, supervision manuelle, éliminer les arguments avec peu de productions, …) • Évaluation de mes travaux sur le système de QA

Références bibliographiques E. Riloff : “Learning Dictionaries for Information Extraction by multi-level bootstrapping”, AAAI99. R. Barzilay, K. McKeown : “Extracting paraphrases from a parallel corpus”, ACL01. D. Lin, P. Pantel : “Discovery of inference rules for QA”, NL Engineering 7(4) : 343-360, 2001. X. Zhu, R. Rosenfeld : “Improving Trigram Language Modeling with the World Wide Web”, ICASSP01. C. Fuchs : “La Paraphrase”, PUF, 1982. T. Hofmann : “Probabilistic Latent Semantic Analysis”, UAI99. Publications de thèse : F. Duclaye, P. Filoche, J. Sitko, O. Collin : “A Polish Question-Answering for Business Information”, BIS02 F. Duclaye, F. Yvon, O. Collin : “Using the Web as a linguistic resource for learning reformulations automatically”, LREC02

Merci !

Apprentissage faiblement supervisé de paraphrases

Apprentissage faiblement supervisé de paraphrases

Presentation Transcript

Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Trampoline : Outil pédagogique

Psychologie de l’évaluation Evaluer les étudiants à l’université

DEVELOPPER LA CONSCIENCE PHONOLOGIQUE 1 ère partie

Les signes radiologiques précoces de l’AVC ischémique

Le portfolio comme soutien à l’apprentissage en profondeur et à la pratique réflexive

AGIR ET S’EXPRIMER AVEC SON CORPS

Jean JOUQUAN Bureau de pédagogie médicale Faculté de médecine et des sciences de la santé

La Simulation et l’enseignement des Soins infirmiers : l’Apprentissage du geste

Régulation acido-basique du point de vue des poumons et des reins

Mécanisme et Infrastructure de l’enseignement

Marie-Joëlle Poitras-Pariseau Marie-Claude Laferrière Conseillères en documentation

Prévention du cancer du col de l’utérus: cytologie, VACCIN

Services Web

L’entrée dans l’apprentissage de l’écrit : d ifficultés et troubles.

Évolution depuis 1995

Apprentissage Artificiel mise en perspective d’un demi-siècle d’évolution

L’entrée l’apprentissage de l’écrit

NOMBRES ENTIERS ET DECIMAUX

Les différentes théories de l’apprentissage

Aider des élèves à apprendre

Soutenance de thèse de doctorat