1 / 57

Un dictionnaire multilingue de collocations

Un dictionnaire multilingue de collocations. Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr. Plan. Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus monolingues

dianne
Télécharger la présentation

Un dictionnaire multilingue de collocations

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr

  2. Plan • Le projet "Collocations en contexte" • Les collocations verbo-nominales • Le dictionnaire • L'extraction à partir des corpus monolingues • L'extraction de candidats à partir des corpus multilingues alignés • Evaluation • Conclusion et perspectives

  3. Le projet • objectifs: • le développement d'un système d'extraction semi-automatique de collocations à partir des corpus • paramétrable pour plusieurs langues(français, roumain, allemand) • information contextuelle • Création d'un dictionnaire multilingue des collocations • Une classe spécifique de collocations • projet du réseau "Lexicologie, Terminologie, Traduction", Agence Universitaire pour la Francophonie • Université Marc Bloch de Strasbourg (UdS) • Université de Stuttgart • Académie Roumaine de Bucarest • INSA Strasbourg

  4. Motivation • Collocations • TAL • Traduction • Lexicographie • Apprentissage d'une langue étrangère

  5. Motivation (II) • difficultés • choix lexical • a lua decizii mais make decisions • donner une conférence mais pas tenir une conférence • préferences morpho-syntaxiques • faire l'objet de, porter atteinte • sémantique • sens non-compositionnel: faire la tête, make good any damage • aspect: entamer une disscusion • pragmatique: donner/flanquer + gifle

  6. Contexte • Nombreux travaux sur les collocations • propriétés des collocations (Grossmann et Tutin, 2003) • dictionnaires monolingues ou bilingues • Dico (Polguère 2000, Mel'čuk & al, 1994), LAF (Polguère, 2006) • BLF (Verlinde et al., 2003) • Dictionnaire combinatoire (Zinglé 2003) • Dictionnaire français-allemand (Blumenthal 2007) • Dictionnaire danois (Braasch et Olsen 2000) • DiCE (Alonso Ramos, 2003) • systèmes d'extraction automatique • Statistiques (Quasthoff, 1998) • Linguistiques (Seretan et al 2004, Seretan 2009, Tutin 2004) • Hybrides (Smadja, 1991, Krenn 2000, Heid 1998)

  7. Collocations et contextes • Approche contextualiste (Halliday, 1985, Williams, 2003) • Expressions poly-lexicales, semi-figées, parfois discontinues, ayant un comportement morpho-syntaxique et sémantique propre, imprévisible • Lua o decizie/prendre une décisionmais pas*a face o decizie/*faire une décision • Faire une conférencemais pas*tenir une conférence • pour s'en convaincreest une cooccurrence fréquente de il suffit de • Trois points de vue (Gledhill, 2007): • cooccurence • construction • expression

  8. Méthodologie • une méthode d'extraction appliquée pour l'allemand (Heid&Ritz 2005, Ritz&Heid 2006) • Les collocations sont caracterisées par le contexte • Propriétés morpho-syntaxiques • L'identification des propriétés à partir des corpus de grande taille (français, allemand, roumain) • corpus monolingues • corpus multilingues

  9. Méthodologie (II) • Méthodes d'extraction • Monolingue • Module statistique + filtres linguistiques • Approche symbolique (allemand) • Multilingue • corpus alignés • Validation manuelle des candidats • Sélection des informations linguistiques pour le dictionnaire

  10. Les corpus • Corpus multilingue, aligné: AcquisCommunautaire (ACQ) • Documents communs pour les langues étudiées (16 millions mots/langue) : français, allemand, roumain, anglais • Étiquetage + lemmatization • TreeTagger (Schmid, 1994) pour le français, l'allemand et l'anglais • Flemm (Namer, 1994) pour un étiquetage plus fin • TTL (Ion, 2007) pour le roumain • Alignement propositionnnel et lexical (partiel) • Corpus spécialisé • Corpus monolingues (journaux, textes littéraires, manuels d'utilisation)

  11. Plan • Le projet "Collocations en contexte" • Les collocations verbo-nominales • Le dictionnaire • L'extraction à partir des corpus monolingues • L'extraction de candidats à partir des corpus multilingues alignés • Evaluation • Conclusion et perspectives

  12. Les constructions Verbe-Nom • Une analyse linguistique sur trois niveaux (Gledhill, 2007) inspirée par le modèle (Halliday 1985): • Structure lexico-grammaticale • propriétés spécifiques au verbe et au nom (Giry-Schneider 1987, Kearns 1989, Allerton 2002) • Fonction syntaxique • Rôle sémantique

  13. Propriétés du verbe • (Gledhill, 2007) • V1 (Equivalence). • faire du travail = travailler, mais faire froid n'est synonyme à refroidir • A face obiectul/'faire l'objet' = ?obiecta/'faire des objections' • V2 (Valence). Les constructions VN comportent des complements directs ou indirects • Guvernul nu face faţă situaţiei /’Le gouvernement n'est gère pas la situation’ • Pierre fait peur à Jean • V3 (Passivation) • Un résumé de ton livre a été fait par Jean mais pas ??La fuite a été prise

  14. Propriétés spécifiques au nom • N1(détermination). Le déterminant est absent ou fixe • prendre la fuite mais pas ?prendre une fuite • a face apel/'faire appel' (le déterminant est absent) • N2 (clivage). Le nom d'une VN ne peut pas servir du focus dans une structure clivée (fr) • C’est la caisse qu’il a prise mais pas ?C’est la fuite qu’il a prise • N3 (expansion). Le nom ne peut pas étre modifié par une clause relative • A luat decizia care era necesară /’ Il a pris la décision qui était nécessaire’, mais *A făcut obiectul care era necesar / ‘a fait l’objet qui s’imposait’ • N4 (conversion). La nominalisation du V n'est pas toujours possible • A luat măsuri/'il a pris des mesures' = luarea măsurilor/'la prise de mesures' • Il a fait l'hypothèse mais non *son fait de l'hypothèse

  15. Quelques propriétés morpho-syntaxiques • Figement morpho-syntaxique partiel • Propriétés du nom: nombre, genre, cas • Propriétés du verbe: diathèse, temps • La commission a fait appelaux experts… (fr) • Absence du déterminant • Complément indirect: préference pour 'à' • Préférence pour le singulier • Statele membre fac faţăsituaţiei…/ 'Les états membres font face à la situation…' (ro) • l'absence du déterminant • préférence pour le singulier • Complément indirect : préference pour le datif

  16. Constructions Verbe-Nom (II) • Les classes (Todirascu et Gledhill, 2008) • Prédicateur complexe (1) • construction Verbe+Nom qui joue le rôle de prédicat • Ex. faire l'objet, a ţine cont/'tenir compte', Gebrauch machen/'faire usage de…' • Figement morpho-syntaxique élévé • Complément de portée • Prédicat+complément (2) • Ex. prendre des mesures/a lua măsuri/Maβnahmen ergreifen • Variabilité morpho-syntaxique (modifieurs, passif/actif) • compositionalité

  17. Structure lexicale Prédicat complex vs. prédicateur complexe (Gledhill 2007) le nom d'un prédicat complexe peut être passivisé Paul fait un gateau/ Le gâteau a été fait par Paul. S P C Agent Process Range - le nom d'un predicateur complexe ne peut pas être passivisé El şi-a luat zborul/*Zborul a fost luat 'il lui a pris vol-DET/Vol-DET a été pris' S P C Ben Process Range le complément du prédicateur complexe peut être relativisé we had a lookat the screenshots... the screenshots which we had a look at were interesting.

  18. Propriétés sémantiques • Le procès est exprimé par la phrase: • Les participants: agent, affecté, bénéficiaire etc; • Les non-participants: portée, temps, instrument, place… • La portée: les éléments qui précisent le procès (Halliday & Matthiessen 2004) • Jean fait un gateau. • Agent(Acteur) Procès Matériel Médium(Affecté) • Jean fait une remarque. • Médium(Annonceur)Procès Mental(Communicatif) Portée • L’examen fait peur aux étudiants. • Phénomène Procès Mental Portée Médium

  19. Collocatifs du verbe 'a face'/faire

  20. Collocatifs du verbe 'faire'

  21. D'autres classes • Simples co-occurences V-N (prédicat+complément) • Nom+verbe au participe • articolul adoptat/ l’article adopté • Sujet+prédicat • Le présent article ne vise que le commerce et la distribution des produits toxiques conditionnés qui sont destinés • Prédicat+complément circonstanciel • La référence à cette norme figure en annexe.

  22. Plan • Le projet "Collocations en contexte" • Les collocations verbo-nominales • Le dictionnaire • L'extraction à partir des corpus monolingues • L'extraction de candidats à partir des corpus multilingues alignés • Evaluation • Conclusion et perspectives

  23. Quels objectifs? • Production de textes • Compréhension de textes • Utilisations possibles • Systèmes TAL (analyse et génération) • Aide à la traduction • Apprentissage d'une langue etrangère

  24. Quels fonctions? • rechercher les collocations dans une langue • par la base • par le collocatif • recherche par l'ensemble des élements • recherches des exemples d'utilisation • recherches multilingues • retrouver les equivalents de traduction • les propriétés morpho-syntaxiques spécifiques

  25. Quelques propriétés • Les lemmes du nom et du verbe • les propriétés contextuelles : • Les propriétés du nom (détermination, nombre, cas…) • Les propriétés du verbe (actif/passif, temps, mode,…) • Les informations collocationnels • prépositions • la valence • les propriétés des arguments (le cas, le nombre de ces arguments) • exemples

  26. Quels candidats? • Tri manuel des listes fournies par une extraction automatique • candidats identifiés à partir des corpus monolingues • équivalents de traduction obtenus dans les 3 langues • obtenus à partir des corpus alignés • Entrées trilingues • classes: prédicats et prédicateurs complexes

  27. Plan • Le projet "Collocations en contexte" • Les collocations verbo-nominales • Le dictionnaire • L'extraction à partir des corpus monolingues • L'extraction de candidats à partir des corpus multilingues alignés • Evaluation • Conclusion et perspectives

  28. L'extraction à partir des corpus monolingues • Module statistique - détection des paires de mots non adjacents (Stefanescu et al, 2006): • indépendant de langue • liste de candidats Verbe+Nom triée par LL et leurs contextes • Filtrage à base de patrons morpho-syntaxiques • Exclusion manuelle des certains classes (Todirascu et Gledhill 2008) • Prédicat+Sujet • Prédicat+Complément Circonstaciel

  29. avea vedere dist=2 LL=108759.176 -------------------------------------------------- având/vg/avea în/s/în vedere/nsrn/vedere 17786 avut/vp/avea în/s/în vedere/nsrn/vedere 130 aibă/v3/avea în/s/în vedere/nsrn/vedere 128 avea/vn/avea în/s/în vedere/nsrn/vedere 51 au/va3p/avea în/s/în vedere/nsrn/vedere 41 au/v3/avea în/s/în vedere/nsrn/vedere 31 având/vg/avea in/nsn/in vedere/nsrn/vedere 11 avea/v3/avea în/s/în vedere/nsrn/vedere 6 aibă/v3/avea o/tsr/un vedere/nsrn/vedere 4 avea/vn/avea o/tsr/un vedere/nsrn/vedere 1 • propriétés morpho-syntaxiques invariables • fréquences des propriétés: sg (100%), prep (în 97%), • déterminant (null 99%, indéfini 1%)

  30. contenir référence dist=2 LL=4658.77015127078 666 -------------------------------------------- contiennent/Vmip3p/contenir une/da3sf/un référence/Ncfs/référence 642 contenir/Vmn/contenir une/da3sf/un référence/Ncfs/référence 4 contiennent/Vmip3p/contenir une/da3sf/un référence/Ncfs/référence 4 contient/Vmip3s/contenir une/da3sf/un référence/Ncfs/référence 4 contient/Vmip3s/contenir des/Sp+p/du/ références/Ncfp/référence 3 contienne/Vmsp3s/contenir une/da3sf/un référence/Ncfs/référence 2 contient/Vmip3s/contenir/ les/da3p-/le références/Ncfp/référence 2 • Variabilité morpho-syntaxique • fréquences des propriétés: sg (98%), pl (2%), prep (null), • déterminant (défini 1%, indéfini 99 %)

  31. Filtrage (I) • Prédicateur complexe • Utiliser les contextes et les propriétés morpho-syntaxiques • Exemple de filtres (ro): • «VNSRY *{1,3} NxOY» • NSRY = substantif défini (sg), accusatif/nominatif; • NxOY = substantif défini, génitif/datif; • {1,3} = entre 1 et 3 mots entre le complément direct et indirect • 98,8% des contextes • Exemples: a menţine părerea/'maintenir son opinion', aface dovada/'faire preuve de‘;

  32. Filtrage (II) • Prédicat+complément • Préférences pour une propriété (cas, nombre): plus de 85% • Testes: filtres pour le passif (fr): • « Det:art Nom {2,3}* Ver:pperpar» • Nom = substantif, accusatif/nominatif; • Det:art = article défini, sg ou pl; • {2,3} = entre 1 et 3 mots entre le nom et le verbe • Exemples: prendre des mesures,donner un avis, faire des commentaires ;

  33. Plan • Le projet "Collocations en contexte" • Les collocations verbo-nominales • Le dictionnaire • L'extraction à partir des corpus monolingues • L'extraction de candidats à partir des corpus multilingues alignés • Evaluation • Conclusion et perspectives

  34. L'extraction multilingue (I) • Corpus alignés (ACQ): fr, de, en, ro (Ceausu et al, 2006) • au niveau propositionnel • Alignements bilingues: de-en, fr-en, ro-en • 64352 phrases alignés 1-1 • Alignement lexical partiel • Anglais: langue pivot • Corpus étiquétés et lemmatisés, en format XCES

  35. Exemple • <s num="980" lang="fr">3. Un état membre concerné peut demander à la Commission d' examiner, dans un délai de deux mois après qu' un transporteur aérien a informé le coordonnateur de son intention de faire usage de la souplesse prévue à l' article 8 paragraphe 4 , si les dispositions du présent article sont respectées.</s> • <s num="980" lang="en">3. A Member State concerned may request the Commission to investigate the application of this Article within two months of an air carrier informing the coordinator of its intention to use the flexibility provided for in Article?8 ( 4 ).</s> • <s num="980" lang="ro">( 3 ) Un stat membru interesat poate solicita Comisiei să analizeze , în decurs de două luni de la data la care transportatorul aerian a informat coordonatorul cu privire la intenţia sa de a face uz de flexibilitatea prevăzută în art. 8 alin. ( 4 ) , dacă se respectă dispoziţiile prezentului articol.</s>

  36. L'extraction multilingue (II) • les outils d'alignement lexical: • COWAL (Tufis et al, 2006) pour l'alignement ro-en • Règles héuristiques • mots contenus • étiquettes • entités nommées • position • GIZA++ (Och et Ney, 2003) pour l'alignement des corpus de-en et fr-en • Transfer des alignements lexicaux (Tufis et Koeva, 2007) : fr-ro, ro-fr, fr-de, de-fr, ro-de, de-ro • Extraction des listes d'équivalents de traduction pour chaque paire de langues (l'outil ColTrans): ro-fr, fr-ro

  37. L'alignement lexical (I) • Validation manuelle de l'alignement à l'aide de l'éditeur MtKit (Tufis et al, 2006) • un corpus de 1000 phrases pour les corpus fr-en, de-en, ro-en; • Phrases de longueur et structure variables (20 a 100 mots); • Methodologie d'alignement inspiré par le projet Blinker (Melamed, 2000) • annotation des classes ouvertes (N, Adj, V,...); • bonne couverture des mots grammaticaux • unités polylexicales

  38. Erreurs d'alignement • Problèmes linguistiques • Termes du domaine • Structures syntaxiques différentes • <s num="750" lang="fr">tous droits d' importation pour les réactifs pour la détermination des groupes tissulaires • <s num="750" lang="ro">orice drepturi de import a reactivilor utilizaţi pentru determinarea grupelor tisulare • Ordre de constituents • <s num=996>l' Observatoire doit réparer , conformément aux principes généraux communs aux droits des états membres , les dommages…</s> • <s num=996>în concordanţă cu principiile generale comune legislaţiilor statelor membre , Centrul trebuie să compenseze orice pierdere provocată

  39. Erreurs d'alignement (II) • Liens multiples • Groupe verbal: infinitif (fr) traduit par un subjonctif (ro) • exercer | să recurgă • Groupe nominal : le determinant défini est un suffixe rajouté au nom (en roumain) • la Comission | Comisiei • Aggregats (préposition+déterminant) • aux prescriptions | dispoziţiile • collocations • préposition non aligné • la Commission n'a pas pris de mesures raisonnables • Comisia nu a luat măsurile necesare

  40. Extraction de candidats • l'outil ColTrans • les lemmes (verbe et nom) • la direction de recherche fr->ro, ro->fr • le corpus aligné au niveau lexical • résultats croisés • erreurs d'alignement • erreurs d'étiquetage

  41. Plan • Le projet "Collocations en contexte" • Les collocations verbo-nominales • Le dictionnaire • L'extraction à partir des corpus monolingues • L'extraction de candidats à partir des corpus multilingues alignés • Evaluation • Conclusion et perspectives

  42. Résultats de l'extraction • évaluation sur 1000 phrases • malgré les filtres, beaucoup de candidats qui sont des simples co-occurences (prédicat+complément direct, prédicat+circonstanciel) • fr • environ 38% de candidats éliminés par filtrage • ro • 36,7% candidats éliminés par filtrage

  43. Résultats de l'extraction (II) • évaluer sur l'ensemble du corpus • les premiers 1000 noms les plus fréquents dans l'Acquis (fr,ro) • extraire les verbes qui co-occurent • beaucoup de noms spécifiques au domaine (fr,ro) • comission/comisie, article/articol, paragraphe/paragraf, directive/directivă • pas beaucoup de candidats de la classe 1 ou 2 • quelques noms • fr • lieu (avoir, donner), vigueur (entrer, mettre), compte (prendre, tenir) • ro • parte (face) vigoare (intra) et măsură (lua, anula) 

  44. Prédicateurs complexes (ro)

  45. Prédicateurs complexes (fr)

  46. Résultats Les 10 classes de constructions et coocurrences V-N et leurs répartition sur les 1000 premiers candidats

  47. Extraction d'équivalents (I) • Extraire les listes d'équivalents de traduction (études des alignements fr-ro, ro-fr): • Prédicateurs complexes traduits par des prédicateurs complexes dans la langue source • fait/Vmip3s/faire l'/Da3ms/le objet/Nc-s--/objet=face/Vmip3s/face obiectul/Ncmsry/obiect • dă/Vmip3s/da naştere/Ncfsrn/naştere= donnerait/Vmic3s/donner lieu/Ncms--/lieu • Prédicats+compléments équivalents dans les deux langues • émis/Vmps-sm/émettre un/Da-ms/un avis/Nc-s--/avis=emis/Vmp--sm/emite avizul/Ncmsry/aviz

  48. Extraction d'équivalents (II) • Prédicateur complexe traduit par un verbe ou un nom • a/Vaip3s/avea reparat/Vmps-sm/repara pagubele/Ncmp--/pagubă=a/Vaip3s/avoir dédommagé/Vmps-sm/dedommager • donnent/Vmip3p/donner lieu/Nc-s--/lieu =generează/Vmip3s/genera • aducă/Vmsp3/aduce atingere/Ncfsrn/atingere=préjudice/Nc-s--/préjudice

  49. Extraction d’équivalents (III) • Entrées multiples • Plusieurs équivalents • A face referire = faire référence à, faire mention, définir, mentionner • plusieurs sens • dă/Vmip3s/da naştere/Ncfsrn/naştere = donner lieu • Conflits, débats, interventions • dă/Vmip3s/da naştere/Ncfsrn/naştere=accoucher

More Related