1 / 25

Outils et ressources linguistiques pour l’alignement de textes bilingues français-vietnamiens

Outils et ressources linguistiques pour l’alignement de textes bilingues français-vietnamiens. NGUYỄN Thị Minh Huyền Séminaire d’équipe Langue et Dialogue La Bresse, 27 – 29 Mars 2002. Contenu. Problématique Environnement de travail Alignement multilingue Réflexion. Problématique.

charisse
Télécharger la présentation

Outils et ressources linguistiques pour l’alignement de textes bilingues français-vietnamiens

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Outils et ressources linguistiques pour l’alignement de textes bilingues français-vietnamiens NGUYỄN Thị Minh Huyền Séminaire d’équipe Langue et Dialogue La Bresse, 27 – 29 Mars 2002

  2. Contenu • Problématique • Environnement de travail • Alignement multilingue • Réflexion

  3. Problématique • Objectifs • Ressources linguistiques • Outils pour le TAL • Spécificités du vietnamien

  4. Objectifs • Créer et gérer des ressources linguistiques • Traiter le vietnamien : comprendre les textes • Lexique • Syntaxe • Sémantique • Aligner des corpus bilingues français-vietnamiens

  5. Ressources linguistiques • Collection • Corpus bilingues français-vietnamien • documents littéraires, juridiques, techniques • Lexiques monolingues • Dictionnaires bilingues • Construction • Lexiques bilingues français-vietnamien • Codage : normalisation (ISO TC37/SC4)

  6. Outils de TAL • Annotation phonétique • Annotation grammaticale (lexicale, syntaxique) • Annotation sémantique • Annotation multilingue

  7. Spécificités du vietnamien • Le vietnamien parmi les autres langues • Groupe Viet-Muong, branche Mon-Khmer, famille Austro-Asiatique • Caractéristiques : isolante, monosyllabique, tonique • Hypothèse historique (A.G. Haudricourt) : • Origine : ~ Mon-Khmer, non tonique • Échanges culturels : ~ Thaï, tonique • Influence chinoise : écriture idéographique, vocabulaire • Impact colonial : écriture latine, vocabulaire, grammaire

  8. Spécificités du vietnamien • Unité de la langue • Syllabe  Mot  Phrase • Syllabe : 3 types • ayant un sens, utilisée comme mot • ayant un sens, constituante de mots polysyllabiques (surtout sino-vietnamiens) • pas de sens  pas vraiment monosyllabique  difficulté pour la segmentation en mots

  9. Spécificités du vietnamien • Mot : une ou plusieurs syllabes • Mot redoublé, mot composé • Phrase • sujet + prédicat • ordre de mots important (S-V-O) • composition de phrase souple (mot-outil absent) • Phénomène : Redoubler mots, expressions

  10. Spécificités du vietnamien • Catégories lexicales • nom, pronom, verbe, adjectif, conjonction, mot complément, mot introductif, interjection • une classe d’articles riche (parmi les noms) • ông già ~ le vieux, bà già ~ la vieille • thơ ~ poème, poésie; un poème ~ mộtbài thơ • système de pronoms compliqué Nó nghe bà ấy kể người ta đồn cô ấy nói lão ta nghi chị ấy nói ông ấy kể … Il/Elle entendre elle raconter on faire courir un bruit elle dire il douter elle dire il raconter

  11. Spécificités du vietnamien • Catégories lexicales (suite) • mutation grammaticale fréquente • cày ~ charrue, labourer, être labouré • Anh viết thư này rất hay ~ Tu écrire lettre ce très bien • Thư nàyviếtrất hay ~ Lettre ce écrire très bien • Anh ấy (đã) cho tôi quyển sách này~ Il avoir donné moi livre ce • Anh ấy (đã) gửi quyển sách này cho tôi~ Il avoir envoyé livre ce à moi

  12. Spécificités du vietnamien • Structure syntaxique • Phrase = sujet + prédicat • Mot  Syntagme  Phrase • Syntagme : • Groupe nominal (NP) • Groupe verbal (VP) • Groupe adjectival (AP) • Groupe prépositionnel (PP) • composition de syntagme : dépend fortement du mot principal

  13. Spécificités du vietnamien • Groupe nominal • NP  (Det1) (Det2) (Det3) N (AP+) (VP+) (PP+) (DP) • Det1 : nom collectif • Det2 : numéral • Det3 : classificateur • DP : pronom démonstratif • Exemple [[Tất cả]DET1 [những]DET2 [cô]DET3 [bán hàng]VP ]NP Tout les (jeune fille) vendre marchandise

  14. Spécificités du vietnamien • Groupe prépositionnel • PP  Prep NP/AP/VP • Prep : conjonction • Groupe adjectival • AP  (J+) A (J/NP/PP/VP/AP+) • J : mot complément • Exemple: [của [cửa hàng [đẹp [nhất]J [(ở) [phố [này]DP]NP]PP]AP]NP]PP de magasin beau le_plus (dans) rue ce

  15. Spécificités du vietnamien • Groupe verbal • VP  (J+) V (PP/NP/VP/AP+) • Exemple: [[đều]J [rất]Jthích [mặc [màu [xanh]AP]NP]VP]VP tous très aimer se vêtir couleur bleu • Phrase • S  NP VP/AP • Exemple [[[Tất cả]DET1 [những]DET2[cô]DET3 [bán hàng]VP [của [cửa hàng [đẹp [nhất]J [phố [này]DP]NP]AP]NP]PP]NP[[đều]J [rất]Jthích [mặc [màu [xanh]AP]NP]VP]VP

  16. Spécificités du vietnamien • Ambiguïté – exemples • Ông già đi nhanh quá! Le vieux aller/marcher vite trop ! Le vieux décéder vite trop ! Vous vieillir vite trop ! • Anh hoạ sĩ vẽcô gái bánhoa hồngđỏ rấtđẹp Le peintre dessiner la fille vendre fleur rose rouge très beau

  17. Environnement de travail • Projet pour le TAL au Vietnam (2001-2003) • Construction de dictionnaires électroniques • Traduction anglais-vietnamien • Fouille de données (corpus textuels) • Représentation de données • Recherche d’information • Étude de spécificités du vietnamien • Alignement multilingue

  18. Alignement multilingue • Phrases : • hypothèses simplificatrices communes : • ordre des phrases identique ou très proche • peu de suppressions ou d’adjonctions dans les textes • alignements 1 : 1 prépondérants • ancrage lexical (distributions similaires, dictionnaire bilingue, cognates) • corrélation des longueurs de phrases • combinaison de ces deux techniques • interrogation documentaire multilingue.

  19. Alignement multilingue • Mots et expressions • deux étapes : • repérer mots et expressions des textes • les mettre en correspondance • Techniques : • méthodes statistiques • approches linguistiques basées sur la reconnaissance de patrons et modèles (patterns, templates) • combinaison des deux

  20. Quelques réflexions • Étiquetage lexical • Analyse syntaxique • Alignement multilingue français-vietnamien

  21. Étiquetage lexical • Segmentation • Plusieurs chemins ? • Répétition d’expressions ? • Noms propres ? • Etiquetage • QTAG • Considérer des catégories lexicales plus fines • catégorie lexicale ~ sémantique ?

  22. Analyse syntaxique • CFG • LFG, HPSG, TAG ? • Structure de trait ?

  23. Alignement multilingue F-V • Au niveau des phrases • Outil développé dans l’équipe L&D • Au niveau des mots • Syntagmes ? • Seuls mots autonomes ? • Plutôt direction français  vietnamien

  24. Les délais … • Etiquetage lexical : mai 2002 • 1er analyseur syntaxique : juillet 2002 • …

  25. MERCI!

More Related