1 / 13

Projet des corpus écrits des langues manding  : le bambara, le maninka

Projet des corpus écrits des langues manding  : le bambara, le maninka. Valentin Vydrin INALCO – LLACAN (CNRS, UMR-8135). L’aire mandingue. Quelques informations sur le mandingue. Nombre de locuteurs (L1 + L2): jusqu’à 40 millions.

tillie
Télécharger la présentation

Projet des corpus écrits des langues manding  : le bambara, le maninka

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Projet des corpus écrits des langues manding : le bambara, le maninka ValentinVydrin INALCO – LLACAN (CNRS, UMR-8135)

  2. L’aire mandingue

  3. Quelques informations sur le mandingue • Nombre de locuteurs (L1 + L2): jusqu’à 40 millions. • 4 variétés les plus importantes sociolinguistiquement: le bambara (Mali); le maninka (Guinée + Liberia, Sierra Leone); le dioula (Côte d’Ivoire, Burkina Faso); le mandinka (Gambie, Sénégal, Guinée Bissau). • Plusieurs variétés « secondaires »: khassonka, mahou, konya, manya, marke-dafing, bolong, etc. • Une « guerre des écritures »: latine, adjami, N’ko.

  4. Quelques caractéristiques linguistiques • langues isolantes, très peu de morphologie flexionnelle; • langues tonales, des nombreuses règles de modifications tonales contextuelles, un article tonal (les tons ne sont pas normalement notés dans les transcriptions latines; les réalisations tonales sont notées dans le N’ko).

  5. L’historique du projet « Corpus mandingue »: • 2009: le démarrage • avril 2012 : le Corpus Bambara de Référence est affiché à l’Internet (1 mln. de mots) • février 2014: le Corpus Maninkade Référence est en ligne (3 mln. de mots, 90% en N’ko) • mai 2014: le Corpus Bambara de Référence a atteint 1 770 000 mots, dont 290 000 mots dans le sous-corpus désambiguïsé.

  6. Les logiciels Daba (KirillMaslinsky) • le métaediteur (une interface graphique pour l’introduction des métadonnées); • l’analyseur morphologique; • le désambiguïsateur (une interface graphique pour la désambiguïsation semi-automatique); • les convertisseurs (l’ancienne orthographe  la nouvelle orthographe; le N’ko  l’orthographelatine) sontintégrésdansl’analyseurmorphologique.

  7. Dictionnaires: • Bamadaba (BamanaDataBase), dérivé du dictionnaire de Charles Bailleul (sérieusement modifié), en évolution permanente; • dictionnaires auxiliaires: prénoms humains; noms claniques; toponymes; «encyclopédique» • Malidaba, un dictionnaire maninka-français dérivé de la première version du corpus maninka.

  8. Caractéristiques du CBR • Un premier grand corpus d’une langue subsaharienne à l’accès libre. • Un corpus balancé: tous les genres écrits y sont représentés (journaux, prose, poésie, épopées, contes populaires, textes religieux, littérature fonctionnelle, documents juridiques…). • Un corpus annoté morphologiquement à plusieurs niveaux (POS, gloses françaises).

  9. Le processus de l’intégration des textes dans le CBR • (une faible présence du bambara à l’Internet) • 1) la saisie manuelle double suivie du collationnement • 2) l’introduction de l’information métatextuelle • 3) l’analyse morphologique automatique • 4) l’intégration des textes dans le sous-corpus non-désambiguïsé, ou: • 5) désambiguïsation sémi-automatique • 6) intégration dans le sous-corpus désambiguïsé.

  10. Le Corpus Maninka: • une grande activité sur l’Internet; • la disponibilité des textes électroniques en N’ko; • le retardement en ce qui concerne l’outillage (le dictionnaire, les données métatextuelles, l’élaboration du site).

  11. Le site du Corpus Bambara de Référence • (à voir sur l’Internet)

  12. Les outils sur la base du CBR • le correcteur d’orthographe bambara: commencé par AndrijRovenchak, continué par Jean Jacques Méric; • le logiciel pour l’OCR des textes bambara, par J.J.Méric

  13. L’utilisation du CBR dans l’enseignement du bambara • préparation des matériaux didactique pour l’enseignement du bambara; • désambiguïsation des textes par les étudiants; • études ponctuelles sur les sujets grammaticaux, orthographiques et sémantiques par les étudiants.

More Related