Thierry Chanier , Université Blaise Pascal

Corpus-écrits GT7, nouv-com https://groupes.renater.fr/wiki/corpus-ecrits-nouvcom/ Expériences d'élaboration des corpus de référence du hollandais et de l'allemand. Projet de noyau de corpus CMC en français Thierry Chanier, Université Blaise Pascal 2ème journées : Corpus de référence du français 28-29 mars 2013, Paris

1 Merci à Alexander Geyken(BBAW) et Lothar Lemnitzer (Berlin-Brandebourg) Corpus en allemand DWDSDigitales Wörterbuch der deutschenSprache

Principaux projets corpus en allemand Allemand des 20 et 21 ème Allemand 1650-1900

Objectif DWDS Noyau • Construire un dictionnaire rendant • compte des usages de l’allemand moderne • à partir d’un corpus équilibré d’écrits- 60% électronique- 40% papier au départ • Métadonnées pour tous les documents

DWDS-E étendu • Mais statistiques lexicales montrent qu’il faut des tailles supérieures pour analyser certains phénomènes (collocations, etc.) • Corpus étendu de type opportuniste • Base importante à partir de journaux et de l’Internet (pb droits plus facile à régler) • Tous les corpus DWDS et DTA, ainsi que les dictionnaires sont structurés en TEI/P5

Planification du projet DWDS Dico DWDS basé sur dico WDG (1961-75) Wörterbuch der deutschen Gegenwartssprache

AvH BBAW Patrons et ressources Akademienunion Financé par “Akademienunion » sur 18 ans

DWDS noyau : tâches principales Accès : voir infra -TAGH : morpho composé -STTS : POS - GermaNet : sém.

www.dwds.de : un site en accès libre

Par décennies et genres Les corpus 71% des textes en accès libre dans DWDS noyau

Statistiques en accès libres faites sur ensemble corpus On voit plus de textes après identification

2 Merci à NellekeOostdijk (RadboudUniversityNijmegen) STEVIN Nederlandstalig Referentiecorpus Corpus de référence en hollandais, SoNaR

Objectifs • Construire un corpus de référence de du hollandais et du flamand moderne (post 1954) de grande taille (500 M tokens) qui puissent servir à la fois à des analyses linguistiques et au développement de technologies du langage. • Inclure dès le début des écrits provenant des médias traditionnels et de l’Internet • Auparavant corpus oral de 9 M tokens (transcript + audio), collecte entre 1998 et2003

Une grande variété initialement prévue

Du prévu à la réalité prévu réalisé Flamand NC Holland. Phase 1

Du prévu à la réalité • Question de droits : grande variété, chronophage • Grande variété de formats, délaisser formats trop complexes (PDF) • Approche opportuniste avec Internet • Collectes faciles (Tweets, forum, clav) ou difficile (SMS) • Droits difficiles (Sites, blogues) ou libres (licences CC ou GPL) • Maintenir équilibre global, collecter plus que ce qui sera intégré dans corpus référence

D’abord un corpus pilote

SoNaR: organisation Chercheurs Industrie Éval extérieure Qualité Annotations sémantiques Constitution corpus

Développement: collaboration nationale

Diagramme de flux

Ressources financières

Ressources financières + 1 ETP par université pour tâche A et temps partiels des autres pour début Budget ne comprend pas les missions internes, ni conf.

3 Salut s que <NOM_4> c dcd à ht 1 dvd pr sa cop ki e pa la 2main? Projet de corpus CMC en français SMS / textos Tweets Blogues Forums Clavardage Etc.

Rappel objectifs projet 2013-14 • Créer un noyau (pas encore le corpus de référence !) de corpus CMC en français • Ensembles de conversations intervenant sur la Toile et les réseaux • Couvrir variété de systèmes de communication synchrone ou asynchrone, mono ou multimodaux (éventuellement) : blogues, tweets, SMS / textos, courriels , clavardage, forums, etc.

Rappel objectifs projet 2013-14 • Le faire suivant standard (TEI, CLARIN, OLAC?) • Diffuser en accès libre ce corpus en 2014 sur Ortolang • Travailler en partenarait avec Europe (projet consortium TEI, DARIAH) • Intégrer ce noyau au « Corpus de référence du français »

Macrostructure discursive (Beißwenger et al., 2012)

Macro et microstructure

Audio Clavardage Multimodalité (LETEC corpus Archi21 : archi21-slrefl-av-j2)

sms brut sms anonymisé sms transcodé sms annoté Salut s que <NOM_4> c dcd à ht 1 dvd pr sa cop ki e pa la 2main? Salut s que 2nis c dcd à ht 1 dvd pr sa cop ki e pa la 2main? anonymisation transcodage Salut est-ce que <NOM_4> s'est décidé à acheter 1 dvd pour sa copine qui est pas là demain? Salut <MOD_s_que> est-ce que <NOM_4> <MOD_c> s'est <MOD_dcd> décidé à <MOD_ht> acheter 1 <TYP_dvd> DVD <MOD_pr> pour sa <MOD_cop> copine <MOD_ki> qui <ABS_ne> <MOD_e> est <MOD_pa> pas <TYP_la> là <MOD_2main> demain <TYP_espace_avant_?_manquante> ? annotation

Variability (orthographique) can only in part be explained in terms of errors, as a great deal of variation is intentional is a research topic in itself complicates research as it hinders the processing of the data by means of standard tools (tokenizers, POS taggers and lemmatizers, parsers, NE recognizers, etc.) Han & Baldwin (2012: 368):“We found Twitter data to have an unsurprisingly long tail of OOV words, suggesting that conventional supervised learning will not perform well due to data sparsity. Additionally, many ill-formed words are ambiguous, and require context to disambiguate.” Workshop on Building Corpora of Computer-Mediated Communication — Dortmund 14-15 February 2013 8

Expérience TAL dans notre groupe

Groupes de travail du projet 2013 Droits, Amont : accept V0 Aval : accept V1 métadonnées Relations Ortolang corpus-écrits Prépa V1 TEI Tweets, wikipedia Nelles acquisitions Structuration méta Linda Ingénieur (Corpus-écrits + Ortolang)

Flux de traitements Dépôts individuels GT traitements GT Validation V0 Clermont ingénieur

Projet TEI-CMC européen

1) Modelling CMC in TEI: • briefoverviewof essential requirementsconcerningtherepresentationof CMC fromtheperspectiveofthefourprojects [8 min], • selectedaspectsfromtheDeRiK-TEI schemareviewedfromtheperspectiveofthefourprojects (suggestedfocus: elementposting, usermodelling, interactionsigns) [15 min], • problemsketches: (a) hypertextstructures/“linkeddata“ (cf. topicalfocusoftheconference), (b) multimodal CMC [5 minseach]. • 2) Challengesandperspectives in mappingfeaturesof computer-mediatedcommunicationtoelements in TEI-P5 • 3) Metadataforcmcdocuments: challenges & suggestions

Participants a u projet Groupe GT7, corpus-écrits • Achille Falaise, LIG, Grenoble • Benoît Sagot, Alpage, INRIA , Univ. P7 • Béatrice Turpin, CRTF, Univ. de Cergy • Céline Poudat, UMR LDI, Univ. Paris 13 • CiaraWigham, LRL, Univ. Blaise Pascal • FiammettaNamer, ATILF, Nancy • Georges Antoniadis, LIDILEM, Univ Grenoble 3 • GeorgetaCislaru, CLESTHIA, Univ. Paris 3 • GudrunLedegen , PREFics, Univ. de Rennes 2 • Julien Longhi, CRTF, Univ. de Cergy • Mahé Ben Hamed, UMR BCL, Nice • Natalia Grabar, UMR STL, CNRS Univ. Lille 3 • Paloque-Berges, Camille, DICEN, CNAM • Rachel Panckhurst, UMR Praxiling, CNRS Univ. Montpellier 3 • Thierry Chanier, LRL, Univ. Blaise Pascal • TitaKyriacopoulou, LIGM, Univ. Marne-la-Vallée • Virginie Zampa, LIDILEM, Univ Grenoble 3 • Linda Hriba , corpus-écrits • Paul Lotin, ingénieur, LRL • Ingénieur à recruter (6 mois/ETP, sur fonds Ortolang et corpus-écrits)

Pour nous suivre Corpus-écrits GT7, nouv-com https://groupes.renater.fr/wiki/corpus-ecrits-nouvcom/

Thierry Chanier , Université Blaise Pascal

Thierry Chanier , Université Blaise Pascal

Presentation Transcript

La communication dans la maladie d’Alzheimer

GEOLOGIE GENERALE

Problèmes d’ordonnancement dans les systèmes de production Michel Gourgand Université Blaise Pascal – Clermont Ferrand L

A számítógép története

OPACITE ET MASSE INTRA-THORACIQUE Orientation diagnostique Michel PANUEL / Pascal THOMAS

SEMINAIRE Procédures de reddition du compte de gestion de l’Etat

Desligue o Telemóvel

Solene Vigília Pascal

Economie Politique

Introduction à la Communication Non Violente ( CNV )

城市公共交通的先驱 — 无轨马车 B.Pascal 于 1662 年在巴黎首创无轨公共马车 ——“ 5 毛钱的马车 ” ，有固定的路线和班次，城市公共交通从此诞生。

ITIL, LES FONDAMENTAUX

EMPIRICAL INVESTIGATIONS OF ANAPHORA AND SALIENCE

SOLENIDADE DA SANTÍSSIMA TRINDADE SANTÍSSIMA TRINDADE, SÍNTESE DO MISTÉRIO PASCAL

Πληροφοριακά Συστήματα: Μοντελοποίηση με UML

UNIVERSIT À DELLA CALABRIA Dipartimento di Fisica MASTER “FERDOS”

Thierry Karsenti Sophie Goyer Université de Montréal

Learn Pascal

SEXTA-FEIRA DA PAIXÃO DO SENHOR PÁSCOA DA CRUZ: O CORDEIRO PASCAL É IMOLADO

Practice

Rene Descartes, Pierre Fermat and Blaise Pascal

Blaise Pascal 1623 - 1662