Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues Patrick Paroubek Laboratoire pour la Mécanique et les Sciences de l’Ingénieur Centre National de la Recherche Scientifique Patrick Paroubek / Limsi-CNRS

Le paradigme d’évaluation • Contrastes Historiques Europe / États-Unis • Le traitement de l’écrit • Annoter (Kappa) & Aligner (Prog. Dyn.) &Évaluer (Précision/Rappel) • Morphosyntaxe • Syntaxe • Remarque sur l’évaluation des systèmes de dialogue

1. Le paradigme d’évaluation

Évaluation : subst fém. Action d’évaluer, d’apprécier la valeur (d’un chose); technique, méthode d’estimation. [TLFI] L’évaluation est "une formalisation" d’un processus de sélection naturelle. L’évaluation est inhérente au processus scientifique. Trouver une réponse (optimale) à un problème. Comment comparer les réponses ? L’évaluation nécessite l’adoption d’un système de valeurs.

Qu’évalue t’on ? (identifier la frontière du système et la tâche effectuée par le système) • Évalue t’on un système ou un couple système-utilisateur ? • Par rapport à quel système de valeurs ? • Par rapport à quel objectif ? (réponse apportée par l’évaluation). Rem. L’évaluation n’est pas une compétition (compétition = qui ? , évalution = comment ?)

L’évaluation fait peur (sélection/compétition). Le rapport ALPAC 1966 a engendré un arrêt des financements aux USA pour la Traduction Automatiquependant 20 ans. Mais ce qui est dangereux n’est pas l’évaluation, mais la manière dont on utilise ses résultats. Par ex. une lecture abusive du livre de Minsky & Papert (Perceptrons) a retardé l’avènement des réseaux de neurones multi-couches d’une dizaine d’années. Maghi King, « When is the next ALPAC report due? », 10th International Conferenceon Computational Linguistics, Proceedings of Coling84, July 1984, Stanford University, Ca (ACL 1984); p 352-353. http://ourworld.compuserve.com/homepages/WJHutchins/Alpac.htm

Les campagnes d’évaluations sont un accélérateur duprocessus scientifique: ressources, outils, standards, infrastructure, synergie. LDC (http ://www.ldc.upenn.edu) aux USA et ELRA/ELDA en Europe (http ://www.elra.org ou www.elda.info) Objectif : créer, maintenir, distribuer, partager des ressourceslinguistiques. LDC = Linguistic Data Consortium, consortium ouvert de laboartoires de recherche, univsertités, industriels et agences gouvernementales, fondé en 1992 (ARPA et NSF), hébergé à l’Université Pennsylvania.

ELRA association à buts non lucratifs (loi 1901), basée au Luxembourg, fondée en février 1995. ELDA, S.A. fondée en février 1995, instrument exécutif d’ELRA. Financement Européen initial, puis auto-financement. Objectif: pérenniser/partager les ressources produites par les projets Européens, ainsi que produire de nouvelles ressources. Impact de l’évaluation : Ex. Progrès en reconnaissance de Parole grace aux évaluationsDARPA aux USA qui ont amené la technologie sur le marché.

Compétition: 1 critère, ordre total, pas d’audit de performance, pas de reproductibilité Validation : plusieurs critères, ordre partiel, seuil de performance, réponse oui/non, reproductibilité Évaluation: plusieurs critères, ordre partiel, audit de performance, reproductibilité.

ELSE distingue : 5 types d’évaluations: ELSE: http: //www.limsi.fr/TLP/ELSE

Évaluation en recherche de base, pour valider des idées nouvelles et quantifier leur apport, • Évaluation de technologie, mesure de la performance etde l’adéquation de méthodes pour résoudre un problèmebien défini, simplifié et abstrait, • Évaluation orientée utilisateur, utilisabilité d’une technologie pour résoudre un problème de terrain,en conditions réelles d’utilisation, • Évaluation d’impact, conséquences socio-économiquedu déploiement d’une technologie, • Évaluation de programme, évaluation d’impact destechnologies supportées par un programme institutionnel.

« extrinsic » / « intrinsic » evaluation criteria, Intrinsèque = critère lié uniquement à la fonction propre du système Extrinsèque = critère lié à la fonction du système, considérée dans son environnement de déploiement usuel. Karen Spark-Jones & Julia R. Galliers, « Evaluating Natural Language Processing Systems »,Springer, 1995.

EAGLES distingue 3 types d’évaluation: • « adequacy » evaluation, adéquation d’un systèmepour une fonction donnée • « diagnostic » evaluation, identification des raisonsde dysfonctionnement • « progress » evaluation, mesure des progrès en performance EAGLES : http: //www.issco.unige.ch/projects/ewg96/ewg96.html(evalutation of NLP systems : final report, )

Qualitative (morpholympics) Quantitative (NIST/DARPA, Technolangue-EVALDA) Comparative (NIST/DARPA, Technolangue-EVALDA) Boîte « noire » (NIST/DARPA, Technolangue-EVALDA) Boîte « blanche » (DISC) Subjective (morpholympics)Objective (NIST/DARPA, Technolangue-EVALDA)

Le paradigmed’évaluation (Joseph Mariani) Assembler des acteurs (évaluateurs, participants, producteurs de ressources) Organiser une campagne d’évaluation sur de données communes Définir une mesure de performance commune Joseph Mariani, Patrick Paroubek, "Human Language Technologies Evaluation in the European Framework", actes de l'atelier DARPA Broadcast News Workshop, Whashington, February 1999, Morgan Kaufman Publishers, ISBN-1-55860-638-6, pp 237-242

Une infrastructure pour l ’évaluation en ingéniérie • linguistique : • Comparative & Collaborative • Tâche/Application Indépendente • Semi-Automatique & Reproduisible • Boîte Noire + Conférence • Quantitative • Multilingue • Oral & écrit

Actors in the infrastructure European Commission ELRA Evaluators Participants (EU / non EU) L. R. Producers Research Industry Citizens Users & Customers

Attentes: • Renforcement de l’utilisation des standards • Des informations et des connaissances sur les applications et les technologies disponibles de meilleur qualité et plus abondantes • Des produits et des ressources de meilleurs qualité • Un accroissement de la quantité de ressources linguistiques annotées et validées

Structure d’une campagne • Phase 1 - Développement (distribution calibrage / données d’entrainement) • Phase 2 - Essais + première Adjudication (+ Conférence/Atelier) • Phase 3 - Tests + seconde Adjudication + Conférence/Atelier • Phase 4 - Valorisation (distribution des données produites et des résultats) • Phase 4 - Étude d ’Impact

La tâche de contrôle • La fonction de traitement du language doit être facile a comprendre • Elle peut être réalisée manuellement • Il peut s’agir d’une tâche « artificielle » • Il existe un formalisme commun, facilement accessible (projection/transcodage aisé) • Il est « facile » de définir une mesure de performance

2. Contrastes Historiques Europe / États-Unis

Contexte international • États-Unis • Campagnes d ’évaluation NIST - DARPA • Depuis 1987, ouvertes en 1992 • Ecrit / Oral • Production / distribution des ressources (LDC) • Organisation des campagnes (NIST) • Traitement du Langage Parlé • Dictée Vocale (RM, WSJ, NAB) • Compréhension de la langue parlée (ATIS) • Transcription infos radio/télédiffusées (BN) • Reconnaissance de conversations (switchboard) • Reconnaissance du locuteur • Reconnaissance de la langue parlée

Contexte international • États-Unis • Traitement du Langage Écrit • Recherche d’Informations Textuelles (TREC) • Compréhension de Messages (MUC) • Traduction Automatique • Traitement du Langage Écrit + Parlé • Extraction d’Entités Nommées (dans BN) • Détection et Suivi de Thèmes (TDT) (dans BN) • Reconnaissance de caractères etc...

Évaluation aux USA (Parole) • CSR (DARPA) read & found english, 89-97 • LVCSR conversationel, multilingue • ATIS (DARPA) • DARPA/NSF en 1998 (multilingue): • Extraction d ’entité nommées • Détection et suivit de thèmes • Transcription de nouvelles • COMMUNICATOR

Évaluation (USA) COMMUNICATOR dialogue oral pour la réservation de transport, l’hébergement et planification d’itinéraire TIDES extraction d’information interlingue, traduction et résumé automatique Traitement Automatique des Langues et Industrie de la Langue Patrick Paroubek / Limsi-CNRS

Évaluation (USA) AQUAINT (Defense Ministry) programme de l’ ARDA, extraction d'information étendue en amont et en aval sur des données multimodales, pour incorporer des connaissances à des données factuelles du types de celles manipulées dans les évaluations TREC ITR (NSF) recherche en technologie de l'information) Traitement Automatique des Langues et Industrie de la Langue Patrick Paroubek / Limsi-CNRS

Évaluation (USA) SYMPHONY (DARPA) suite de COMMUNICATOR et dont les objectifs sont : la reconnaissance de la parole robuste en milieu bruité, le compte rendu automatique de réunion, la fusion de données multimodales, l'interprète automatique, les interfaces homme-machine dialogiques, la traduction automatique (déjà présente dans le programme TIDES), et l'exploitation rapide et automatique de langues nouvelles Traitement Automatique des Langues et Industrie de la Langue Patrick Paroubek / Limsi-CNRS

Évaluation aux USA (écrit) • Tipster program (DARPA & NIST) • MUC-1 (1987) to MUC-7 (1998) • MET-1 (1995) and MET-2 (1998) • TREC-1 (1992) to TREC-7 (1998) • SUMMAC • MT Evaluation (1992, 1993, 1994)

Évaluation (USA) Les directions de recherche favorisées par le DARPA: les technologies robustes à large couverture,les technologie de base largement réutilisables, la multilingualité, le partage des données ( LDC)les corpus arborés (U. Penn) les évaluation comparatives supportées par des métriques quantitatives, les expériences d'intégration et de faisabilitéL’objectif à plus long terme étant la compréhension du langage Traitement Automatique des Langues et Industrie de la Langue Patrick Paroubek / Limsi-CNRS

Contexte international • Japon, National Institute of Informatics(http ://www.nii.ac.jp) • Research Center for Information Ressources (test collection for IR systems) • Research Center for Testbeds and Prototyping(scholarly information retrieval) • Cocosda / Oriental Cocosda(International Committee for the Coordination andStandardisation of Speech Databases and Assesment Techniques) • Conférences : • HLT workshop 02, 03, 04, 06 • LREC conference 98, 00, 02, 04, 06 • LangTech conference 02, 03,

EAGLES TSNLP DIET TEMAA SQALE SPARKLE DISC MATE COCOSDA SAM & SAM-A Morpholympics Actions de recherche concerté de l’AUPELF GRACE (CNRS) VerbMobil Évaluation en Europe

Pilot Senseval/ Romanseval • Task: Word Sense Disambiguating (Senseval/English) • 20 nouns, 20 adjectives and 20 verbs • Romanseval, same task in French & Italian. • 8 month (December 1997 - September 1998) • 35 teams interested / 21 systems evaluated • Senseval: FR, USA, IT, UK, CH, KO, MA, CA, SP, NL • Romanseval: FR, IT, CH • Budget :61 KEuros(English) • Data, hardware and computing for free. • Evaluatees not funded.

SQALE Project • Duration 1993 to 1995. • Evaluation of 3 different ASR • 3 languages + 1 common (Fr., Germ., UK Eng. + US Eng.) • TNO-IZF (NL), Philips (D), U. Cambridge (UK), Limsi-CNRS (F) • Task: dictation of newspaper texts • Result: If a system is better on the common language than another system, it will also be better on its own language. • Comparison with human performance was studied.

DISC Project • Reference methodology for SLDS development. • Best practice development and evaluation (existing components & procedures) • Results: Guidelines and Heuristics • 2 Guiding principles: Grid Aspects of SLDS components and Development Lifecycle of SLDS • 7 Participants: NIS (DK), LIMSI (F), IMS (D), KTH (S), Vocalis (UK), D-Benz (D), ELSNET (NL) • Duration: 1 year (1998) • Follow-up: DISC-2 (January 1999) information update, packaging, access and usability

DISC Project

EAGLES Evaluation WG • EAGLES was launched in 1993 • Aim: standards for NLP technology (including evaluation) • Eval. working group started from ISO 9126 (software) • User-oriented methodology (consumer report paradigm) • for adequacy evaluation or progress evaluation • Formalism (based on feature structures) for classifying products and users. • Case studies on: spelling checkers (LRE-TEMAA), grammar checkers and translators’ aids. • Follow-up: EAGLES-II (1995-1998), consolidate, extend and disseminate EAGLES results.

ELSE Project • Evaluation in Language and SpeechEngineering • 8 partners: MIP (DK), LIMSI (FR), DFKI (D), U. Pisa (I), EPFL (CH), XRCE (FR), U. Sheffiel (UK), CECOJI (FR)+ ELSNET & ELRA • Duration: January 1998 - April 1999. Budget: 414 KECU • Draw a blueprint for an evaluation infrastructure (IST Key Actions of FP5 ?) • Evaluation Paradigm: contrastive quantitative Technology Evaluation.

Actors in the infrastructure European Commission ELRA Evaluators Participants (EU / non EU) L. R. Producers Research Industry Citizens Users & Customers

Évaluation (Europe) • COCOSDA • SAM & SAM-A • Morpholympics • Actions de recherche concerté de l ’AUPELF • GRACE (CNRS) • VerbMobil • ELSE • EAGLES • TSNLP • DIET • TEMAA • SQALE • SPARKLE • DISC • MATE Traitement Automatique des Langues et Industrie de la Langue Patrick Paroubek / Limsi-CNRS

Évaluation (Europe) • CLASS EvaluationURL: http: //www.limsi.fr/TLP/CLASS • Disponibles sur le site : Actes de LREC2000 CLASS atelier satellite sur l’évaluation. • Actes de EACL 2OO1, Toulouse, atelier « Evaluation for Language & Dialog Systems » • Présentations du Bullet Course on the paradigm of Evaluation in Speech and Language, Juillet, Paris 02 et 032001. Traitement Automatique des Langues et Industrie de la Langue Patrick Paroubek / Limsi-CNRS

Évaluation (Europe) CLEF: recherche d’information interlingue SENSEVAL: désambiguïsation sémantique SMARTKOM: nouveau projet allemand. TCSTAR technologie pourinterprète automatique ECOM (ELRA) évaluation Traitement Automatique des Langues et Industrie de la Langue Patrick Paroubek / Limsi-CNRS

FRANCIL Program Created : June 1994 Coordinator:J. Mariani, F. Néel Networking (70 laboratories, 9 countries) Training Collaborative Research Actions (ARP) Strategic Research Actions (ARC) Budget: 4 Meuro / 4 years - 2 Meuro ARC

ARC Use of the evaluation paradigm for accompanying research : Infrastructure for evaluation (protocols, metrics, organization...) Language Resources for systems development and evaluation Discussion of the advantages and disadvantages of different approaches based on objective evaluation conducted on common data Written and spoken language

ARC ILEC (Written Language) Language Resources for written French language and system evaluation: A1 (Amaryllis): Natural Language Access to textual information A2 (Arcade): (Bi/Multi)lingual (French-English) corpus alignment A3: Automated terminological database design A4: Text understanding

ARC ILOR (Spoken language) • Language Resources for spoken French language and system evaluation B1: Voice Dictation (large vocabulary recognition) B2: Vocal Dialog B3: Text-to-Speech synthesis

ARC: Calendar & Budget • Call for proposals in July 1994, selection in November 1994 of 50 proposals (34 labs) out of 89 proposals. • 2 evaluation campaigns of a two year time span (1996-1997 and 1998-1999) • Total budget (6 ARCs) = 2 Meuros ( 4 years) 167 Keuros / campaign / control task (1 evaluator, ~ 7 evaluatees, 3 different countries)

CNRS CCIIL GRACE Action • Control Task: POS tagging for French. • Corpora: Train.= 10 Mw, D.R.= 450Kw, T.= 650 Kw • Call for tenders November 1995. Training January 1996. • Dry run October 1996. Workshop (JST April 1997). • Tests December 1997. Workshop in May 1998. • First results disclosed on the WEB in November 1998. • 18+3 participants, 5 countries (CA, USA, D, CH, FR). • Budget 800 Keuros • Byproducts: eval. results, com. prod., 1 Mw valid. corpus

TechnoLangue TECHNOLANGUE Programme d’infrastructure en soutien à la R&D, la R&Drestant dans les RRIT et le programme spécifique« Veille » RNRT RNTL RIAM VSE

Patrick Paroubek / Limsi-CNRS