1 / 46

Centre de Recherche Scientifique et Technique pour le Développement de la Langue Arabe

CITALA 2009. Centre de Recherche Scientifique et Technique pour le Développement de la Langue Arabe C.R.S.T.D.L.A. THEME. Vers un système d’extraction d’informations pour les textes de la presse arabophone en ligne ArIExtract. ACHIT Abdelmadjid aachit@yahoo.com

arnold
Télécharger la présentation

Centre de Recherche Scientifique et Technique pour le Développement de la Langue Arabe

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. CITALA 2009 Centre de Recherche Scientifique et Technique pour le Développement de la Langue Arabe C.R.S.T.D.L.A THEME Vers un système d’extraction d’informations pour les textes de la presse arabophone en ligne ArIExtract ACHIT Abdelmadjid aachit@yahoo.com Division Informatique Linguistique, CRSTDLA Dr AZZOUNE Hamid azzoune@yahoo.fr Département d’Informatique, USTHB 3ème Conférence Internationale sur le Traitement Automatique de la Langue Arabe CITALA2009 4 – 5 Mais 2009, Rabat, Maroc

  2. CITALA 2009 • Plan • Introduction • Présentation de l’extraction d’informations • Conception du système ArIExtract • Problèmes rencontrés dans le cas des textes arabes • Conclusion

  3. CITALA 2009 Introduction

  4. CITALA 2009 Une femme à la tête de Yahoo par Myriam Berber Article publié le 14/01/2009 Dernière mise à jour le 15/01/2009 à 15:38 TU L’ancienne PDG de l’éditeur américain de logiciels Autodesk Carol Bartz a été désignée, mercredi 14 janvier 2009, à la tête du groupe internet Yahoo en remplacement de Jerry Yang. Carol Bartz prend les rênes d’une entreprise en difficulté face au géant Google. Les spécialistes estiment que cette nomination va relancer les discussions avortées avec Microsoft. etc

  5. CITALA 2009 Une femme à la tête de Yahoo par Myriam Berber Article publié le 14/01/2009 Dernière mise à jour le 15/01/2009 à 15:38 TU L’ancienne PDG de l’éditeur américain de logiciels Autodesk Carol Bartz a été désignée, mercredi 14 janvier 2009, à la tête du groupe internet Yahoo en remplacement de Jerry Yang. Carol Bartz prend les rênes d’une entreprise en difficulté face au géant Google. Les spécialistes estiment que cette nomination va relancer les discussions avortées avec Microsoft. etc

  6. CITALA 2009 Formulaire - Nomination Titre: Une femme à la tête de Yahoo Source: site web de RFI Date: 14/01/2009 Date de Dernière mise à jour:15/01/2009 Horaire: 15:38 Auteur: Myriam Berber Événement / Fait: Nomination Responsable / cadre: Carol Bartz Ancien poste: PDG Ancienne organisation : l’éditeur américain de logiciels Autodesk Nouveau poste: PDG Nouvelle organisation: groupe internet Yahoo En remplacement de: Jerry Yang Date Nomination: mercredi 14 janvier 2009

  7. CITALA 2009 chiffre d'affaires de Michelin en net recul LEMONDE.FR avec AFP | 28.04.09 | 19h16 Le groupe français de pneumatiques Michelin a annoncé, mardi 28 avril, une baisse de 14,2 % de son chiffre d'affaires au premier trimestre par rapport à la même période de 2008, à 3,512 milliards d'euros. Cette baisse traduit un recul des volumes de ventes de 24,4 %, lié à la chute des marchés de pneumatiques, atténué par l'amélioration moyenne du prix des produits vendus, explique Michelin dans un communiqué.

  8. CITALA 2009 Formulaire – communiqué d’entreprise – Chiffre d’affaires CA Groupe / Entreprise: Michelin Nationalité: Française Domaine : pneumatiques Date annonce: mardi 28 avril Tendance du CA: en baisse Période: premier trimestre 2009 Par rapport à la période: premier trimestre 2008 Tendance - Valeur (%): 14,2 % Montant CA: 3,512 milliards d'euros …etc

  9. CITALA 2009 رئيس الجمهورية جلال طالباني يلتقي الرئيس الامريكي باراك اوباما 07 April, 2009 11:51:00 التقى رئيس الجمهورية جلال طالباني في احد القصور ضمن مجمع الفاو ببغداد، مساء أمس الثلاثاء رئيس الولايات المتحدة الامريكية باراك اوباما و الوفد المرافق له. ….

  10. استخراج المعلومات CITALA 2009 استمارة - لقاء سياسي الجريدة: الفيحاء االموقع: www.alfayhaa.tv/alfayhaa-newspaper/ الكاتب:/ التاريخالمقال: April 07, 2009 الحدث: لقاء الشخص 1: جلال طالباني الوظيفة: رئيس الجمهورية الشخص 2: باراك اوباما الوظيفة: رئيس الولايات المتحدة الامريكية التاريخ: مساء أمس الثلاثاء المكان: احد القصور ضمن مجمع الفاو ببغداد

  11. CITALA 2009 رابطة أبطال أوروبا مانشستر وأرسنال في أول معركة أوروبية يلتقي فريقا مانشستر يونايتد و الإنجليزيان، سهرة اليوم، في مباراة ذهاب الدور نصف النهائي لمنافسة رابطة أبطال أوروبا، على ملعب ''أولد ترافورد'' ……بمانشستر

  12. استمارة - مبارة رياضية الجريدة: الخبر الموقع: www.elkhabar.com الكاتب: / التاريخ: 29/04/2009 الحدث: اعلان عن مبارة الرياضة: كرة القدم المنافسة: رابطة أبطال أوروبا الفريق1: مانشستر يونايتد البلاد: انجليزي الفريق2:أرسنال البلاد: انجليزي الفائز: / النتيجة:/ مسجلو الأهداف للفريق1: / مسجلو الأهداف للفريق2: / التاريخ: سهرة اليوم الملعب: أولد ترافورد المدينة: مانسشتر CITALA 2009

  13. CITALA 2009 Présentation de l’extraction d’informations

  14. Définition CITALA 2009 [Cowie J. et Wilks Y. ,(2000) ]définissent l’extraction d’informations comme étant la structuration et la combinaison sélective de données issues d’un ou plusieurs documents textuels. Pour leur part [Gaizauskas R. and Wilks Y., 1998], ils définissentl’extraction d’information comme une activité qui consiste à remplir une source de données structurées (base de données) à partir d’une source de données non structurées (texte libre). Selon [Soderland S., Lehnert W., 1994], un système d’extraction d’informations est un système qui produit une représentation de l’information textuelle pertinente dans un domaine particulier pour une application particulière. Les conférences MUC définissent la tâche d’extraction d’informations comme la tâche consistant à extraire des informations spécifiques et bien définies à partir de textes écrits en langue naturelle dans des domaines restreints, avec l'objectif spécifique de remplir automatiquement des formulaires prédéfinis ou des bases de données. L’extraction d’information est un processus automatique permettant d’extraire des informations pertinentes et précises à partir de documents non structurés ou semi structurés en langage naturel et permet leur sauvegarde sous une forme structurée du type formulaire ou base de données.

  15. Documents textuels structurés Système d’extraction d’informations Documents textuels non structurés BD Processus d’Extraction d’informations CITALA 2009

  16. - Conférences - Ateliers  (Workshops) - Campagnes d’évaluation / benchmarking Manifestations scientifiques CITALA 2009 Bref Historique La réflexion sur les systèmes d’extraction d’informations fut entamée dès les années 1950, par les travaux de certains linguistes. Par la suite, de nombreuses implantations ont été réalisées, nous pouvons citer celle réalisé à l'université de New York au travers du Linguistic String Project [20], dont le but était de remplir des formulaires à partir de textes médicaux (rapports de radiologie).

  17. Message Conference Understanding NTCIR (NII Test Collection for IR Systems) workshop CITALA 2009 Language-Independent Named Entity Recognition at Computational Natural Language Learning (CoNLL) workshops Automatic Content Extraction (ACE) Document understanding Conference Information Retrieval and Extraction Exercise Text Analysis Conference the Multilingual Entity Task Conference (MET), TIPSTER Text project PASCAL Challenge for Evaluating Machine Learning for Information Extraction Question Answering at Cross Language Evaluation Forum CLEF International Conference on Language Resources and Evaluation Question Answering at The Text REtrieval Conference TREC

  18. Les conférences MUC CITALA 2009 MUC 1 Analyse des rapports d'opérations tactiques navales [5] 1987 MUC 2 Idem que MUC 1 [5] 1989 Analyse des textes journalistiques traitant du terrorisme en Amérique Latine, afin d’extraire des dépêches d’agence de presse le maximum d’informations sur des actes terroristes comme le nom de groupes terroristes impliqués, le nom des victimes, les types d’armes utilisées, les dates et les lieux…[15 ]. MUC 3 1991 MUC 4 Idem que MUC 3 [16]. 1992 MUC 5 Traitement d’un corpus de nature économique (fusion, rachat, et création d’entreprises internationales et la fabrication de circuits électroniques). [ 17] 1993 MUC 6 C’est une suite de MUC 5: ont traité les changements de dirigeants à la tête des entreprises. [18 ] 1995 MUC 7 Analyse de textes journalistiques rapportant des crashs d’avion et de tirs de missiles. [ 19]. 1998

  19. systèmes Q/R systèmes de IR Résumé automatique Domaine d’applications de l’EI Traduction automatique Veille scientifique et technique Extraction de terminologies CITALA 2009 Domaine d’applications

  20. CITALA 2009 Structuration en sous tâches de l’extraction d’informations Identification / reconnaissance des entités nommées Extraction des relations entres les entités nommées Extraction des événements Résolution des coréférences Déduplication Désambiguïsation Inférence Fusion

  21. Conférences MUC 6 & 7 - Named entity recognition (NE) - Coreference Resolution (CO) - Template Element construction (TE) - Scenario Template production (ST) - Template Relation construction (TR)

  22. CITALA 2009 Tâche de l’Identification des entités nommées Identification des entités nommées Identification des expressions numériques Identification des noms … Identification des expressions temporelles personnes Lieux Personnages fictifs Entreprises collectifs

  23. Expressions temporelles Date Durée Période Age Heure Expressions numériques Montant financier Longueur Acteurs collectifs Lieux Volume Organisation Ville Vitesse Entreprise Pays Poids Institution Continent Température Filiale Océans Pourcentage Agence Mers U.Physiques CITALA 2009 Entités nommées Acteurs Acteurs individuels

  24. CITALA 2009 Exemple: Une femme à la tête de Yahoo par Myriam Berber Article publié le 14/01/2009 Dernière mise à jour le 15/01/2009 à 15:38 TU L’ancienne PDG de l’éditeur américain de logiciels AutodeskCarol Bartz a été désignée, mercredi 14 janvier 2009, à la tête du groupe internet Yahoo en remplacement de Jerry Yang. Carol Bartz prend les rênes d’une entreprise en difficulté face au géant Google. Les spécialistes estiment que cette nomination va relancer les discussions avortées avec Microsoft. etc personnes Expressions temporelles Expressions de locations entreprises

  25. CITALA 2009 Extraction des relations entre les entités nommées • Détermination de patrons / schémas/ formules linguistiques caractéristiques de relations lexicales (étude linguistique basée sur l’acquisition de marqueurs de relations liées à certaines notions/ concepts). • - Étude de la distribution de contextes autour des entités  (étude statistique); Le Président de la république, Mr Bouteflika a reçu, hier, à la présidence, son homologue le Président tunisien Mr BenAli. Actant 1 : Mr Bouteflika Fonction : Président de la république Actant 2 : Mr Ben Ali Fonction: Président Type action : Rencontre Lieu : Présidence Temps / Date : hier ……

  26. Approches et méthodes d’extraction d’informations CITALA 2009 • A base de règles contextuelles écrites à la main • Elles exploitent des informations morphosyntaxiques et lexicales. Ainsi, elles utilisent des marqueurs lexicaux (ex. Mr pour Monsieur,.. ), des dictionnaires de noms propres et des dictionnaires de la langue générale. • - Le développement de ces règles par des experts est long et coûteux • - La méthode de l’exploration contextuelle en est un exemple. • Langue arabe: • A titre d’exdemple, le travail de [Shaalan, 2007] qui a porté sur la conception d’un système de reconnaissance des entités nommées arabes de type noms de personnes PERA basé sur l’utilisation de règles sous forme d’expressions régulières, …etc. Il s’agit d’une approche basée sur les techniques d’apprentissage automatique. Elle utilise un modèle de langage entraîné sur de larges corpus de textes pré-étiquetés… ce qui est long et coûteux. Langue arabe: les travaux qui ont porté sur l’utilisation des supports vecteurs machines SVM pour la reconnaissance des entités nommées arabes. Egalement, il y’a eu des travaux qui ont porté sur l’utilisation des Modèles de Markov Cachés MMC ainsi que de la méthode de l’entropie maximale [Benajiba &al., 2007] [Benajiba &al., 2008]. Plus récemment sont apparues des approches hybrides tirant parti des avantages respectifs des méthodes linguistique et probabiliste. Dans les systèmes de ce type, un ensemble de règles est généralement appris automatiquement puis révisé par un expert. Ou l’autre cas de figure, l’élaboration de règles est faite par un expert puis il y’a extension automatique de la couverture de ces règles.

  27. Quelques difficultés rencontrées dans l’extraction d’informations CITALA 2009 • 1. La langue naturelle est flexible. Il y a toujours plusieurs façons d’exprimer la même idée ; • 2. La langue naturelle est ambiguë. Une phrase peut être interprétée de différentes manières ; • 3. La langue naturelle est dynamique. Elle évolue constamment ; • 4. Multilinguisme; • 5. Style de textes: textes journalistiques, textes d’un email (absence de règles et de style rédactionnel) • 6. L’information peut s’étendre sur plusieurs phrases; • 7. Complexité du processus d’EI du fait des différentes tâches : • - Identification des entités nommées ; • - Recherche des relations entre entités ; • - Résolution des coréférences ; • - etc. • 8. Évaluation difficile; • 9. Données : quantité croissante, non standardisées et de types différents; • 10. Limites de l’état de l’art des systèmes d’EI. ; • 11. Difficulté de conception de systèmes d’EI. génériques ; • 12. Peu de systèmes d’E.I. commercialisés ; • 13. Trop peu d’interdisciplinarité (non informaticiens et informaticiens).

  28. CITALA 2009 Conception du système

  29. CITALA 2009 Nos choix : Qui? Qui? a rencontré

  30. CITALA 2009 Présentation de la méthode d’exploration contextuelle Origine: méthode issue des travaux de recherches effectuées par l’équipe LaLICC ( ) dirigée par le Prof. DESCLES Elle a fait l’objet de plusieurs implémentations, notamment le résumé automatique, le filtrage d'informations selon différents points de vue, etc. Fondements 1. Elle est basée sur une analyse linguistique (analyse exploratoire du contexte), permettant le repérage des entités nommées (acteurs, lieux, temps,…) ainsi que la mise en relation des acteurs avec leur environnement dans l'espace et le temps au moyen d'indices déclencheurs, d’indices complémentaires et de règles qui les combinent; 2. Elle a une portée sémantique et ne se base pas sur une représentation profonde du texte mais sur une identification automatique de marqueurs linguistiques pertinents pour une tâche donnée; 3. Les indices déclencheurs sont retenus en fonction d’objectifs précis. Ils sont identifiés par une analyse exploratoire du contexte qui permet aussi d’identifier d’autres indices linguistiques (dits indices complémentaires) eux aussi jugés pertinents pour la tâche traitée; 4. Utilisation des règles d’Exploration Contextuelle, combinant les indices identifiés pour attribuer des étiquettes sémantiques aux segments textuels considérés (phrases, paragraphes, etc.).

  31. 1. Spécification de l’espace de recherche E:= Créer espace(PhraseParent de l’indicateur principal) ; 2. Spécification des listes des indicateurs et des indices complémentaires Li := liste de verbes / adjectif/ … 3. Conditions Concerne les contraintes d’agencements et d’ordonnancement des marqueurs ainsi que des indices complémentaires dans l’espace de recherche considéré. 4. Actions Attribuer une étiquette au segment textuel considéré (la phrase) ou déclencher une tâche. CITALA 2009 Spécification littéraire d’une règle d’exploration contextuelle Exemple: Si nous sommes en présence d’une annotation <pays> ou <region> ou <ville> etc. Et si elle est précédée d’une préposition de lieu de la classe PrepLieu(en, dans, à, …) OU d’un marqueur de localisation (verbe de localisation) de la classe VStatIntrodLoc: (occuper, recourvrir, border, entourer, barrer, …) ou VdynIntroduitLoc : (quitter, atteindre, envahir, traverser, évacuer, …) Alors nous sommes en présence d’une localisation<lieu> Sinon Le reste des entités nommées de type pays, region, ville etc. seront annotés par défaut <Actantcollectif>

  32. CITALA 2009 Extraction des entités nommées et des relations Reconnaissance des entités nommées EN arabes  La catégorisation d’entités nommées retenue pour la conception de notre système est la suivante: 1. acteurs ou actants (agent de l’action ou cible de l’action) : - particulier / individuel (personnes) ou - collectifs (entreprise, organisme, institution, …) 2. information de localisation (lieu géographique): villes, régions, pays, continents, etc. 3. information temporelle : dates, durée, période, horaire, etc. 4. information numérique : mesure, monétaire ou pourcentage, etc. Dans notre étude, nous nous sommes inspiré de la catégorisation des EN de la conférence MUC 7, mais aussi, d’autres études.

  33. Quelques étiquettes sémantiques attribuées aux ENs identifiées CITALA 2009

  34. CITALA 2009 Reconnaissance des entités nommées de type actant Identification basée sur la structure interne de l’entité nommée ainsi que sur l’analyse du contexte Reconnaissance des actants particuliers Un acteur particulier est une personne qui est caractérisé par son nom propre (محمد، عبد الله) et sa fonction (رئيس، وزير ، ...), son titre (السيد، الدكتور، العاهل، الملك، ...) qui pourrait aussi avoir une classe d’appartenance : nationalité (جزائري، مغربي، تونسي، ...), religion (مسلم، مسيحيـي، يهودي، ...). etc. De ce fait, la reconnaissance et l’annotation des acteurs particuliers (personnes et ses attributs), nécessitent : 1. des ressources: - un ensemble d’expressions régulières décrivant des entités selon leurs structures internes - un lexique sous forme de dictionnaires et de classes d’indices: classe de fonctions sociales, classe d’appartenance (nationalité, religion, ...), etc. 2. un ensemble de règles lexico sémantiques: pour l’annotation finale de l’acteur. Ces règles sont indépendantes du domaine d’application. - عبد الله - أبوعلي - أم مروان - ابن بطوطة - طارق بن زياد - عبد المؤمن بن علي - سلمان الفارسي الخ...... Noms propres arabes:

  35. Cas de reconnaissance d’un actant particulier أكد، أمس، وزير الطاقة والمناجم الجزائري السيد شكيب خليل أن مجموعة سوناطراك تحضر حاليا لإنشاء بنك لتمويل مشاريعها الاستثمارية المستقبلية، أكد، أمس، <FS>وزير الطاقة و المناجم<Nat></FS>الجزائري<Titre> </Nat>السيد<NP></Titre>شكيب خليل</NP> أن مجموعة سوناطراك تحضر حاليا لإنشاء بنك لتمويل مشاريعها الاستثمارية المستقبلية،... Règle : <Det>? <FS><Nat><Ponct>?<Titre>? <NomP> -----> <ActP> أكد، أمس<FS> <ActP> وزير الطاقة و المناجم<Nat></FS>الجزائري<Titre> </Nat>السيد<NP></Titre>شكيب خليل</ActP> </NP> أن مجموعة سوناطراك تحضر حاليا لإنشاء بنك لتمويل مشاريعها الاستثمارية المستقبلية،... CITALA 2009 Exemple :

  36. أكد، أمس، وزير الطاقة والمناجم الجزائري السيد شكيب خليل أن مجموعة سوناطراك تحضر حاليا لإنشاء بنك لتمويل مشاريعها الاستثمارية المستقبلية، أكد، أمس، <FS>وزير الطاقة و المناجم<Nat></FS>الجزائري</Nat> <Titre>السيد<NP></Titre>شكيب خليل</NP>أن<TOrg>مجموعة</TOrg><Org>سوناطراك</Org> تحضر حاليا لإنشاء بنك لتمويل مشاريعها الاستثمارية المستقبلية،... Règle : <Det>? <FS><Nat><Ponct>?<Titre>? <NomP> -----> <ActP> <TOrg>? <Org> <Nat>? -----> <ActC> أكد، أمس، <FS>وزير الطاقة و المناجم<Nat></FS>الجزائري</Nat> <Titre>السيد<NP></Titre>شكيب خليل</NP>أن <TOrg><ActC>مجموعة</TOrg><Org>سوناطراك </ActC></Org> تحضر حاليا لإنشاء بنك لتمويل مشاريعها الاستثمارية المستقبلية،... Cas de reconnaissance d’un actant collectif CITALA 2009 Reconnaissance des actants collectifs • Pour la reconnaissance des actants collectifs (noms d’organisation, d’entreprises, filiales, groupes, administration, institution, …) nous exploitons des lexiques et nous faisons appel aux informations concernant la structure interne des entités en question ainsi qu’aux expressions régulières et aux règles dites d’exploration contextuelle. • Exemple :

  37. غدا، بالجزائر ، سينعقد اجتماع لوزراء الخارجية المغاربة. ….. البارحة، زار الأمين العام للأمم المتحدة، بان كي مون غزة CITALA 2009 Reconnaissance des noms de pays comme actants Le cas des noms de pays pose problème. S’agit il d’une localisation ou bien d’un actant collectif. Afin de lever ce problème nous avons eu recours à une règle d’exploration contextuelle: Cas 1 : lieu géographique  Cas 2 : actant collectif قدمت الجزائر طلب الإنضمام إلى المنظمة الدولية للتجارة. Dans notre cas, c’est une règle d’exploration contextuelle qui sera utilisé pour attribuer l’étiquette adéquate en se basant sur le contexte linguistique de l’unité en question. Cette règle sous la forme littéraire, est la suivante: Règle d’Exploration Contextuelle (description): Si l’entité nommée étiqueter par <pays> ou <ville> est précédée par une préposition (ب، إلى، نحو،... ) ou par un verbe du type (وصل، غادر، انتقل، ذهب، زار،مكث، بقي،... ) alors attribuer l’étiquette <Lieu> sinon attribuer l’étiquette <ActantCollectif>

  38. CITALA 2009 Reconnaissance d’entités de type temporelle Dans cette tâche, nous nous intéressons à l’étiquetage des dates, des durées, des différentes expressions temporelles. Cela permettra ultérieurement d’associer une information temporelle à la relation extraite. Pour l’achèvement de cette tâche, nous faisons appel aux expressions régulières ainsi qu’à des règles d’explorations contextuelles. Détection des dates Elles peuvent apparaîtrent sous une : - une forme numériques (1990/01/15,1990-01-15, … ) ; - une forme mixte (15 جانفي 1990) ; -seulement de motsخمسة عشر جانفي ألف و تسعة مئة و تسعون)) - les dates non absolues ("5 مارس","في ماي" ) ; - les dates absolues ("في 05 جويلية 2009") ; Détection des durées - Des durées quelconques ("خلال 3 سنوات") - Des intervalles temporels ("من 06 جوان إلى 15 جويلية") - Des durées absolues("انطلاقا من 05 جويلية") - Des durées relatives au moment d’élocution ("منذ عام") Détection des expressions temporelles - Ce sont des expressions qui regroupent :par exemple : - Des dates relatives, de forme particulière ("في القرن الماضي"،"الأسيوع الفارط"،"في بداية السنة") ;

  39. CITALA 2009 Exemple : تنظم أيام تكنولوجية فرنسية من 29 نوفمبر إلى 1 ديسمبر 2008 بالجزائر، حسبما علمنا لدى وكالة "اوبيفرانس" وهي إحدى الهيئات المبادرة بهذا اللقاء. تنظم أيام تكنولوجية فرنسية من <Nb>29 <Mois></Nb>نوفمبر</Mois> إلى </Nb>1 <Mois></Nb>ديسمبر <Nb></Mois>2008</Nb>بالجزائر، حسبما علمنا لدى وكالة "اوبيفرانس" وهي إحدى الهيئات المبادرة بهذا اللقاء. Règle : <Jour>? <Nb> <Mois> <Nb>? -----------------------> <Date> تنظم أيام تكنولوجية فرنسية من <Nb><Date>29 <Mois></Nb>نوفمبر</Date> </Mois>إلى<Date> <Nb>1 <Mois></Nb>ديسمبر <Nb></Mois>2008 </Date> </Nb> بالجزائر، حسبما علمنا لدى وكالة "اوبيفرانس" وهي إحدى الهيئات المبادرة بهذا اللقاء. Règle : <Det> <Date> <Det> <Date> -----------------------> <Période> تنظم أيام تكنولوجية فرنسية <Nb><Date> <Période>29 <Mois></Nb>نوفمبر</Date></Mois> إلى <Nb><Date>1 <Mois></Nb>ديسمبر <Nb></Mois>2008 </Période ></Date> </Nb> بالجزائر، حسبما علمنا لدى وكالة "اوبيفرانس" وهي إحدى الهيئات المبادرة بهذا اللقاء. Cas de reconnaissance d’expression temporelles

  40. CITALA 2009 Reconnaissance d’entités de type localisation L’annotation de l’information spatiale, implique l’identification des noms de lieux géographiques : village, ville, pays, continent, mer, océan, fleuve, lac, montagnes, désert, plaines, etc. ainsi que toutes les unités linguistiques (noms de localisation, verbes de localisation, adjectif de localisation, adverbes de lieux, etc. ) pouvant marquer et indiquer un nom de lieu ou contribuant à dénoter un nom de lieu. De la même manière, nous utiliserons des expressions régulières ainsi que des règles d’exploration contextuelles pour leur identification. Exemple : سيشهد المعرض المغاربي الأول بالجزائر الذي سيقام من 26 نوفمبر إلى 1 ديسمبر بقصر المعارض مشاركة 267 عارضا من بلدان المنطقة حسبما أشار إليه يوم الأحد مسؤولو الشركة الجزائرية للمعارض والصادرات (سافيكس) المنظمة لهذه التظاهرة. Règle : <préposition> <ville> ---> <Lieu> <préposition> <Loc> ---> <Lieu> سيشهد المعرض المغاربي الأول<prep><Lieu> ب<ville></prep>الجزائر</Lieu></ville> الذي سيقام من12 نوفمبر إلى 1 2 نوفمبر<Lieu><prep>ب <loc> </prep>قصر المعارض</Lieu> </loc> مشاركة 267 عارضا من بلدان المنطقة حسبما أشار إليه يوم الأحد مسؤولو الشركة الجزائرية للمعارض والصادرات (سافيكس) المنظمة لهذه التظاهرة. Cas de reconnaissance d’expression de localisation

  41. ... حصلت الخزينة العمومية على 137 مليار دينار، أي معدل 3 ملايير دج ثمن بيع مؤسسة عمومية واحدة. Règle : Nous aurons à employer généralement pour l’annotation des expressions de mesure, des expressions régulières. ... حصلت الخزينة العمومية على<Nb><ExpMon> 137 <NbL> </Nb>مليار</NbL> <Dev>دينار</ExpMon></Dev>، أي معدل<Nb>< ExpMon > 3</Nb> NbL>ملايير<Dev></NbL>دج</ExpMon></Dev> ثمن بيع مؤسسة عمومية واحدة. Cas de reconnaissance d’une expression de mesure CITALA 2009 • Reconnaissance d’entités de type numérique (EN de mesure ou monétaire) Il peut s’agir soit d’entités de mesure soit d’entités monétaires soit des pourcentages. Un nombre est soit un: - numérique simple : 10 أورو، 15 دولار، 100 مليون دينار، - numérique avec virgule : %5,7 - numérique négatif : -6 % - numérique composé : ألاف دينار 7 Les classes utilisées pour l’identification et l’annotation des informations numériques sont : - unités monétaires (أورو, دينار,دولار ) - unité de mesure (كغ, لتر, متر, كم, …) - de signes relatifs au pourcentage (%) Exemple :

  42. CITALA 2009 Extraction des relations entre les ENs Les règles de repérage de relations entre actants s’appuient sur des segments textuels déjà annotés (<actant>, <Temps>, <Lieu>…). Les règles d’annotation augmentent celles de la précédente étape de deux nouvelles formes: l’une qui prend en compte, dans ses prémisses, des segments textuels déjà annotés et l’autre prenant en charge les notions d’indicateur, d’indices complémentaires et d’espace de recherche selon la méthode de l’exploration contextuelle. Du fait, de la multitude de relations qui peuvent exister entre les entités nommées, nous nous sommes limités aux relations liées à la notion rencontre (scientifique, politique, économique, culturelle, religieuse, etc.). L’objectif étant d’essayer de repérer dans les dépêches de presse, les rencontres de personnes scientifiques, politiques, culturelles apparaissant dans les textes journalistiques et d’essayer d’extraire toutes les informations les décrivant (les personnes qui se sont rencontrées, date, lieu, …). De ce fait, nous tâcherons de recenser les verbes véhiculant cette notion du genre (،تحاور، عقد ، ....لقي).

  43. التقى الرئيس الجزائرى عبد العزيز بوتفليقة، اليوم، الأمين العام لمنظمة الموءتمر الاسلامى أكمل الدين أحسان أوغلو الذى يزور الجزائر حاليا. وبحث الرئيس بوتفليقة مع اوغلو خلال اللقاء نشاطات المنظمة السياسية والاقتصادية والانسانية خاصة بعد قمة داكار الاخيرة التى أقرت ميثاقها. … Cas de reconnaissance d’une relation de Rencontre Annotation des entités nommées <Phrase>التقى<FS><ActP>الرئيس<Nat></FS> الجزائرى<NP></Nat> عبد العزيز بوتفليقة</ActP></NP> ،<ExpT>اليوم <ExpT>،<FS><ActP> الأمين العام</FS> <Org>لمنظمة المؤتمر الإسلامى<NP></Org> أكمل الدين أحسان أوغلو</ActP></NP> الذى يزور<Lieu> الجزائر</Lieu> حاليا.</Phrase> Annotation des relations de type Rencontre <VRenc><RencontreRel><Phrase>التقى<FS><ActP></VRenc> الرئيس<Nat></FS> الجزائرى<NP></Nat> عبد العزيز بوتفليقة</ActP></NP> ،<ExpT>اليوم <ExpT>،<FS><ActP> الأمين العام</FS> <Org>لمنظمة المؤتمر الإسلامى<NP></Org> أكمل الدين أحسان أوغلو</ActP></NP> الذى يزور<Lieu> الجزائر</RencontreRel></Lieu> حاليا.</Phrase> Exemple : CITALA 2009

  44. CITALA 2009 Problèmes rencontrés dans le cas des textes arabes

  45. CITALA 2009 Problèmes rencontrés dans le cas des textes arabes • Forme agglutinante des mots arabes : la langue arabe est une langue agglutinante. En effet, les mots arabes, peuvent être affixés, ce qui fait que des fois il y’a des particule qui colle à certaines entités ce qui ne facilite pas leur détection. • 2. Absence de casse (indice naîf): absence de majuscules et de minuscules, dont la présence faciliter la reconnaissance des entités nommées du type  noms propres par exemple. • 3. Absence de normes d’écritures des noms propres : certains noms propres en langue latines sont retranscris en langue arabe mais sous plusieurs formes, par exemple : Poutine est réécrit en arabe : بوتين، بوتن d’où la difficulté à réunir l’ensemble des formes possibles et d’où la nécessité de normaliser l’écriture des noms propres d’origine non arabe. • 4. Non voyélisation des textes arabes est source d’ambiguïtés. En effet, le mot en arabe « مؤسسة » sans voyelles, peut s’interpréter selon deux sens distinct : • مُؤَسَسَةٌentreprise • مُؤَسِسَةfondatrice • 5. Problèmes de délimitation des entités nommées pour deux raisons : • - mot inconnu : absence d’informations morphologiques (nécessite de disposer d’un analyseur morphologique) • - antonomase : passage du mot de la langue au nom propre • 6. problème de la ponctuation qui n’est pas respectée dans la rédaction des textesarabes.

  46. CITALA 2009 Conclusion

More Related