1 / 70

Les Données Textuelles

Les Données Textuelles. Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples d’utilisation. Exemples de corpus textuels : le British National Corpus PAROLE Français, Le Monde Les corpus étiquetés et analysés

nichole
Télécharger la présentation

Les Données Textuelles

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Les Données Textuelles • Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples d’utilisation. • Exemples de corpus textuels : le British National Corpus • PAROLE Français, Le Monde • Les corpus étiquetés et analysés • - corpus syntaxiques Penn Treebank www.cis.upenn.edu/~treebank • Corfrans www-rali.iro.umontreal.ca/corfrans • NEGRA corpus • -corpus sémantiques Framenet www.icsi.berkeley.edu/~framenet • PropBank

  2. Corpus • Définition : Une collection quelconque de plus d'un texte • Propriétés : représentatif, de taille finie, lisible par une machine • Référence standard • Utilisations : Lexicographie—établir si un verbe est transitif • Utilisations : Développement de grammaire—déterminer la couverture de la grammaire, les erreurs les plus fréquentes.

  3. Corpus Le page suivantes sur l’écahntillonage et l’utilisations des corpus sont tiré des ouvrages Benoît Habert, Adeline Nazarenko, et André Salem, Les linguistiques de corpus, Armand Colin Tony Mc Enery et Andrew Wilson, Corpus Lingusitics, Edinburgh Press

  4. Corpus équilibrés • En principe, une collection de plus d'un texte peut être appelée un corpus. Cependant, le terme corpus possède en général des connotations plus spécifiques. • Le corpus doit être représentatif. Afin qu’une collection de textes soit représentative, elle doit être échantillonnée de façon équilibrée. La méthode la plus utilisée est la méthode d'échantillonnage stratifiée, où l'on crée une collection équilibrée de textes distribués uniformément à travers les genres (roman, journal, discours politique, etc.) et les modalités (écrite, orale) qui intéressent. • Le corpus doit être de taille finie définie à l'avance. On parle alors de corpus fermé. D'habitude, les corpus sont des collections des textes fixées à l'avance, afin d'assurer que l'équilibre et la représentativité soient respectés. • Un corpus doit être électronique (machine­readable) pour permettre des recherches et des manipulations rapides à large échelle.

  5. Corpus équilibrés • D'un point de vue statistique, on peut considérer un corpus comme un échantillon d'une population (d'événements langagiers). • Comme tout échantillon, un corpus est passible de deux types d'erreurs statistiques qui menacent la généralité des résultats • l'incertitude (random error) • la déformation (bias error) • L'incertitude survient quand un échantillon est trop petit pour représenter avec précision la population réelle. • Une déformation se produit quand les caractéristiques d'un échantillon sont systématiquement différentes de celles de la population que cet échantillon a pour objectif de refléter.

  6. Exemples d’erreurs Incertitude Un extrait de 2 000 mots d'une interview de George Bush ne permet pas d'extrapoler et d'en tirer des conclusions sur l'interaction journaliste-homme politique. Déformation Si on utilise que les articles de la seule rubrique Economie du Monde, quel que soit le volume textuel rassemblé, on risque de déboucher sur une image déformée du français.

  7. Échantillonnage • Pour atteindre une diversité maximale de situations de communication dans un corpus de référence on procède souvent à une démarche d'échantillonnage. • L'échantillonnage touche à la fois • le choix des documents à intégrer et • la partie de ces documents à conserver. • On essaye d'équilibrer en taille les échantillons retenus -- de taille limitée (de 2'000 à 40'000 mots) --, et à ne pas retenir des empans de texte continus, de manière à ne pas risquer de sur-représenter des «lieux» du texte aux caractéristiques particulières (l'introduction par exemple). • Ce saucissonnage rend par contre impossible l'étude des changements de corrélations de traits linguistiques au fil des textes (étude longitudinale).

  8. Corpus de contrôle (monitor corpus) • Il existe aussi un autre type de corpus, le corpus de contrôle, qui n'est pas de taille finie, mais plutôt il croit au fur et à mesure. • Un corpus de contrôle est un corpus auquel on ajoute tout le temps des textes. C'est un corpus ouvert. Cela est très utile en lexicographie pour chercher les néologismes, mais on ne peut plus garantir que le corpus restera équilibré. La recherche scientifique courante où l'on utilise le Web en tant que corpus rentre dans ce cas de figure.

  9. Corpus de référence • On parle de corpus de référence lorsque un corpus devient représentatif de la langue - à un certain moment historique, • - pour une certaine langue, • - dans une certaine modalité. • Un corpus de référence est conçu pour fournir une information en profondeur sur une langue. Il vise à être suffisamment grand pour représenter toutes les variétés pertinentes de cette langue et son vocabulaire caractéristique, de manière à pouvoir servir de base à des grammaires, des dictionnaires et d'autres usuels fiables. Il s'agit donc d'associer étroitement deux caractéristiques : • une taille suffisante et la diversité des usages représentés. • Par exemple, le Brown Corpus est le corpus de référence de l'anglais Américain écrit, le British National Corpus est le corpus de référence de l'anglais Britannique écrit et oral.

  10. Utilisations en lexicographie • Les lexicographes ont utilisées des corpus, ou des ensembles de citations, bien avant que la linguistique de corpus ne se développe (voir par exemple le célèbre dictionnaire de Samuel Johnson, de même que l’Oxford English Dictionary). • À présent, l'existence de larges collections de textes et la possibilité de les consulter et manipuler très rapidement est en train de changer la pratique de la lexicographie. • D'habitude, les lexicographes compilent les entrées d'un dictionnaire sur la base de leurs propres intuitions et d'une collection d'exemples qu'ils collectent à la main (ils utilisent des fiches d'exemples). Un corpus peut ajouter de l'information supplémentaire.

  11. Utilisations en lexicographie • Par exemple, Atkins and Levin se sont occupés de certaines verbes dans la même classes que le verbe shake (trembler). • Elles ont consulté le LDOCE (Oxford's Advanced Learner's Dictionary) et COBUILD. Les deux dictionnaires indiquaient que les verbes quake et quiver sont toujours intransitifs (n'ont pas de COD). Par contre, si on consulte un corpus de 50 millions de mots, on trouvera que les deux verbes peuvent être utilisés dans la forme transitive.

  12. Utilisations en théorie linguistique • Les corpus sont important pour la recherche linguistique au niveau des phrases et de la syntaxe, car, d'un côté, ils fournissent des informations quantitatives, et, de l'autre côté, ils sont des réservoirs d'exemples naturels de l'usage de la langue. Ils peuvent être utilisés comme ressources pour tester une théorie grammaticale donnée. • Pour illustrer le deuxième point, voici un exemple.

  13. Corpus et théorie linguistique • Sampson (1987) analysa manuellement un ensemble de syntagmes nominaux. Il arriva à la conclusion qu'une grammaire générative ne pouvait pas être utilisée pour analyser des données textuelles, car il y a trop de constructions différentes. • Taylor,Grover et Briscoe (1989) contredirent cette hypothèse, à l'aide d'un analyseur syntaxique, basée sur une grammaire. Leur analyseur marche correctement dans 96.88 % de cas. Les cas incorrectes sont facilement analysable comme lacune de couverture de la grammaire, et ils ne sont pas de cas isolés. • La conclusion est que une grammaire générative peut, en principe, rendre compte des phénomènes naturels des données textuelles.

  14. Le British National Corpus Plusieurs projets de constitution de corpus de référence ont été menés à bien aux États-Unis : corpus Brown; et en Angleterre : corpus Lancaster-Oslo/Bergen (LOB). Rappel : Il s'agit d'associer étroitement deux caractéristiques une taille suffisante la diversité des usages représentés. Le BNC compte 100 millions de mots étiquetés. Il mêle oral (10 %) et écrit (textes de fiction à partir de 1960 et textes «informatifs» à partir de 1975).

  15. The British National Corpus : les usages En ce qui concerne l'écrit, les variables prises en compte sont le domaine (textes informatifs et textes de fiction), le support (livres, périodiques, discours), la datation et la diffusion (sélection parmi les listes des meilleures ventes, celles de prix littéraires, les indications de prêts en bibliothèque, etc.). L'accent mis sur la diffusion réelle certifie la représentation d'usages majeurs de l'anglais. Pour l'oral, des conversations spontanées ont été recueillies à partir d'un échantillonnage démographique en termes d'âge, de sexe, de groupe social et de région. Ont été également intégrées des transcriptions d'interactions orales typiques dans divers domaines : affaires (réunions, prises de parole syndicales, consultations médicales ou légales); éducation et information (cours et conférences, informations radio-télévisées); prises de parole publiques (sermons, discours politiques, discours parlementaires et légaux); loisirs (commentaires sportifs, réunions de clubs).

  16. The British National Corpus : la taille Le corpus compte 100’106’008 de mots, et il occupe 1,5 gigaoctets d’espace disque. Pour vous donner une perspective, si on imprimait le corpus en petite police sur papier très fin (comme livre de poche) il occuperait 10 mètres d’étagère. (Un livre de poche habituel consiste en 250 pages pour chaque centimètre d’épaisseur, et il a 400 mots par page.) Si on le lisait à haute voix, à la vitesse plutôt rapide de 150 mots par minute, 8 heures par jour, 365 jours par an, il nous faudrait un peu plus de 4 ans pour le lire entièrement. Il y a 6 million 250 milles phrase dans le corpus. La segmentation et l’étiquetage ont été fait automatiquement avec le tagger stochastique CLAWS développé à l’université de Lancaster. On utilise 65 partie du discours.

  17. The British National Corpus : exemple <p> <s n="38"><w VVG-NN1>Raising <w NN1>money <w PRP>for <w DPS>your <w AJ0-NN1>favourite <w NN1>charity <w VM0>can <w VBI>be <w AJ0>fun<c PUN>. <s n="39"><w PNP>You <w VM0>can <w VDI>do <w PNP>it <w PRP-AVP>on <w DPS>your <w DT0>own <w CJC>or <w PNP>you <w VM0>can <w VVI>get <w AV0>together <w PRP>with <w NN1>family <w CJC>and <w NN2>friends<c PUN>. <s n="40"><w EX0>There <w VBZ>is <w AT0>no <w NN1>limit <w PRP>to <w AT0>the <w NN1>number <w PRF>of <w NN2>ways <w TO0>to <w VVI>raise <w NN1>money<c PUN>. <s n="41"><w CJS>Whether <w AT0>the <w AJ0>final <w NN1>total <w VBZ>is <w NN0>&pound;5 <w CJC>or <w NN0>&pound;5,000<c PUN>, <w PNP>it <w VBZ>is <w DT0>all <w AV0>very <w AV0>much <w VVN-VVD>needed<c PUN>. </p>

  18. Autres Corpus pour l'anglais The Bank of English http://titania.cobuild.collins.co.uk/boe_info.html http://titania.cobuild.collins.co.uk/direct_info.html The International Corpus of English (ICE) http://www.ucl.ac.uk/english-usage/ice.htm

  19. Corpus français (projet PAROLE) • Différemment du BNC, les récents projets de constitution de corpus en France reposent plutôt sur l'assemblage de données préexistantes. • Exemple : corpus réalisé dans le cadre du projet européen Parole (1996-1998).

  20. Corpus français (projet PAROLE) • Les 20 093 099 mots obtenus se répartissent à l'issue du projet en • 2 025 964 mots de transcriptions de débats au parlement européen, • 3 267 409 mots d'une trentaine d'ouvrages de disciplines variées • (en sciences humaines) fournis par CNRS-Éditions, • 942 963 mots provenant des notes de vulgarisation de la revue CNRS Info • et d'articles sur la communication de la revue Hermès • 13 856 763 mots correspondant à 25 654 articles provenant du choix • aléatoire de numéros entiers parmi ceux des années • 1987, 1989, 1991, 1993 et 1995 du journal Le Monde. • Les données rassemblées sont variées, mais pas représentatives des emplois principaux du français : un seul journal, quotidien. La presse régionale, les hebdomadaires, la presse spécialisée sont absents, ainsi que les langages techniques et scientifiques. Néanmoins, très utile en pratique.

  21. Corpus Français University of Virginia Electronic Text Centre Corpus téléchargeables dans plusieurs langues (y compris le français) http://etext.lib.virginia.edu/uvaonline.html Corpus lexicaux québécois (Onze corpus (entre autres, le Trésor de la langue française au Québec) http://www.spl.gouv.qc.ca/banque/banque.html Corpus 5656 articles de journaux (français, canadiens, suisses) http://tactweb.chass.utoronto.ca/french/corp_dat.htm InaLF – Institut National de la Langue Française http://www.inalf.fr/produits.html

  22. Corpus arborés Une collection de textes permet d'engendrer de multiples corpus distincts. Chacun de ces corpus peut donner lieu à des annotations variées: étiquetage morpho-syntaxique, projection de catégories sémantiques, lemmatisation, etc. Description de corpus arborés : http://www.u-grenoble3.fr/idl/cursus/enseignants/tutin/corpus.htm http://treebanks/linguist/jussieu/index.html

  23. Constitution du Penn Treebank Le Penn Treebank a été constitué entre 1989 et 1992 (1ère phase). C’est un corpus annoté d’environ 4.5 millions de mots d’anglais-américain. L’ensemble de ce corpus a presque entièrement été analysé par arbres. http://www.cis.upenn.edu/~treebank/ Composition résumés du Département d’énergie (230'000 mots) articles du Dow Jones Newswire (3 mos de mots dont 1 mo arboré) bulletins du Département d’agriculture (80'000 mots) bibliothèque de textes américains (105'000 mots) messages MUC-3 (infos sur les terroristes en Amérique du Sud) (112K mots) phrases d’ATIS (phrases spontanées transcrites) (20'000 mots) phrases prononcées en radio (10'000 mots) Brown Corpus réétiqueté (1’200’000 mots) phrases des manuels IBM (90'000 mots)

  24. Étiquetage du Penn Treebank Le Penn Treebank est en fait un corpus semi-automatisé car l’étiquetage et la parenthétisation sont automatiquement analysés, mais ensuite corrigés par des annotateurs humains. L’étiquetage du Penn Treebank est basé sur celui du Brown Corpus qui comportait 87 étiquettes simples. Le nombre d’étiquettes a été réduit en éliminant les redondances (c'est-à-dire en tenant compte des informations lexicales et syntaxiques), on arrive ainsi à 48 étiquettes (36 étiquettes des parties du discours et 12 autres pour la ponctuation et les symboles monétaires. ) Lorsque les annotateurs ne réussissent pas à désambiguïser, ils ont la possibilité de combiner deux étiquettes. Ainsi, les décisions arbitraires sont évitées.

  25. Étiquetage du Penn Treebank Exemples Le nombre d’étiquettes a été réduit. On a éliminé les distinctions que l’on peut déduire en tenant compte des 1) informations lexicales 2) informations syntaxiques. (1) BrownPTB sing/VB am/BE sing/VB am/VB sang/VBD was/BEDZ sang/VBD was/VBD (2) conjonctions de subordination et prépositions reçoivent la même étiquette IN, car les conjonctions précèdent toujours une phrase tandis que les prépositions précèdent des SN.

  26. Étiquetage du Penn Treebank Le jeu d'étiquette code la fonction grammatical si possible afin de faciliter une analyse syntaxique ultérieure. Exemple Brown PTB the one/CD the one/NN the ones/NNS the ones/NNS the fallen/JJ leaf the fallen/VBN leaf

  27. Étiquetage du Penn Treebank 1ère phase : l'étiquetage automatique Cet étiquetage est réalisé par PARTS, un algorithme développé par les laboratoires ATT. Il s'agit en fait d'une version modifiée de l'étiquetage du Brown Corpus, puis de plusieurs étiqueteurs. Le taux d'erreurs est de 7.9%. 2e phase : la correction manuelle Cette correction est réalisée simplement avec une souris en positionnant le curseur sur une étiquette fausse et en entrant l'étiquette souhaitée. Cette donnée entrée automatiquement est vérifiée afin de voir si elle appartient bien à la liste d'étiquettes. Si elle est valide, elle est ajoutée à la paire mot-étiquette séparée par un astérisque. L'étiquette fausse n'est pas supprimée afin d'identifier les erreurs produites à l'étiquetage automatique des parties du discours. (Dans la version de distribution du corpus, les étiquettes fausses de l'étape automatique sont supprimées.)

  28. Parenthétisation du Penn Treebank 3e phase : la parenthétisation automatique (réalisé par Fidditch) Fidditch est un analyseur développé par Donald Hindle (d'abord à l'université de Pennsylvanie, puis aux laboratoires de l'ATT), qui est utilisé pour fournir une analyse initiale. Cet algorithme laisse beaucoup de constituants non rattachés qui sont étiquetés "?". Il s'agit des syntagmes prépositionnels, des propositions relatives et des compléments circonstanciels. À ce niveau-là, on n'a pas encore véritablement d'arbre, mais plutôt plusieurs fragments d'arbres. 4e phase : la parenthétisation simplifiée automatiquement Les représentations sont simplifiées et aplaties par la suppression des étiquettes de parties du discours, des nœuds lexicaux non-branchés et de certains nœuds.

  29. Parenthétisation du Penn Treebank 5e phase : La correction du parenthétisation Cette correction est aussi réalisée à l'aide d'une souris. Les annotateurs collent tout d'abord les fragments ensemble, ils corrigent les analyses incorrectes et effacent certaines structures. La correction des structures parenthétisées est plus difficile à réaliser que la correction de l'étiquetage des parties du discours. Comme on veut que le Penn Treebank contienne seulement des structures certaines , il y a deux façons d'annoter les structures incertaines : l'étiquette de constituant X et le "pseudo-attachement". L'étiquette de constituant X est utilisé si un annotateur est sûr qu'une séquence de mots est un constituant majeur, mais pas sûr de sa catégorie syntaxique. Dans ces cas, l'annotateur parenthèse seulement la séquence et l'étiquette X. Le "pseudo-attachement" est utilisé pour annoter "les ambiguïtés permanentes prévisibles". L'annotateur indique cela quand une structure est globalement ambiguë même donnée dans un contexte.

  30. Exemple d'arbres du Penn Treebank – phase 3 ( (S (NP (ADJP Battle-tested industrial) managers) (? here) (? always) (VP buck)) (? (PP up (NP nervous newcomers))) (? (PP with (NP the tale (PP of (NP the (ADJP first)))))) (? (PP of (NP their countrymen))) (? (S (NP *) to (VP visit (NP Mexico)))) (? ,) (? (NP a boatload (PP of (NP warriors)) (VP blown (? ashore) (NP 375 years)))) (? ago) (? .)) Battle-tested industrial managers here always buck up nervous newcomers with the tale of the first of their countrymen to visit Mexico a boatload of warriors blown ashore 375 years ago

  31. Exemple d'arbres du Penn Treebank – phase 5 ( (S (NP Battle-tested industrial managers here) always (VP buck up (NP nervous newcomers) (PP with (NP the tale (PP of (NP (NP the (ADJP first (PP of (NP their countrymen))) (S (NP *) to (VP visit (NP Mexico)))) , (NP (NP a boatload (PP of (NP (NP warriors) (VP-1 blown ashore (ADVP (NP 375 years) ago))))) (VP-1 *pseudo-attach*)))))))) .)

  32. Tests comparatifs et évaluation du Penn Treebank Au tout début du projet, une expérience a été réalisée concernant deux modes d'annotation : - l'étiquetage manuel : des annotateurs ont étiqueté des textes entièrement non annotés, à la main - la "correction" : ils ont vérifié et corrigé la production de PARTS. Ce test a montré que l'étiquetage manuel est deux fois plus long que la simple correction (44 min/1000 mots contre 20 minutes) avec deux fois plus de taux de désaccord (7.2% contre 3.5%) et un taux d'erreurs 50% plus élevé. En ce qui concerne la structure, les annotateurs peuvent corriger la structure pleine fournie par Fidditch à une vitesse moyenne d'environ 375 m/h après 3 semaines et d'environ 475 m/h après 6 semaines. La réduction à une représentation plus squelettique augmente la productivité de l'annotateur d'environ 100 à 200 mots/heure. Après 3 ou 4 mois d'entraînement, les annotateurs produisent environ 750, voire même pour certains plus de 1000 mots/heure. Le taux d'erreurs de la version finale est estimé à environ 1 %.

  33. Corfrans : corpus arboré en français Annotation morpho-syntaxique d’environs 400’000 mots avec plusieurs variétés de français (présentés dans le Monde, le Hansard, l’hebdo…). Marquage syntaxique automatique avec l’analyseur Shallow parseur développé par A. Kinyon qui annote les frontières en minimisant les cas de rattachement (il se base sur les mots fonctionnels pour déterminer les frontières de constituants). Correction manuelle des erreurs commises lors de l’analyse. Un outil d’aide à la correction pour les annotateurs a été conçu. Définition d’un standard d’annotation en constituants qui évite les syntagmes vides, les syntagmes discontinus qui posent problème lors de la réalisation d’arbres syntaxiques. Évaluation et enrichissement du corpus, dans le but de faire le point sur les besoins et les outils des producteurs et utilisateurs de corpus.

  34. Corfrans : corpus arboré en français Comment l’équipe gère-t-elle le problème de la discontinuité de la négation ? Ex : Jean ne veut pas venir ne pas pourrait éventuellement être adverbe continu car il existe des phrases comme Jean préfère ne pas venir mais pour une discontinuité avec d’autre mots négatifs je ne veux voir personne on ne peut pas faire un constituant ne personne car elle ne se trouve jamais dans une séquence *je préfère ne personne voir. Il n’y aura donc pas de syntagmes discontinues.

  35. Corfrans : corpus arboré en français Les solutions L’adverbe négatif "ne" fait toujours parti du noyau verbal par contre les forclusifs (mots négatifs : pas, jamais, rien ) ne sont pas rattaché au VN sauf s’ils sont entre l’auxiliaire et le participe passé. Ex : Je <VN> ne veux </VN> pas <VPinf> <VN> venir </VN> </VPinf> Jean <VN> n’est pas venu </VN> Je <VN> n’ai <NP> rien : Pro </NP> vu </VN>

  36. Negr@ Corpus Corpus arborés de l'allemand http://www.coli.uni-sb.de/sfb378/negra-corpus/negra-corpus.html 355,096 tokens (20,602 phrases) tirés du quotidien allemand Frankfurter Rundschau (Multilingual Corpus 1 de la European Corpus Initiative). Le corpus est étiqueté et arboré. Les arbres peuvent avoir des branches croisées. Si l'on désire, on peut transformer les branches croisés en trace et obtenir le même format du Penn Treebank.

  37. Negr@ Corpus Différents types d'information dans le corpus Part-of-Speech Tags -- Stuttgart-Tübingen-Tagset (STTS) Analyse Morphologique (60,000 tokens) Catégories syntaxiques et fonction grammaticales

  38. Negr@ Corpus exemple (CS (S-CJ (PPER-SB Sie) (VVFIN-HD gehen) (CNP-OA (NP-CJ (ADJA-NK gewagte) (NN-NK Verbindungen) ) (KON-CD und) (NN-CJ Risiken) ) (PTKVZ-SVP ein) ) ($, ,) (S-CJ (VVFIN-HD versuchen) (VP-OC (NP-OA (PPOSAT-NK ihre) (NN-NK Möglichkeiten) ) (VVIZU-HD auszureizen) ) ) ($. .)

  39. Canadian Hansards • A bilingual corpus of the proceedings of the Canadian parliament Contains parallel texts in English and French which have been used to investigate statistically based machine translation.

  40. <PAIR> <ENGLISH> no , it is a falsehood . </ENGLISH> <FRENCH> non , ce est un mensonge . </FRENCH> </PAIR> <PAIR> <ENGLISH> Mr. Speaker , the record speaks for itself with regard to what I said about the price of fertilizer . </ENGLISH> <FRENCH> monsieur le Orateur , ma déclaration sur le prix de les engrais a été confirmée par les événements . </FRENCH> </PAIR>

  41. Les corpus étiquetés sémantiques

  42. Framenet (from their web page) The Berkeley FrameNet project is creating an on-line lexical resource for English, based on frame semantics and supported by corpus evidence. The aim is to document the range of semantic and syntactic combinatory possibilities (valences) of each word in each of its senses, through manual annotation of example sentences and automatic capture and organization of the annotation results.

  43. Framenet: basic concepts A lexical unit is a pairing of a word with a meaning. Typically, each sense of a polysemous word belongs to a different semantic frame, a script-like structure of inferences that characterize a type of situation, object, or event. Each frame contains apredicates and what are calledframe elements (FEs) - participants and props in the frame whose linguistic expressions are syntactically connected to the target word.

  44. Framenet Annotation: example Revenge frame Definition An Avenger performs some Punishment on an Offender as a response to an earlier action, the Injury, that was inflicted on an Injured_party. The Avenger need not be identical to the Injured_party but needs to consider the prior action of the Offender a wrong. Importantly, the punishment of the Offender by the Avenger is seen as justified by individual or group opinion rather than by law. Frame elements in the Revenge frame are Avenger, Punishment, Offender, Injury, and Injured_party.

  45. Framenet Annotation: example Lexical units in this frame include avenge.v, avenger.n, get even.v, retaliate.v, retaliation.n, retribution.n, retributive.a, retributory.a, revenge.v, revenge.n, revengeful.a, revenger.n, vengeance.n, vengeful.a, and vindictive.a. Some example sentences with the lexical unit avenge are given here. [His brothers Avenger] avenged [him Injured_party]. With this, [El Cid Agent] at once avenged [the death of his son Injury]. [Hook Avenger] tries to avenge [himself Injured_party] [on Peter Pan Offender] [by becoming a second and better father Punishment].

  46. Framenet Annotation: example Here goes a screen dump

  47. Framenet Annotation: easy cases Annotation is easiest when all and only the core frame elements (the conceptually necessary participants of the frame that a syntactic governor evokes) find syntactic expression in the sentence as separate immediate syntactic dependents of the governor.

  48. Framenet Annotation:not so easy cases Non-core frame elements are conceptually not necessary in the sense that they do not uniquely characterize the frame. Thus, for most frames standing for events or processes, Time and Place frame elements are not core, and therefore may not always be annotated. Similarly, actions often have a Purpose that the Agent intends to accomplish by performing the action indicated by the target word. However, having a purpose doesn't usually distinguish types of actions and so Purpose is often a non-core frame element, as in the following example: They wake you up [to give you a sleeping pill Purpose].

  49. Framenet Annotation:missing frame elements Sometimes FEs that are conceptually salient do not show up as lexical or phrasal material in the sentence chosen for annotation. They are however annotated to indicate omissibility conditions. Constructional Null Instantiation (CNI): Constructionally omitted constituents (also called structurally omitted) have their omission licensed by a grammatical construction in which the target word appears and are therefore more or less independent of the LU. Cases of CNI include: the omitted subject of imperative sentences, the omitted agent of passive sentences, the omitted subjects of independent gerunds and infinitives (PRO), and so on

  50. Framenet Annotation:missing frame lements • Family feuds last for generations, and [slurs on honor Injury] are avenged [by murder Punishment] . [CNI Avenger] • Get even [with her Offender] [for this Injury] [CNI Avenger] • In addition, we use CNI for missing objects in instructional imperatives such as exemplified below, even though in this case the omission is not dependent on a particular construction, but rather on a genre.  • Cook on low heat until done. [CNI Food] • Tie together loosely. [CNI Items]

More Related