1 / 30

Word frequency: How to measure it and how much does it matter?

Word frequency: How to measure it and how much does it matter?. Marc Brysbaert. Carrefour : blocage d’un dépôt de Jost à Herstal

Télécharger la présentation

Word frequency: How to measure it and how much does it matter?

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Word frequency:How to measure it and how much does it matter? Marc Brysbaert

  2. Carrefour : blocage d’un dépôt de Jost à Herstal Les travailleurs de Logistics Ternat ont bloqué le dépôt de Jost aux Hauts-Sarts de Herstal près de Liège. Logistics Ternat, externalisée en 2005 par Carrefour, craint de faire les frais de la réorganisation annoncée par le groupe de distribution. « Nous avons, en guise de protestation, bloqué la marchandise d’une quinzaine d’hypermarchés à Ternat, mais la direction de carrefour a, dès lors, trouvé d’autres solutions, notamment via Jost, qui est son principal transporteur », explique Didier Vanden Bemden, délégué LBC-CNE. « Nous savons qu’un dirigeant de Carrefour est ici dans le dépôt de Jost aujourd’hui, mais il refuse de nous rencontrer, et nous avons donc bloqué ce dépôt », poursuit-il. Les travailleurs de Logistics Ternat, qui agissent en front commun syndical, ont reçu sur place le soutien d’un délégué syndical de la société Jost. Le blocage pourrait durer toute la journée sans geste de la direction de Carrefour.

  3. Word frequency • Some words occur much more often in the language than other words. • What would be the 10 most frequent words in French?

  4. Most frequent words in French • je 25.983 p.m. • de 25.220 p.m. • est 19.418 p.m. • pas 18.188 p.m. • la 14.946 p.m. • tu 14.662 p.m. • le 13.653 p.m. • vous 13.590 p.m. • ne 13.357 p.m. • il 13.223 p.m. • et 12.909 p.m. • à 12.190 p.m. • un 12.088 p.m.

  5. Least frequent words in French • abatage • abhorrer • ablatif • abornement • abscission • académisme • acclamant • accommoderaient • accu • accueils

  6. How do we measure word frequencies? • Brulex (Content, Mousty, & Radeau, 1990) • « L'apparition de micro-ordinateurs plus puissants permet actuellement de réaliser des applications qui nécessitaient auparavant l'utilisation de systèmes centraux multi-utilisateurs. Les micro-ordinateurs s'avèrent avantageux parce qu'ils sont à la fois plus souples et plus simples d'accès pour l'utilisateur. La rapidité de traitement, les capacités de stockage sur mémoire externe, et les logiciels spécifiques disponibles permettent notamment d'envisager la réalisation et la gestion de bases de données de grande taille. »

  7. Brulex • Les 35.7K mots du dictionnaire Micro-Robert (Robert, 1986) • « La fréquence introduite est reprise des tables publiées par le Centre de recherche pour un Trésor de la Langue Française (Imbs, 1971). Elle représente le nombre d'occurrences d'une chaîne de caractèresrapporté … Le corpus (23,5 millions de mots) est constitué de textes littéraires (romans, essais, recueils de poèmes, oeuvres dramatiques) publiés entre 1919 et 1964. »

  8. Lexique 1 • New, Pallier, Ferrand, & Matos (2001) • Cet article décrit une base de données lexicales du français, dont les points forts sont les suivants : • Elle est fondée sur des textes publiés entre 1950 et 2000 provenant du corpus Frantext de l'ATILF1. Ce corpus comprend 31 millions de mots (487 textes). • Elle inclut, entre autres, les formes fléchies des mots (formes verbales conjuguées, formes plurielles et féminines des noms et adjectifs). • Deux estimations de fréquence sont fournies : l'une fondée sur le corpus original de Frantext, et l'autre sur les pages web françaises (15M) indexées par le moteur de recherche FastSearch2.

  9. Lexique 1 • New, Pallier, Ferrand, & Matos (2001) • Cet article décrit une base de données lexicales du français, dont les points forts sont les suivants : • Elle est organisée autour de deux tables qui ont pour clés principales, soit les formes orthographiques soit les lemmes (un lemme est le mot choisi pour représenter toute une famille de formes apparentées. Par exemple : manger est le lemme de mangea, mangeait..., etc.). • Elle est gratuite, libre d'accès, téléchargeable, et des outils sont fournis pour l'interroger. • Elle est actualisée et peut être mise à jour dans cinq ou dix ans.

  10. Lexique 2 • New, Pallier, Brysbaert, & Ferrand (2004) • Same frequencies as Lexique 1, but now with an easy-to-use website www.lexique.org and some further improvements

  11. Lexique 3 • New, Brysbaert, Véronis, & Pallier (2007) • Film subtitles as a new type of corpus • Corpus of 52M words from 9,474 films • Texts based on a corpus of 14.7M words from 218 texts (full access to these texts) • Also frequencies of word forms and lemmas (automatic PoS tagger)

  12. Does frequency have an effect? • Yes • High-frequency words are processed faster and better than low-frequency words • Perceptual identification, naming, lexical decision • E.g. Bonin et al. (2001) lexical decision: • HF words (178 pm) : 559 ms • LF words (10 pm) : 608 ms

  13. Why does frequency have an effect? • Activation level in resting state • Strength of the connections between representations • Competition among words

  14. Evidence for competition among similar words • Segui & Grainger (1990) • Target words primed by orthographic neighbors: • avec – AVEU vs. puis – AVEU • aveu – AVEC vs. fond – AVEC • Avec = 3,705 pm; aveu = 11 pm • Masked priming (SOA = 60 ms) • Lexical decision to the target

  15. Segui & Grainger (1990) • puis – AVEU = 661 ms • avec – AVEU = 709 ms -48 ms • fond – AVEC = 608 ms • aveu – AVEC = 598 m 10 ms

  16. Does frequency have an effect?Beyond high vs. low • In order to have a more detailed picture, you need many more data. • Ferrand et al. (in press): the French Lexicon Project • Lexical decision times to 38.8K words • From 975 participants (>25 observations per word)

  17. Does frequency have an effect?Beyond high vs. low • Frequency best expressed in log10(frequency p.m.) • .1 pm -----> -1 (10-1 = .1) • 1 pm -----> 0 (100 = 1) • 10 pm -----> 1 (101 = 10) • 100 pm -----> 2 (102 = 100)

  18. Frequency-effectcontinued.... • A very strong frequency effect up to 100 pm • Big differences between .01 pm, .1 pm, and 1 pm • Rather strange given that number of times a person has heard a word is rather small: • 200 wpm • 60 mins per hour and 16 hrs a day • 365.25 days a year • 20 yrs • 200*16*365.25*20 = 1,402M • So: .01 pm = 14 encounters in total; .1 pm = 140

  19. Implications for practitioners • Repeating a word 100x seems to be very worthwhile • In case of difficulties best to limit the teaching to the high-frequency words and repeat them often enough • 3000 word families (lemmas) make up 95% of the words used in daily life • No point in teaching low-frequency exceptions • Beseech [implorer] - besought (1.5 pm)

  20. Are all frequency measures equally good? • No (Brysbaert & New, 2009) • Depends on • Language register : subtitles better than books • Recency of the corpus : not too old • Size of the corpus: >14M • (but presumably not much gain any more after 50-100M)

  21. Word from frequency vs. lemma frequency • New, Brysbaert, Segui, Ferrand, & Rastle (2004) • chandail : 11.4 pm • chaussure : 8.8 pm • chandails : 2.8 pm • chaussures : 61.1 pm • Lexical decision time • chandail : 596 ms • chaussure: 540 ms

  22. Word from frequency vs. lemma frequency • However, ... • ... if we look at complete FLP dataset, word form frequencies much better than lemma frequencies... • ?? • Verbs vs. nouns? • Verbs and nouns? • Some work remains to be done!

More Related