360 likes | 585 Vues
Les Méthodes Quantitatives. Données qualitatives et quantitatives La notion de distribution de fréquence La distinction entre type et token Les n-grammes. Données qualitatives. Exemple : jugement de grammaticalité des phrases Je mange la pizza avec le fromage.
E N D
Les Méthodes Quantitatives • Données qualitatives et quantitatives • La notion de distribution de fréquence • La distinction entre type et token • Les n-grammes
Données qualitatives • Exemple : jugement de grammaticalité des phrases • Je mange la pizza avec le fromage. • Je mange la pizza au fromage. • Pas de fréquences, toutes données ont la même importance. • Exemples se trouvent dans un corpus ou sont obtenues de façon naturelle. • Beaucoup d’attention aux détails • Les conclusions tirées sur la base d’un échantillon qualitatif ne s’appliquent pas à toute la population avec certitude, car on ne recherche pas des exemples représentatifs de la population.
Données quantitatives • Exemple : • comptage des fréquences des verbes dans un corpus français. • Les données sont classées, comptées, résumées avec des statistiques. • Les données n’ont pas toutes la même importance. • Les données à basse fréquence sont souvent considérées comme moins importantes (mais sont-elles moins nombreuses?). • Les données sont des échantillons, donc les généralisations s’appliquent à toute la population avec un certain degré de certitude.
La classification L'approche la plus simple à la manipulation des données textuelles avec une méthode quantitative est de les classifier/classer. Dans ce cours, nous allons voir deux exemples de problèmes TALN formalisés en tant que problèmes de classification. - classification binaire : attachement du syntagme prépositionnel - classification multiple : classes des verbes
Tokens, types et distributions Pour classer des occurrences (les tokens), il faut d'abord établir un schéma, qu'on appelle une classification (les types). Une fois la classification établie, on peut classer chaque occurrence selon un type. Chaque type aura alors un certain nombre d'effectifs. L'ensemble des comptages d'effectifs de la classification s'appelle une distribution. Exemple 1 Si les vocables du langage sont les types de données, et les occurrences des mots, les tokens, alors il s'agit d'une distribution des fréquences des mots. Par exemple, la phrase suivante : La fille a vu son père, mais le père n'a pas vu la fille. a la distribution suivante : type : a fille la le mais n' pas père son vu fréq. : 2 2 2 1 1 1 1 2 1 1
Tokens, types et distributions Exemple 2 Soit une classification dont les types sont les étiquettes des parties du discours (partsofspeech tags ou POS tags en anglais). Les tokens sont les mots dans un texte. Alors, il s'agit d'une distribution d'étiquettes. Par exemple, voici la distribution des 15 étiquettes les plus fréquentes dans le corpus Brown, étiqueté avec les étiquettes du Penn Treebank : 1. 161397 NN 6. 58262 , 11. 46684 VBD 2. 136714 IN 7. 55912 NNS 12. 38097 CC 3. 116454 DT 8. 55645 . 13. 36887 VB 4. 76586 JJ 9. 52037 RB 14. 29435 VBN 5. 62020 NNP 10. 47303 PRP 15. 26135 TO
Tokens, types et distributions Exemple 3 Si les mots et les signes de ponctuation sont les types de la classification, et leurs occurrences les tokens de la classification, alors il s'agit d'une distribution de lexèmes. Ou un dictionnaire des fréquences. Par exemple, voici un extrait de la distribution des mots et signes de ponctuation dans le corpus Brown : 1. 69836 the 7. 23157 a 66. 1961 said 2. 58260 , 8. 21314 in 70. 1815 about 3. 49249 . 9. 10777 that 80. 1600 time 4. 36365 of 10. 10182 is 89. 1332 man 5. 28826 and 11. 9968 was 93. 1292 like 6. 26126 to 12. 9801 he 99. 1125 made
Questions Quel sont les mots les plus fréquents du français? Quel sont les parties du discours les plus fréquentes en français? Quels sont les mots significatifs les plus fréquents du français? Pourquoi cela nous intéresse?
Linguistique et statistique • Historiquement, les premiers à avoir abordé les aspects quantitatifs du langage sont sans doute les cryptographes et les sténographes. • Les cryptographes ont dû établir des tables de fréquences de lettres • C'est au sténographe Baptiste Estoup que l'on doit les premières observations connues sur les fréquences relatives des mots dans un texte. Extrait de la section Linguistique et Statistique de l'Encyclopaedia Universalis version 3.0 sur CD-ROM.
Loi de Zipf Si l'on dresse une table de l'ensemble des mots différents d'un texte quelconque, classés par ordre de fréquences décroissantes, on constate que la fréquence d'un mot est inversement proportionnelle à son rang dans la liste, ou, autrement dit, que le produit de la fréquence de n'importe quel mot par son rang est constant, ce que traduit la formule f * r = C, où f est la fréquence et r le rang. La loi de Zipf stipule donc que la fréquence du second mot le plus fréquent est la moitié de celle du premier, la fréquence du troisième mot le plus fréquent, son tiers, etc.Cette égalité, qui n'est vraie qu'en approximation, est indépendante des locuteurs, des types de textes et des langues. Il semble ainsi qu'il s'agisse véritablement d'un trait général des énoncés linguistiques. Cette constatation, n'est pas isolée, mais n'est que la première de toute une série d'autres. Extrait de la section Linguistique et Statistique de l'Encyclopaedia Universalis version 3.0 sur CD-ROM.
Exemple Pour le deuxième paragraphe du texte précédant, on a la distribution suivante. On indique le rang, la fréquence et le mot. 16 1 son 16 1 moitié 16 1 pas 16 1 premier 16 1 locuteurs 16 1 loi 16 1 mais 16 1 première 16 1 s'agisse 16 1 second 16 1 semble 16 1 qu'en 16 1 qu'il 16 1 qui 16 1 donc 16 1 linguistiques 16 1 tiers 16 1 toute 16 1 trait 16 1 stipule 16 1 série 16 1 textes 16 1 troisième 16 1 véritablement 16 1 égalité 16 1 énoncés 16 1 types 16 1 une 16 1 vraie 1 8, 2 4 de 2 4 des 2 4. 2 4 la 6 3 n'est 6 3 du 8 2 fréquent 8 2 mot 8 2 plus 8 2 est 8 2 fréquence 8 2 le 8 2 que 8 2 Cette 16 1 général 16 1 isolée 16 1 langues 16 1 indépendante 16 1 Il 16 1 d'autres 16 1 d'un 16 1 constatation 16 1 approximation 16 1 celle 16 1 ainsi 16 1 et 16 1 etc 16 1 La 16 1 Zipf
Exemple Remarques : il y a 88 mots au total. le mot le plus fréquent apparaît 8 fois, le deuxième 4 fois, il y a 42 mots qu'on trouve une seule fois (hapax legomena)
Autres phénomènes de fréquence La fréquence relative des catégories grammaticales, bien que variant d'un individu ou d'un texte à l'autre, est stable. C'est ainsi qu'en français les mots outils (articles, pronoms, conjonctions, prépositions) représentent 50% de n'importe quel texte, l'autre moitié étant constituée par les mots pleins (substantifs, verbes, adjectifs, adverbes). On peut noter que dans le dictionnaire cette proportion est tout autre, les mots outils ne représentant que 0,5% du lexique total. Extrait de la section Linguistique et Statistique de l'Encyclopaedia Universalis version 3.0 sur CD-ROM.
Autres phénomènes de fréquence La fréquence des mots d'une langue dans le discours est liée à leur structure phonique; en particulier, le nombre de phonèmes d'un mot dépend de son rang. On peut ainsi observer une tendance générale de toutes les langues, selon laquelle plus un mot est fréquent, plus il est court (c'est-à-dire moins son « coût de production » est élevé). Cela apparaît bien dans le phénomène général d'abrègement des mots longs dont la fréquence a tendance à augmenter dans le discours : tronquements (« cinématographe » devient « cinéma » et « ciné »), sigles (S.N.C.F., U.R.S.S.), auxquels on peut rattacher certains phénomènes de substitution (« contremaître » devient « singe », etc.). Extrait de la section Linguistique et Statistique de l'Encyclopaedia Universalis version 3.0 sur CD-ROM.
URL génial http://users.info.unicaen.fr/~giguet/java/zipf.html
Les n-grammes De la même façon que nous sommes intéressés aux distributions des fréquences des mots individuels, nous sommes aussi, même plus, intéressés à récolter les distributions des fréquences des séquences à deux, trois, quatre mots à la fois.
Les n-grammes • Un n-gramme (néologisme à partir des termes « bigramme », « trigramme », etc.) est une séquence de taille fixée d'un texte. • Exemples • Les n-grammes des mots sont toutes les séquences de n mots dans le corpus. • le chat mange la souris • bigrammes (n-grammes de longueur 2) • (le chat) (chat mange) (mange la) (la souris) • trigrammes (n-grammes de longueur 3) • (le chat mange) (chat mange la) (mange la souris)
Les n-grammes • À quoi servent les n-grammes? • À travers les distributions des n-grammes on arrive à approximer certaines régularités langagières. Par exemple, • voisins d'un mot dans un texte • classification distributionnelle (syntaxique) des mots • représentation d'un document • représentation d'une langue
Les n-grammes • Les unités de comptage ne sont pas nécessairement les mots. • Les spécialistes de parole s'occupent de n-grammes de phonèmes. • Ou encore en syntaxe les bigrammes de catégorie morpho-syntaxique sont des couples du type (Nom-Verbe) ou (Adjectif-Nom), parmi d'autre, indiquant combien de fois un nom est suivi d'un verbe dans le corpus, ou un adjectif suivi d'un nom. • En cryptographie on s'occupe d’unigrammes, de bigrammes et de trigrammes de lettres.
Chiffrer un message Un des moyens les plus simples de chiffrer un message est de remplacer chaque lettre par une autre (ou un autre symbole). Par sa simplicité et par sa force, ce système a dominé la technique des écritures secrètes pendant tout le premier millénaire. Il a résisté aux cryptanalystes jusqu'à ce que le savant arabe Abu Yusuf Ya'qub ibn Is-haq ibn as-Sabbah Oòmran ibn Ismaïl al-Kindi (ouf!) mette au point, au IXème siècle, une technique appelée analyse des fréquences. Al-Kindi rédige sa méthode dans son plus important traité intitulé Manuscrit sur le déchiffrement des messages cryptographiques. C'est le premier manuscrit connu faisant mention des fréquences d'apparition des lettres. Il explique que « la façon d'élucider un message crypté, si nous savons dans quelle langue il est écrit, est de nous procurer un autre texte en clair dans la même langue, de la longueur d'un feuillet environ, et de compter alors les apparitions de chaque lettre. Ensuite, nous nous reportons au texte chiffré que nous voulons éclaircir et relevons de même ses symboles. Nous remplaçons le symbole le plus fréquent par la lettre première (la plus fréquente du texte clair), le suivant par la deuxième, le suivant par la troisième, et ainsi de suite jusqu'à ce que nous soyons venus à bout de tous les symboles du cryptogramme à résoudre ». Référence : http://www.ars-cryptographica.com/stat/
Les distributions de n-grammes Les systèmes de chiffrement simples sont facilement cassable par une méthode d'analyse de fréquences des lettres, car pour chaque langue, certaines lettres sont beaucoup plus utilisées que d'autres.
Les distributions d’unigrammes Voici pour le français, l'anglais, l'allemand et l'espagnol les fréquences d'apparition des lettres. Référence : http://www.ars-cryptographica.com/stat/
Identificateurs des langues Arrive-t-on à identifier une langue avec seulement les fréquences de n-grammes? Essayons!
Les distributions de bigrammes Voici pour trois langues inconnues, les fréquences d'apparition des 10 bigrammes les plus fréquents : Bigrammes ES DE LE EN RE NT ON ER TE EL Nombres 3318 2409 2366 2121 1885 1694 1646 1514 1484 1382 Bigrammes TH HE IN ER AN RE ES ON ST NT Nombres 3020 2496 2078 1821 1676 1467 1345 1318 1290 1267 Bigrammes EN ER CH DE TE ND EI IE IN GE Nombres 3956 3818 2647 2386 2167 1990 1935 1702 1579 1521
Les distributions de trigrammes Voici pour trois langues inconnues, les fréquences d'apparition des 10 trigrammes les plus fréquents : Trigrammes ENT LES EDE DES QUE AIT LLE SDE ION EME Nombres 900 801 630 609 607 542 509 508 477 472 Trigrammes THE AND ING ENT ION NTH TER INT OFT THA Nombres 2069 819 607 487 428 381 367 357 355 355 Trigrammes DER ICH EIN NDE SCH DIE TEN END CHE UND Nombres 1025 959 939 812 812 804 662 611 607 586
Les distributions de bi- et trigrammes en français Voici pour le français, les fréquences d'apparition des 10 bigrammes et des 10 trigrammes les plus fréquents : Bigrammes ES DE LE EN RE NT ON ER TE EL Nombres 3318 2409 2366 2121 1885 1694 1646 1514 1484 1382 Trigrammes ENT LES EDE DES QUE AIT LLE SDE ION EME Nombres 900 801 630 609 607 542 509 508 477 472 Référence : http://www.ars-cryptographica.com/stat/
Les distributions de n-grammes en français Tous les tableaux de la page précédente ont été construits en comptant les fréquences dans un texte français de 100'000 lettres composé de textes de Gustave Flaubert (20'600 lettres), de Jules Verne (19'438) et de trois articles de l'Encyclopedia Universalis, le premier consacré à Bruges (8'182), le deuxième à l'artillerie (25'078) et le dernier à la population (26'702). Référence : http://www.ars-cryptographica.com/stat/
Les distributions de bi- et trigrammes en anglais Voici pour l'anglais, les fréquences d'apparition des 10 bigrammes et des 10 trigrammes les plus fréquents : Bigrammes TH HE IN ER AN RE ES ON ST NT Nombres 3020 2496 2078 1821 1676 1467 1345 1318 1290 1267 Remarques : les 52 (sur 676) bigrammes les plus fréquents, représentent plus de la moitié de toutes les occurrences. Trigrammes THE AND ING ENT ION NTH TER INT OFT THA Nombres 2069 819 607 487 428 381 367 357 355 355 Si les espaces entre les mots ont été conservés (ce qui n'est généralement pas le cas) on peut aussi utiliser les informations suivantes : Les mots de deux lettres les plus fréquents sont of, to, in, it, is, be, as, at, so, we, he, by, or, on, do, if, me, my, up, an, go, no, us, am. Les mots de trois lettres les plus fréquents sont the et and. Référence : http://www.ars-cryptographica.com/stat/
Les distributions de n-grammes en anglais Tous les tableaux de la page précédente ont été construits en comptant les fréquences dans un texte anglais de 100'000 lettres composé de textes d'Edgar Allan Poe (24'541 lettres), d'Arthur Conan Doyle (14'153) et de quatre articles de l'Encyclopédie Encarta 95, le premier consacré à New York (13'100), le deuxième à la Bible (19'405), le troisième aux baleines (9'083) et le dernier au transport ferroviaire (19'718). Référence : http://www.ars-cryptographica.com/stat/
Les distributions de bi- et trigrammes en allemand Voici pour l'allemand, les fréquences d'apparition des 10 bigrammes et des 10 trigrammes les plus fréquents : Bigrammes EN ER CH DE TE ND EI IE IN GE Nombres 3956 3818 2647 2386 2167 1990 1935 1702 1579 1521 Trigrammes DER ICH EIN NDE SCH DIE TEN END CHE UND Nombres 1025 959 939 812 812 804 662 611 607 586 On reconnaît les articles « der », « die », « ein ». Il est à noter que « das » ne vient qu'en 43ème position avec 255 occurrences seulement. Référence : http://www.ars-cryptographica.com/stat/
Les distributions de n-grammes en allemand Tous les tableaux de la page précédente ont été construits en comptant les fréquences dans un texte allemand de 100'000 lettres composé d'un texte de Franz Kafka (28'188 lettres), d'un texte historique consacré à Gilberte de Courgenay (17'845) et de trois articles trouvés sur le web, le premier consacré à la découverte de la planète Pluton (24'165), le deuxième à Yvan le Terrible (24'560) et le dernier aux éléphants d'Afrique (5'242). Le symbole « ß » a été remplacé systématiquement par « ss ». Référence : http://www.ars-cryptographica.com/stat/
Effectifs et proportions On a vu que les simples comptages sont très utiles pour l'investigation quantitative des données textuelles. Mais ils ne sont pas suffisants. Par exemple, on ne peut pas les utiliser pour faire de comparaisons. Il faut alors utiliser les fréquences relatives ou proportions. Exemple Nous voudrions savoir si le mot anglais boot est utilisé avec la même fréquence en anglais parlé et anglais écrit. Nous avons accès à un corpus de 500'000 mots d'anglais écrit mais seulement 50'000 d'anglais parlé. En comptant les effectifs, nous trouvons 50 occurrences dans le corpus parlé et 500 occurrence dans le corpus écrit. La conclusion est clairement que la fréquence d'utilisation de boot est la même dans les deux modalités, car la proportion des cas est égale.
Significance testing Significance tests allow us to determine whether or not a finding is the result of a genuine difference between two (or more) items, or whether it is just due to chance. For example, suppose we are examining the Latin versions of the Gospel of Matthew and the Gospel of John and we are looking at how third person singular speech is represented. Specifically we want to compare how often the present tense form of the verb "to say" is used ("dicit") with how often the perfect form of the verb is used ("dixit"). A simple count of the two verb forms in each text produces the following results: dicit dixit john 46 107 matthew 118 119 From these figures is looks as if John uses the present form ("dicit") proportionally more often than Matthew does, but to be more certain that this is not just due to co-incidence, we need to perform a further calculation - the significance test. There are several types of significance test available to the corpus. Here we will only examine the chi-squared test as it is the most commonly used significance test in corpus linguistics. This is a non-parametric test which is easy to calculate, even without a computer statistics package, and can be used with data in 2 X 2 tables, such as the example above. However, it should be noted that the chi-squared test is unreliable where very small numbers are involved and should not therefore be used in such cases. Also, proportional data (percentages etc) can not be used with the chi-squared test. Référence : http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus3/3sig.htm
Significance testing The test compares the difference between the actual frequencies (the observed frequencies in the data) with those which one would expect if no factor other than chance had been operating (the expected frequencies). The closer these two results are to each other, the greater the probability that the observed frequencies are influenced by chance alone. Having calculated the chi-squared value (we will omit this here and assume it has been done with a computer statistical package) we must look in a set of statistical tables to see how significant our chi-squared value is (usually this is also carried out automatically by computer). We also need one further value - the number of degrees of freedom which is simply: (number of columns in the frequency table - 1) x (number of rows in the frequency table - 1) In the example above this is equal to (2-1) x (2-1) = 1. We then look at the table of chi-square values in the row for the relevant number of degrees of freedom until we find the nearest chi-square value to the one which is calculated, and read off the probability value for that column. The closer to 0 the value, the more significant the difference is - i.e. the more unlikely that it is due to chance alone. A value close to 1 means that the difference is almost certainly due to chance. In practice it is normal to assign a cut-off point which is taken to be the difference between a significant result and an "insignificant" result. This is usually taken to be 0.05 (probability values of less than 0.05 are written as "p < 0.05" and are assumed to be significant.) Référence : http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus3/3sig.htm
Résumé du cours • Données qualitatives vs quantitatives • quantitatives : attention au détail, même importance • qualitative : résumé, échantillonnage, représentativité • Classification : on établit un schéma (les types), et on classes les instances (tokens). • Distribution des tokens par type • Loi de Zipf : le produit entre le rang et la fréquence est constant • Les n-grammes en tant qu’unités linguistiques, les distributions de n-grammes • Fréquence relative pour normaliser échantillons de tailles différentes