Introduction à L’analyse sémantique latente.

Introduction à L’analyse sémantique latente. Landauer, Laham et Foltz.

Plan • 1. Introduction • 2. Modèle mathématique • 3. Modèle cognitif • 4. Modélisation des connaissances humaines • 5. Limites et possibilités • 6. Conclusion

1. Introduction LSA: • Modèle cognitif de la représentation du sens des mots. • Programme informatique qui simule l’acquisition des connaissances. • Connaissances représentées sous la forme de vecteurs dans un espace de grandes dimensions.

2. Modèle mathématique • Fonctionnement du LSA: • Représentation multidimensionnelle de la signification du sens des mots. • Un mot est défini statistiquement à partir de l’ensemble des contextes (paragraphe, phrase, texte) dans lequel il apparaît. • Un nombre suffisant de textes doit être utilisé. • Un mécanisme permet de croiser les informations de co-occurrences propre à chaque mot.

2. Modèle mathématique • Le LSA repose sur la définition suivante: • Deux mots sont sémantiquement proches s’ils apparaissent dans des contextes similaires. • Deux contextes sont sémantiquement proches s’ils comportent des mots similaires. • Procédure du LSA: • Etablissement des liaisons sémantiques : décomposition en valeurs singulières.

Exemples de données: 9 titres de documents techniques Interaction homme ordinateur . c1: Humanmachine interfacefor ABC computerapplications . c2: A survey of user opinion of computer systemresponse time . c3: The EPS userinterface management system . c4: Systemand human systemenginneering testing of EPS . c5: Relation of user perceived response timeto error measurement Théorie mathématique graphique . m1: The generation of random, binary, orered trees . m2: The intersection graph of paths in trees . m3: Graph minorsIV: Widths of treesand well-quasi-ordering . m4: Graph minors: A survey

Matrice d’occurrence des mots dans chaque texte.

m1: The generation of random, binary, orered trees • m2: The intersection graphof paths in trees • m3: Graph minorsIV: Widths of treesand well-quasiordering • m4: Graph minors: A survey

- Corrélation entrehuman et user passe de : -0.38 à 0.94 - Corrélation entre user et minors passe de :-0.29 à -0.83

Nombre de dimensions optimales : 300. • Valeurs plus grandes : émergence non suffisante des informations. • Valeurs plus petites : grande perte d’informations. • Similarité sémantique : cosinus entre les angles des vecteurs ( -1: minimum ; 1 maximum). D’un modèle mathématique à un modèle cognitif…

3.Modèle cognitif • Propriétés du LSA: • Imite la catégorisation humaine des mots et les jugements humains. • Estime la compréhension et la cohérence des textes. • Sélectionne la qualité et la quantité d’informations contenues dans un devoir.

4. Modélisation des connaissances humaines 4.1 -Le LSA fournit des documents répondant aux questions des gens. • J.R Anderson a mis en évidence le lien entre la récupération d’informations et les processus de mémorisation sémantique. • Ex : lorsqu’une personne se pose une question particulière, il l’exprime en mots et le LSI (latent semantic indexing) tente de trouver un document correspondant au questionnement de la personne. • Les performances du LSI sont meilleures que les prototypes de recherches à vecteurs standards.

4.2 - Le LSA simule les tests de vocabulaire sur des jugements par rapport aux synonymes. • Propriété évaluée en comparant les données de similarité sémantique du modèle à des résultats de jugements humains. • Test standard issu du TOEFL (Test Of English as a Foreign Language) : ~ 4.5 millions de mots ~ 30473 contextes ~ 500 caractères. • Le test comporte 80 items : un mot question et quatre propositions de réponses.

Calcul de la similarité sémantique entre le mot inducteur et chaque alternative de réponse. • Le meilleur synonyme correspond à : La réponse la plus associée au vecteur le plus corrélé au vecteur associé au mot inducteur. • Résultat : 65% de réponses correctes. • Comparable au score moyen d’un grand échantillon d’étudiants.

4.3 - Le LSA simule les choix humains en réponse à des tests à choix multiples. a.Etudes de Foltz, Laham et Landauer. • Entraînementdu LSA sur des textes psychologiques puis testé à l’aide de questions à choix multiples. • LSA performant pour les questions faciles et items factuels. • Résultat du LSA limité par rapport aux humains : Entraînement fait sur de petits ensembles de documents.

b. Etude de Laham et Landauer sur le tri des mots. • Relation entre le LSA et les représentations lexicales des humains. • Tâche : 5 classes d’enfants différentes devaient trier des mots dans des groupes de leur choix. • Mesure de la ressemblance sémantique de chaque paire de mots par la proportion des participants qui les regroupaient ensemble. • LSA expose les différences de similarité à travers le degré d’abstraction des mots. • Le coefficient de corrélation entre estimation du LSA et les données humaines augmentent avec l’âge des sujets. • Limite : Le LSA ne sépare pas les classes de mots comme les humains. Ceci est dû au manque d’information sur l’ordre des mots.

4.4 - Le LSA simule les relations mots-mots et passages-mots dans des expérimentations d’amorçages sémantiques (Landauer et Dumais). • Présentation (visuelle séquentielle rapide) de deux phrases se terminant par un homographe. Ex: - Devant un étalage de fruits et légumes, elle demanda à la vendeuse des pommes de terre pour 5 livres. - Il n’aimait pas sortir ou voir ses amis, sa seule passion était les livres. Mots cibles: poids, ouvrages, nourriture et solitude. Mot non relié: argent.

Tâche : Choisir le mot correspondant à l’homographe. • Dans l’expérimentation de Till et al ,1988: • Avec un ISI de 100 ms : temps de décision plus rapide pour les mots cibles reliés à l’homographe. • Avec un ISI de 300 ms et 1 sec : mots reliés au contexte plus répondus que les mots reliés à l’homographe. • Le LSA calcule le cosinus entre chaque mot et chaque cible. • Résultats montrent que LSA imite l’amorçage sémantique des êtres humains.

4.5 – Le LSA prédit des notes à des dissertations. • L’ IEA (intelligent essay assessor) conçu par Foltz délivre différents types de notes à une copie: - score holistique: compare le texte à noter à une série de copies déjà notées. - Etalon or : compare le texte à noter avec une copie idéale réalisée par un professeur (comparaison globale ou locale). - On peut aussi calculer le cosinus entre chaque phrase que l’étudiant doit apprendre et chaque phrase qu’il restitue. - Une autre méthode est de calculer le cosinus de chaque phrase de l’étudiant et les phrases que le professeur juge importantes.  La corrélation entre LSA et juges humains est équivalente à celle entre juges humains.

4.6 - Le LSA prédit la cohérence des textes (Kintsch et al). • Ce modèle est-il capable de prédire l’effet de la cohérence du texte sur la compréhension ? • LSA calcule le cosinus d’une phrase avec celle qui suit. • Landauer et Dumais ont observé que les enfants apprennent très rapidement le vocabulaire. Ex: -John est le père de Bob et Mary la mère d’Anne Puis on rajoute la phrase: -Mary est la mère de Bob.  La seconde phrase nous permet de faire des inférences sur les relations entre les personnages.

4.7 - Le LSA prédit la concordance entre des textes instructifs et ce que les élèves ont besoin d’apprendre. • Kintsch, Landauer et al ont testé LSA pour trouver des textes qui correspondent à chaque étudiant, c’est-à-dire des textes qu’ils ont besoin d’apprendre.  Le LSA permet donc de caractériser les connaissances des étudiants avant et après avoir lu un texte.

5. Limites et possibilités • Le LSA : - Simule l’acquisition des connaissances et la représentation du sens des mots. - Il est de base automatique. La méthode est donc généralisable selon les langues et domaines étudiés. • Principales limites : - Influence de la taille des contextes, proximité du vocabulaire utilisé. - Il manque de capacités cognitives que les humains utilisent. • Ouverture : - Pour l’améliorer, il faudrait ajouter des connaissances syntaxiques.

6. Conclusion Le LSA ne doit pas être sous estimé : Les théories précédentes ne fournissent pas de simulation aussi rigoureuse que le LSA qui prend en compte strictement les mêmes données que les humains.

Introduction à L’analyse sémantique latente.