Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)

Apprentissage automatique et traitement du langage(chapitre 18 AIMA, pp.531-544Tom Mitchell Machine Learning)

Différentes méthodes empiriques Représentation: probabiliste, symbolique, Entraînement: supervisé ou non-supervisé Tâches: reconnaissance de la parole; analyse syntaxique (parsing)/désambiguïsation; Classification textes; acquisition lexicale: attachement du PP, classes des mots; désambiguïsation du sens des mots; traduction automatique.

Apprentissage: définition Définition On dit qu'un programme informatique apprend à partir d’une expérience empirique E par rapport à une tâche T et par rapport à une mesure de performance P, si sa performance P à la tâche T s’améliore à la suite de E. Exemple Tâche T: classer des verbes anglais dans des classes prédéfinies Mesure de performance P : % de verbes classés correctement par rapport à une classification définie par des experts (gold standard) Expérience d’entraînement E: base de données de couples de verbes (et leurs propriétés) et classe correcte

Apprentissage par classification La tâche la plus étudiée en apprentissage automatique (machine learning) consiste à inférer une fonction classant des exemples représentés comme vecteurs de traits distinctifs dans une catégorie parmi un ensemble fini de catégories données.

Apprentissage par classification: exemple Soit un ensemble de verbes. Tâche: classification binaire: verbes de types de mouvement (courir, se promener) et verbes de changement d’état (fondre, cuire). Traits: pour chaque forme du verbe dans un corpus, le verbe, est-il transitif? est-il passif? Son sujet, est-il animé? Vecteur: vecteur du pourcentage de fois où le verbe est transitif, passif et son sujet est animé sur le total d’effectifs dans le corpus.

Apprentissage par classification:exemple Exemple Trans? Pass? Anim? Class courir 5% 3% 90% MoM marcher 55% 5% 77% MoM fondre 10% 9% 20% CoS cuire 80% 69% 88% CoS

Apprentissage par classification Fonctions apprises possibles Si Pass? < 10% et Anim? >25% alors MoM Si Trans? <= 10% et Anim >25% alors MoM Si Trans? > 10% et Pass? < 10% alors MoM

Arbre de décision Les arbres de décision sont des classifieurs (classeurs?) qui opèrent sur des instances représentées par des vecteurs de traits. Les nœuds testent les traits. Il y a une branche pour chaque valeur du trait. Les feuilles spécifient les catégories. Ils peuvent aussi être écrits comme de règles. Exercices Dessiner les (sous-)arbres de décision correspondant aux règles vues auparavant.

Apprentissage des arbre de décision Les instances sont représentées en tant que vecteurs de couples traits-valeurs. La fonction cible à des valeurs discrètes de sortie. L’algorithme gère des masses de données avec efficacité, il gère des données bruitées, il gère des données auxquelles manquent certaines valeurs.

Algorithme de base d’apprentissage des arbres de décision ArbreD(exemples,attributs) Si tous les exemples appartient à une catégorie alors retourner une feuille avec cette catégorie comme étiquette Sinon si attributs est vide alors retourner une feuille dont l’étiquette est la catégorie majoritaire dans exemples Sinon choisir un attribut A pour la racine: pour toutes les valeurs possibles vi de A soit exemplesi le sous-ensemble dont la valeur de A est vi ajouter une branche à la racine pour le test A = vi si exemplesi est vide alors créer une feuille dont l’étiquette est la catégorie majoritaire dans exemples sinon appeler récursivement ArbreD(exemplesi,attributs – {A})

Exercice Construire l’arbre de décision à partir des données suivantes. Exemple Trans? Pass? Anim? Class courir bas bas haut MoM marcher haut bas haut MoM fondre bas bas bas CoS cuire haut haut haut CoS

Pass? haut bas Trans? haut bas Marcher/MoM Cuire/CoS Marcher/MoM Cuire/CoS Courir/MoM Exemple Anim? haut bas Exemple Trans? Pass? Anim? Classe courir bas bas haut MoM marcher haut bas haut MoM fondere bas bas bas CoS cuocere haut haut haut CoS Courir/MoM Marcher/MoM Cuire/CoS Fondre/CoS

pass? haut bas Marcher/MoM Cuire/CoS Exemple Anim? haut bas Trans? haut bas Fondre/CoS Courir/MoM

Trans? haut bas pass? haut bas Anim? haut bas Courir/MoM Fondre/CoS Marcher/MoM Courir/MoM Fondre/CoS Fondre/CoS Marcher/MoMCuire/CoS Cuire/CoS Cuire/CoS Courir/MoM Marcher/MoM Choisir la racine En général, on se donne comme but de construire l’arbre de décision le plus petit possible (rasoir d’Occam) Il nous faut un test qui partage les exemples en sous-ensembles homogènes par rapport à une classe donnée, car ils sont plus proche à être des feuilles

Choisir la racine En général, on se donne comme but de construire l’arbre de décision le plus petit possible (rasoir d’Occam) Il nous faut un test qui partage les exemples en sous-ensembles homogènes par rapport à une classe donnée, car ils sont plus proche à être des feuilles. Le test parfait diviserait les données en sous-ensembles pures, appartenant tous à la même classe. L’entropie est la mesure indiquant l’impureté d’un ensemble d’exemples par rapport à une classification Les mesures utilisées pour choisir l’attribut racine sont basées sur l’entropie

Entropie L’entropie est la mesure indiquant l’impureté où le désordre d’un ensemble d’exemples par rapport à une classification L’entropie d’un ensemble d’exemples S par rapport à une classification Où pi est la proportion d’exemples de catégorie i dans S

Exercice Etant donnée la formule de l’entropie, calculer l’entropie des deux classification ci-dessous Exemple ClassA courir MoM marcher MoM fondre CoS cuire CoS Exemple ClassB courir MoM marcher MoM voler MoM cuire CoS

Exercice - solution Exemple ClassB courir MoM marcher MoM voler MoM cuire CoS Exemple ClassA courir MoM marcher MoM fondre CoS cuire CoS Entropie(ClassA) = -(.5 log2 .5) -(.5 log2 .5) = -(.5 –1) –(.5 –1) =1 Entropie(ClassB)= -(.25 log2 .25) – (.75 log2 .75) = -(.25 -2) –(-75-.415) =.811 Pour une classification donnée, la distribution uniforme est celle avec l’entropie maximale

Gain d’information (information gain) Le gain d’information d’un attribut A est la réduction de l’entropie à laquelle on peut s’attendre si on fait une partition sur la base de cet attribut. Values(A)= ensemble des valeurs possibles de l’attribut A Sv= sous-ensemble de S pour lequel A a valeur v |S| = taille de S | Sv|= taille de Sv

Gain d’information (information gain) Le gain d’information est donc la réduction attendue de l’entropie (l’entropie des données, moins la moyenne proportionnelle de l’entropie) qui reste après avoir fait la partition. Plus le gain est élevé, plus cet attribut nous fourni de l’information pour la classification des données. Pour la racine de l’arbre, on choisit donc l’attribut qui maximise ce gain.

Exercice Calculer le gain d’information de chaque attribut des données ci-dessous.

Exercice—solution Gain(S,Anim?) = 1 – 3/4 (.39+.53) – 1/4 (0) = 1 – .69 = .31 Gain(S,Pass?) = 1 – 1/4 (0) – 3/4 (.39+.53) = 1 – .69 = .31 Gain(S,Trans?) = 1 – 2/4 (.5+.5) – 2/4 (.5+.5) = 1 – 1 = 0

Le biais inductif (inductive bias) Toute méthode utilisée par un système de classification pour choisir entre deux fonctions, toutes les deux compatibles avec les données d’entraînement, s’appelle biais inductif. Le biais inductif est de deux types le biais du langage – le langage représentant les fonctions d’apprentissage définit un' espace d’hypothèses limité le biais de la recherche – le langage est assez expressif pour exprimer toutes les fonctions possibles, mais l’algorithme de recherche implique une préférence pour certaines hypothèses plutôt que d’autres Les arbres de décision impliquent un biais pour les arbres plus petits par rapport aux plus grands (biais de recherche)

La futilité de l’apprentissage en absence de biais Un apprenant qui n’utilise aucune assomption a priori concernant l’identité du concept cible ne possède aucune base rationnelle pour classer de nouvelles instances. L’apprentissage sans biais est impossible. Le biais inductif décrit la logique avec laquelle l’apprenant généralise au delà des données d’entraînement. Le biais inductif de l’apprenant est l’ensemble d’assomptions ultérieures suffisantes pour justifier l’inférence inductive en tant que déduction

Le rasoir de Occam Pluralitas non est ponenda sine necessitate Pourquoi donner la préférence aux hypothèses courtes? Car il y en a moins Mais alors, pourquoi ne pas préférer les hypothèses très spécifiques, qui sont aussi très peux nombreuses

Le rasoir de Occam Pluralitas non est ponenda sine necessitate - citation attribuée à William of Occam (vers 1320) Interprétation courante : préférer l’hypothèse la plus simple qui décrit les données observées. Pourquoi donner la préférence aux hypothèses courtes? Car il y en a moins.Il y a donc moins de chance qu’une mauvaise hypothèse décrive parfaitement les données d’entraînement par hasard. Autre principe apparenté : description de longueur minimale (minimum description length). Ces principes ne sont pas parfaits, ils sont difficiles à justifier théoriquement, mais la pratique a démontré qu’ils sont utiles. Ils sont donc très souvent utilisés.

Systèmes d’induction d’arbres de décision • C4.5, par Ross Quinlan. Gratuit à : • http://www.cse.unsw.edu.au/~quinlan/ • C4.5-ofai, version de C4.5 modifiée par Johann Petrak. Gratuit à : • http://www.ai.univie.ac.at/~johann/c45ofai.html • C5.0, par Ross Quinlan. C5.0 est une version vastement améliorée de C4.5, mais n’est pas gratuit. Démo gratuit—mais limité à 400 exemples—à : • http://www.rulequest.com/

Classification des verbes • Les verbes sont la source principale d’information relationnelle dans la phrase • Jane hit the ball GN GN Agent Theme • Classifier est une forme d’apprentissage indirect du lexique • - organisation facile:les verbes partage des propriétés • syntaxique et sémantiques • - extension cohérente:l’association d’un verbe à une classe • donnée permet d’hériter toutes les • propriétés de la classe

Exemple de classification des verbes • Classes des verbes anglais selon Levin (1993) • environs 200 classes pour 3000 verbes • Par exemple • Manner of Motion: race, jump, skip, moosey • Sound Emission: buzz, ring, crack • Change of State: burn, melt, pour • Creation/Transformation: build, carve • Psychological state: admire, love, hate, despise

Alternances des verbes • Comment arrive-t-on à une telle classification? • Hypothèse: les verbes avec une sémantique semblable expriment leurs • arguments de façon semblable dans les cadres de sous-catégorisation • permis. Ils présentent les mêmes alternances. • Exemple • si un verbe peut être transitif melt butter jump horse • et il peut être intransitif butter melts horse jumps • et il peut donner lieu à un adjectif melted butter *jumped horse • alors il est change of state

La méthode de Merlo et Stevenson (2001) • Selon Levin, il y a un correspondance régulière entre la sémantique d’un verbe et sa syntaxe: les verbes qui partagent la même sémantique partagent aussi la même syntaxe. • On peut faire un raisonnement inverse et induire les classes sémantiques à partir de l’usage syntaxique: les verbes qui ont la même syntaxe en surface–-comme dans l’exemple précédent—ont les mêmes propriétés sémantiques. • On apprend les classes des verbes sur la base de leurs • propriétés dans un corpus.

Méthodologie • Analyser les classes des verbes afin de déterminer leurs propriétés les plus discriminantes. • Développer des indices qui se rapprochent des propriétés discriminantes des verbes et qu’on peut compter dans un corpus. • Compter dans un corpus afin de construire un résumé numérique pour chaque verbe. • Utiliser un algorithme d’apprentissage automatique (par exemple l’algorithme d’induction des arbres des décision) pour construire un classificateur et mesurer sa performance.

Classes des verbes anglais Manner of Motion The rider raced the horse past the barn Agent Agent (Causal) The horse raced past the barn Agent Change of State The cook melted the butter Agent Theme (Causal) The butter melted Theme Creation/Transformation The contractors built the house Agent Theme The contractors built all summer Agent

Résumé des propriétés thématiques • IDEE PRINCIPALE • Les différences thématiques sous-jacentes entre les classes de verbes se reflètent dans des différences d’usage à la surface.

Traits pour la classification automatique • Trait Transitivité (usage de la construction transitive ) • La transitivité par « causation » est plus complexe. • L’objet agent est très rare parmi les langues. • Ordre de fréquence de la transitivité auquel on peut s’attendre: • MoM < CoS < C/T

Relation entre fréquence et transitivité • Transitivité par « causation » : MoM, CoS • Complexité plus grande car deux événements • (en français : « faire courir », « faire fondre ») • Objet Agentif : MoM (transitif inergatif) • Rare en Anglais: seulement MoM • Rare dans la typologie des langues • (* Italien, Français, Allemand, Portugais, Tchèque et Vietnamien) • Difficile à traiter chez l’humain • (Stevenson et Merlo, 97, Filip et al., CUNY 98)

Animacy • Il est moins probable que les thèmes soient animés • Ordre de fréquence de « animacy » auquel on peut s’attendre : • COS < {MoM,C/T}

Utilisation Causative • Transitivité par « causation » : MoM, CoS • Sujet causal, même rôle thématique entre sujet intr. et objet trans. • Ordre de fréquence du chevauchement auquel on peut s’attendre : • MoM, C/T < CoS

Résumé des fréquences auxquelles on s’attend Transitivité : verbe est transitif MoM < CoS < C/T Causativité : usage causatif CoS > C/T Animacy : sujet est une entité animé CoS < {MoM, C/T}

Récolte des données • Verbes • manner of motion: jump, march • change of state: open, explode • Creation/transformation: carved, painted • Forme du verbe: ``-ed'‘ • Corpus • 65 millions mots étiquetés Brown + étiquetés WSJ corpus (LDC) • 29 millions mots analysés WSJ (LDC corpus, parser Collins 97)

Récolte des données–-Méthode • TRANS • Token du verbe suivi immédiatement d’un groupe nominal • = transitif sinon intransitif. • PASS • Verbe principal (VBD) = forme active. • Token avec étiquette VBN = active si auxiliaire précédent = have • = passive si auxiliaire précédent = be. • VBN Étiquette POS

Récolte des données–-Méthode • CAUS L’objet de la forme causative transitive est le même argument sémantique que le sujet de la forme intransitive. • Étapes d’approximation • Récolter les multi-ensembles des sujets et des objets pour chaque verbe • Calculer le chevauchement des deux multi-ensembles • Calculer la proportion entre le chevauchement et la somme • de deux multi-ensembles • ANIM Proportion de pronoms sujet sur le total des sujets pour chaque verbe

Analyse statistique des données • Fréquences relatives moyennes • Toutes significatives, sauf la différences entre CoS et ObD pour les traits PASS et VBN

Expériences de classification • Entrée • Vecteur: [ verbe,TRANS,PASS,VBN,CAUS,ANIM,class] • Exemple: [ open, .69, .09, .21, .16, .36, CoS ] • Méthode • Apprenant: C5.0 (algorithme d’induction d’arbre de décision) • Entraînement/Test: 10-fold cross-validation, répété 50 fois

Résultats • Exactitude 69.8% • (baseline 33.9, limite supérieure experts 86.5%) • 54% réduction du taux d’erreur sur des verbes jamais vus

Résultats • Tous les traits sont utiles, sauf le passif

Résultats classe par classe CoS Levin Program boiled, A A cracked, A O dissolved,A A exploded,A A flooded, A A fractured,A A hardened,A A melted, A E opened, A O solidified, A O collapsed,A E cooled, A A folded, A E widened, A A changed, A A cleared, A A divided, A A simmered,A E stabilized,A A C/T Levin Program carved, O O danced, O O kicked, O E knitted, O O painted, O O played, O E reaped, O O typed, O O washed, O O yelled, O E borrowed,O O inherited,O O organized,O A rented, O E sketched,O A cleaned, O O packed, O O studied, O A swallowed,O O called,O A • MoM Levin Program • floated, E O • hurried, E E • jumped, E E • leaped, E E • marched, E E • paraded, E O • raced, E E • rushed, E E • vaulted, E E • wandered,E E • galloped, E A • glided, E E • hiked, E E • hopped, E E • jogged, E E • scooted, E E • scurried, E E • skipped, E E • tiptoed, E E • trotted, E O

Résultats classe par classe

Analyse des Erreurs • TRANS augmente la discrimination des trois classes • ANIM augmente la discrimination des CoS • VBN augmente la discrimination des C/T

Conclusions On peut apprendre trois classes de verbes anglais à l’aide de calculs tirés d’un corpus avec une performance satisfaisante Questions: La méthode, s’applique-t-elle à d’autres verbes? à d’autres classes? à d’autres langues?

Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)

Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)

Presentation Transcript

CS 9633 Machine Learning Decision Tree Learning

CS 9633 Machine Learning

CS 9633 Machine Learning Concept Learning

TAL (Traitement automatique du langage)

Traitement Automatique des Langues

Tom M. Mitchell E. Fredkin Professor and Department Head March 2007

Machine Learning for Analyzing Brain Activity

BCB 444/544

Concept learning

Apprentissage automatique et notions connexes

CS 9633 Machine Learning k-nearest neighbor

MLE’s, Bayesian Classifiers and Naïve Bayes

Concept learning

机器学习 machine learning

KDD Group Research Seminar Fall, 2001 - Presentation 8 – 11

Traitement Automatique des Langues appliqué à l’Acquisition du Langage

Supervised Learning

Supervised Learning

Machine Learning, Decision Trees, Overfitting

Machine Learning for Personal Information Management

Concept learning