IFT 616 Intelligence Artificielle

IFT 616Intelligence Artificielle Jean-François Landry Département d’informatique Université de Sherbrooke Réseaux bayésiens dynamiques

Sujets couverts • C’est quoi un réseau bayésien dynamique (RBD)? • Exemple d’inférence simple dans un RBD. • Cas particuliers des chaînes cachées de Markov.

Réseaux bayésiens dynamiques (RBD) • Comment modéliser des situations dynamiques? • Les changements dynamiques peuvent être vues comme une séquence d’états, chaque état représentant la situation à un instant donné. • Xt : Ensemble des variables non observables décrivant l’état au temps t. • Et: Ensembles de variables observées (évidence) au temps t. • Le terme dynamique réfère au dynamisme du système qu’on veut modéliser et la structure du réseau.

RBD - Représentation • Problème: • Il faudrait spécifier un nombre infini de tables de probabilité conditionnelle: une pour chaque variable, dans chaque état. • Chaque table pourrait impliquer un nombre infini de parents. • Solution: • Supposer que les changements dynamiques sont causées par un processus stationnaire - les probabilités ne changent pas dans le temps: P(Xt | Parent(Xt)) est la même pour tous les t. • Supposer que les changements dynamiques sont causées par un processus markovien – l’état courant dépend seulement d’un nombre fini d’états précédents. Processus markoviens du premier ordre: • P(Xt| X0:t-1) = P(Xt| Xt-1) modèle pour les transitions • Supposer que l’évidence dépend uniquement de l’état courant. • P(Et| X0:t ,E0:t-1) = P(Et| Xt) modèle pour les • observations/capteurs

RBD - Illustrations Réseau bayesien dynamique (RBD) du premier ordre avec une seule variable X, répliquées dans les différents états pour modéliser la dynamique du système. RBD du second ordre 5

RBD - Exemple • Contexte:Un gardien de sécurité passe un mois dans un édifice sous-terrain, sans sortir. Chaque jour, son directeur arrive avec ou sans parapluie. Le gardien veut inférer la possibilité qu’il ait plu ou non en fonction des séquences d’observation du parapluie. • Modélisation: • Variables: Xt = {Rt} (pour « Rain ») et Et={Ut} (pour « Umbrella »). • Dépendances entre les variables (c-.à-d., le RBD): • Modèle des transitions: P(Rt | Rt-1). Modèle d’observation: P(Et | Rt). 6

RBD • Comment rendre un RBD plus précis? • Augmenter l’ordre du modèle markovien. Par exemple, Raint aurait comme parents, non seulement Raint-1mais aussi Raint-2 pour un processus markovien du second ordre. Ceci donnerait des prédictions plus précises. • Augmenter le nombre de variables d’états. Par exemple, on pourrait ajouter: • Une variable Seasont pour tenir compte des statistiques historiques sur les temps de pluie selon les saisons. • Des variables Temperaturet, Humidityt and Pressuretpour tenir compte de la physique des conditions de pluie. 7

Types d’inférence dans un RBD • Filtrage (filtering) ou monitorage/surveillance (monitoring) • Prédiction, lissage • Explication la plus plausible (séquence d’états) Des algorithmes pour des RBD générales existent pour chaque type d’inférence. Des algorithmes plus efficaces existent pour des cas particuliers de RBD: • Chaînes cachées de Markov • Filtres de Kalman • Filtres de particules

RBD – Filtrage ou monitorage • Calculer l’état de croyance (belief state) – c-.à-d., la distribution de probabilité à priori de l’état courant, étant donné l’évidence (observation) jusque là. Un agent intelligent a besoin du filtrage pour maintenir à jour son état courant – ceci est nécessaire pour prendre des décisions rationnelles (déterminer l’action appropriée dans l’état courant).

RBD – Filtrage ou monitorage • Étant donnés les résultats du monitorage jusqu’au temps t, on peut facilement calculer les résultats au temps t+1 à partir des nouvelles observations et+1. (séparer l’évidence en 2) (Règle de Bayes) α : constante de normalisation. (Hypothèse markovienne) (Hypothèse Markovienne) 10

RBD – Filtrage Exemple de l’agent de sécurité Données: une distribution de probabilité à priori P(R0), par exemple <0.5, 0.5>. Un modèle des transition P(Rt|Rt-1) et Un modèle d’observation P(Ut|Rt). Voyons maintenant les deux premières étapes de la détermination de l’état Rt: Jour 1, le parapluie apparait, (U1=true ou u1). La prédiction de t=0 à t=1 est: 11

DBN – Filtrage Exemple de l’agent de sécurité Jour 2, le parapluie apparait de nouveau, c.-à-d., U1=true. La prédiction de t=1 à t=2 donne: avec 12

Exemple d’application:Projet “assisted cognition”Henry Kautz, University of Rochester A B Work • Goals • work, home, friends, restaurant, doctor’s, ... • Trip segments • Home to Bus stop Aon Foot • Bus stop A to Bus stop Bon Bus • Bus stop Bto workplace on Foot http://www.cs.rochester.edu/u/kautz/talks/converging-technology-kautz-v3.ppt

gk-1 gk tk-1 tk mk-1 mk xk-1 xk zk-1 zk Modèle hiérarchique du RBD Kautz et al. Goal Trip segment Transportation mode x=<Location, Velocity> GPS reading http://www.cs.rochester.edu/u/kautz/talks/converging-technology-kautz-v3.ppt

Reconnaître les buts d’un usager Kautz et al. http://www.cs.rochester.edu/u/kautz/talks/converging-technology-kautz-v3.ppt

RBD – Cas spécial:Chaînes cachées de Markov • Une chaîne de Markov (de premier ordre) est définie par • Cas particulier avec une seule variable aléatoire, appelée variable d’état. • Une distribution initiale de probabilités sur des symboles (états). • Une matrice de transitions contenant des probabilités conditionnelles.

.7 .7 .3 .2 A B C 0 .1 .5 0 .5 Exemple de chaîne de Markov Représentation matricielle Représentation graphique Symbole actuel A B C A .7 .3 0 .2 .7 .5 .1 0 .5 Prochain symbole B C Exemple de chaîne : CCBBAAAAABAABACBABAAA

Probabilité de générer une chaîne Produit des probabilités, une pour chaque terme de la séquence Distribution initiale de probabilités. Une séquence de symboles, allant du temps 1 au temps T Probabilité de transition

.7 .7 .3 .2 j i 0 .1 .1 .3 .6 .4 .6 0 .5 0 k A B C A B C .5 0 .2 .8 A B C Exemple Chaque nœud caché a un vecteur de probabilités de transitions et unvecteur de probabilités de sorties (observations).

Probabilité de générer une séquence cachée et une séquence visible Séquence de nœuds cachés et de symboles de sortie. Probabilité de sortir le symbole st au nœud ht.

Programmation dynamique pour CCM • Une façon plus efficace de générer une séquence de sortie. • La probabilité jointe pour produire une séquence jusqu’au temps t, en utilisant le nœud i au temps t est notée: • Cela peut être calculé récursivement :

Application : reconnaissance vocale • La reconnaissance vocale est difficile : • Bruit ambiant ou introduit par la digitalisation • Variations dans la prononciation • Différents mots ayant la même prononciation. • Problème : Quelle est la séquence de mots la plus vraisemblable étant donné un signal sonore ? • Réponse : Choisir la séquence de mots qui maximise la probabilité • P(mots | signal)

Modèle acoustique et modèle du langage • Choisir la séquence de mots qui maximise la probabilité • P(mots | signal). • Utiliser la règle de Bayes : P(mots | signal) = αP(signal | mots) P(mots) • C’est-à-dire, décomposer le problème en modèle acoustique et modèle du langage : • P(signal | mots) : modèle acoustique. • P(mots) : modèle du langage. • Chaîne cachée : les mots. • Chaîne observée : le signal.

Phones • Des travaux dans le domaine de phonologie ont montré que tous les langages naturels utilisent seulement 40 à 50 sons de base, appelés phones. • Les phones découlent de l’articulation des lèvres, des dents, de la langue, des cordes vocales et du flux de l’air. • Intuitivement, un phone est un son qui correspond à une seule consonne ou une seule voyelle. • Mais c’est plus subtil ! Des combinaisons de consonnes comme « th » ou « ng » en anglais font un seul phone. • Un phonème est la plus petite unité de son distinctive que l’on puisse isoler par segmentation dans un mot.

Phones : exemple • Phones pour l’anglais américain :

Modèle acoustique • Rappel : • P(mots | signal) = α P(signal | mots) P(mots) • P(signal | mots) : modèle acoustique. • P(mots) : modèle du langage. • L’existence des phones permet de diviser le modèle acoustique en deux parties : • Modèle de prononciation : spécifie, pour chaque mot, une distribution de probabilité sur une séquence de phones. Par exemple, « ceiling » est parfois prononcé [s iy l ih ng], ou [s iy l ix ng], ou encore [s iy l en]. • Le phone est la variable cachée. Le signal est la variable observée. • Modèle phonique : Le modèle phonique P(et|xt) donne la probabilité que le signal échantillonné soit etau temps t si le phone est xt.

Exemple de modèle de prononciation • P([towmeytow]| « tomato») = P([towmaatow]| « tomato») = 0.1 • P([tahmeytow]| « tomato») = P([tahmaatow]| « tomato») = 0.4 • Les transitions sont spécifiées manuellement. Les probabilités sont apprises.

Applications • Reconnaissance vocale • CMU Sphinx (publique) : http://cmusphinx.sourceforge.net/html/download.php • Dragon Naturally Speaking (commercial) • IBM ViaVoice (commercial) • Reconnaissance de caractères • Observé : image. • Caché : mots.

IFT 616 Intelligence Artificielle