Est -ce que les ordinateurs peuvent apprendre ?

Est-ce que les ordinateurs peuvent apprendre? Yoshua Bengio Labo Universitaire Bell Université de Montréal 21 septembre 2001

Apprentissage et nouvelles technologies • L’apprentissage: une caractéristique centrale de l’intelligence • L’apprentissage: facile pour les humains, difficile pour les machines! • Les algorithmes d’apprentissage: nouvelles technologies, vaste domaine d’applications

Aibo Taibo Robot-chien-jouet japonais avec de l’apprentissage par renforcement.

Intelligence artificielle • Aibo réagit à son environnement • Il peut s’adapter en vue d’obtenir plus de renforcements positifs • Le contrôle de tous les moteurs est extrêmement complexe, • L’interprétation des signaux provenant des senseurs: aussi très complexe. • Robots: on ne sait pas comment lesprogrammer mais on peut dire quand ça marche.

Aibo: Rôle de l’apprentissage • Apprentissage d’une identité • Propriétaire peut baptiser Aibo • Reconnaissance vocale • On peut lui apprendre quelques commandes simples • Apprentissage de comportements, grâce à des algorithmes d’apprentissage • On joue à la balle avec Aibo, et il développe l’intérêt pour jouer à la balle

Algorithmes • Algorithme • « Recette » pour faire accomplir une tâche à un ordinateur • Par ex.: trier une liste, faire une recherche dans une base de données, calculer √2 • Sujet d’étude de l’informatique • On programme un algorithme dans un langage de programmation (Java, C++…) • Informatique classique: définition de la tâche + solution mathématique algorithme

Alternative: programmer par l’exemple… Une image = profil d’un cas Anne Exemple test Jean ( , ?) Maud Qui est-ce? Eric Paul Ensemble des exemples d’entraînement {(visage, identité)}

Algorithme du plus proche voisin Choisir l’exemple d’apprentissage dont le ‘profil’ (image) est le plus proche de celui de l’exemple test identité =Paul plus proche voisin

Pourquoi l’apprentissage? • Si on a pas assez de connaissances explicites pour obtenir un algorithme qui résout le problème • Mais on a beaucoup d’exemples de la tâche à accomplir (base de données = exemples) • Exemples: • Reconnaissance de visages/caractères/voix • Prise de décision • finance • marketing • Estimation • du risque de crédit, de probabilité de fraude • de primes d’assurance • Etc…

Où se situe le machine learning • Intersection de l’informatique, statistiques et domaines particuliers statistiques informatique Domaine d’application

Deux phases dans l’apprentissage • Entraînement (supervisé) • On présente des exemples au système • Le système « apprend » à partir des exemples • Le système modifie graduellement ses paramètres ajustables pour que sa sortie ressemble à la sortie désirée • Utilisation • Nouveaux exemples jamais vus auparavant • On demande au système de GÉNÉRALISER

Types de problèmes • Classification • Dire si l’entrée appartient à une certaine CLASSE • Y a-t-il un visage, oui ou non? • De qui est-ce le visage? (parmi un nombre fini) • Régression • Faire une prédiction à partir d’un exemple • Prédire la valeur de la bourse demain,étant donné les valeurs des jours et mois passés • Estimation de densité • A-t-on déjà vu cet exemple (ou un exemple similaire)? • Quelles sont les K catégories principales de données?

Formes d’apprentissage/ feedback • Supervisé • On donne “la bonne réponse” pendant l’entraînement • Le plus efficace, car fournit plus d’informations • Utile pour classification,régression, estimation de probabilité conditionnelle (quelle est la probabilité qu’un client avec tel profil achète tel produit?) • Renforcement • On ne donne PAS la bonne réponse,le système fait une hypothèse, et on lui dit “bon / pas bon” • Utile pour le contrôle de robots (Aibo) • Non supervisé • Ex: quelles sont les catégories principales de clients typiques? (segmentation du marché)

Généraliser est difficile • On ne veut pasapprendre par cœur • Bonne réponse sur exemples d’entraînement seulement • Facile pour un ordinateur (un fichier de données) • Difficile pour les humains (on force nos enfants…) • Apprendre en vue de généraliser • Plus intéressant! • FONDAMENTALEMENT plus difficile: plusieurs façons de généraliser • On doit extraire l’essence, la structure dans les données,et pas seulement apprendre la bonne réponse pour quelques cas

Exemple: on tire des données Pointillé = la meilleure réponse possible étant donnée l’entrée (mais inconnue de l’apprenant) Sortie = valeur à prédire Chaque point= un exemple Entrée = profil du cas

Overfitting On apprend par cœur mais ça ne généralise pas bien à de nouveaux cas. Erreur faible sur les exemples d’apprentissage mais élevée en test.

Underfitting On a choisi un modèle trop simple (linéaire): erreur élevée en apprentissage ET en test (pointillé)

Un « bon modèle » Le modèle est suffisamment flexible pour capturer la forme courbe mais pas trop pour obtenir de l’overfitting.

Malédiction de la dimensionalité • L’apprentissage peut devenir de plus en plus difficile au fur et à mesure que le nombre de caractéristiques de chaque cas augmente. • Exemple: profils des clients ciblés Chaque case contient le nombre de cas rencontrés. Nombre D’appels 1 2 1 On peut dresser ce genre de table aussi pour les autres clients, puis comparer les deux tables à la case correspondant à un nouveau cas. 1 4 3 9 2 2 6 1 1 Nombre de cases = # cat. durées fois # cat. appels = 6 x 5 2 6 2 8 2 15 3 1 1 Durée des appels

Malédiction de la dimensionalité • Si le nombre de caractéristiques est 100 et que chaque caractéristique peut prendre 10 valeurs, alors le nombre de cases (profils différents) est 10 x 10 x 10 … x 10 = 10 • Ce nombre étant astronomique, même le grand nombre de clients de Bell Canada en est une infime fraction(sans compter que les clients ciblés sont très minoritaires). • La plupart des cases seront donc vides. La plupart des cases non-vides contiendront seulement 1 cas. • Pour généraliser il faut donc découvrir une structure plus vaste (regarder le plus proche voisin ne suffit pas), ce que beaucoup de cas ont en commun. 100

Battre la malédiction! • Certains algorithmes d’apprentissage modernes prétendent faire face à ce défi: • Réseaux de neurones artificiels • Support vector machines • Adaboost • L’idée de base: utiliser un modèle flexible mais qui permet de résumer l’information dans les données. Si il existe des régularités dans les données alors ce type de modèle a de bonnes chances de les capturer. • Réseaux de neurones: découvrir des projections intéressantes des données.

Estimation de probabilité • Détection de fraude: • Estimer la distribution de probabilité des cas ordinaires. Quand un client a un profil qui est très différent (cas peu probable), envoyer un signal. • Marketing ciblé: • Prédire avec quel probabilité un client avec un certain profil sera intéressé par un nouveau produit X. On pourra concentrer les efforts de marketing sur les clients avec probabilité élevée. • Entrée = profil du client • Sortie = probabilité d’un évènement

Infrastructure pour l’analyse de donnéees • ESSENTIEL: pour que de telles applications fonctionnent, il faut • une grande quantité de données, • bien structurées(bases de données accessibles aux autres départements de l’entreprise) • uniformisation de la capture de données à travers l’entreprise. • Expertise sur le domaine (e.g. marketing) • Expertise en statistique / algorithmes d’apprentissage

Meilleure estimation, meilleur profit • Le modèle estime P(achat|profil) • On peut estimer les coûts impliqués dans le contact marketing et le gain futur découlant de l’achat • Ça nous donne le profit ou la perte espérée: on peut donc ordonner les clients et choisir un seuil de profit.

Pour en savoir plus… • Yoshua Bengio dirige le LISA (laboratoire d’informatique des systèmes adaptatifs) • Chaire de Recherche du Canada sur les Algorithmes d’Apprentissage Statistique • http://www.iro.umontreal.ca/~bengioy • Yoshua.Bengio@umontreal.ca • Chez Bell: Alan Bernardi, Krzystof Dzieciolowski, Oryal Tanir, Rick Booth.

Est -ce que les ordinateurs peuvent apprendre ?

Est -ce que les ordinateurs peuvent apprendre ?

Presentation Transcript

Seul le silence est grand Tout le reste n’est que faiblesse

Réunion de classe CM1-CM2 : mardi 21 septembre

Quelques notions sur les groupes sanguins

ARCHITECTURE DES ORDINATEURS

Rechercher et valider l’information sur Internet

Cours de français [ ฝ30204 ] pour les élèves en classe de première [ ม. 5 ] à l’école Wangklaïkangwonn Par Kriangkraï

pour être bien dans son assiette !!

PANCREATITE CHRONIQUE

monte

Influence et lobbying

CENTRAL PROCESSING UNIT

Architectures parallèles

APPRENDRE, UNE QUESTION DE STRATÉGIES

Architecture d’un ordinateur

GESTION DE PARCS D’ORDINATEURS

Chapitre XI

Cours d’algorithmique

18 avril 2013

CONTEXTE

Apprendre à lire De l’explicite à l’implicite

Cha pitre Se pt

GESTION DE PARCS D’ORDINATEURS