Introduction à la modélisation prédictive avec la:

Introduction à la modélisation prédictive avec la: Frank Vanden Berghen http://www.business-insight.com

Partie 1: Contexte

Objectifs d’un partenariat Teradata / Business-Insight Pour Business-Insight: • Vente de licences logicielles de la « TIMi Suite » • Augmenter la base d’utilisateurs de la « TIMi Suite » • A longue échéance: intégration de TIMi dans Teradata pour éviter de lentes extractions avant toute modélisation • Nous ne désirons pas intervenir en tant que consultants (notre objectif est le développement logiciel et non la consultance). Pour Teradata: • Capacité à intervenir sur des projets analytiques de scoring/modélisation avec rapidité, efficacité et performance. • Pas de limitations sur le nombre de variables… (Càd pas de « goulot d’étranglement » en fin de préparation des données qui rend inutile le fait de pouvoir manipuler de le large volume de donnée). • Concentrer les projets sur la création de variables et la génération de large volumes de données à valeurs ajoutées. • Possibilité de déployer le scoring directement en SQL Teradata

Qui sommes nous? • Fondée en janvier 2007 par Frank VandenBerghen & JéromeLoncelle • HQ localisé à Bruxelles en Belgique • Mission • Implémentation de Solutions AnalytiquesPrédictivesAutomatisées • Créationd’outils de datamining prédictifs de secondegénération “To boldly go where no dataminer has gone before!” • 6 personnes au HQ (3 développeurs, 1 sales, 1 CEO, 1 admin.) • Actif en Europe (Belgique), Angleterre (Londres), Russie (Moscou), États-Unis (Chicago), Malaysie (Kuala Lumpur)

Quelques Références

Optimisation Marketing à l’aide de techniques prédictives Les usages typiques de l’« Analyse Prédictive » sont: • ChurnPrevention: Comment retenir mes clients? Comment les empêcher d’aller à la concurrence? • Cross-Selling: Quel produits proposer à quels clients? (next-to-buy, next-best-offer, etc.) • Up-Selling: Comment inciter nos clients à consommer plus des produits qu’ils ont déjà?

La offre :

Partie 2: Introduction aux techniques prédictives

Modèles Prédictifs: Performance 1/3

Modèles Prédictifs: Performance 2/3 : Résumé sur les graphique de la Lift Pourcentage de cibles touchées Probabilité 100% des Cibles touchées Performance de la sélection « parfaite » Performance de la sélection « TIMi » Performance de la sélection aléatoire Probabilité d’achat Aucune Cible touchée 100% de la population sélectionnée 0% de la population sélectionnée

Modèles Prédictifs: Performance 3/3 : Quelques exemples typiques de Lift:

Lift curves Sélection Aléatoire Modèle Parfait TIMi Model Ancien modèle 100% 90% 80% 70% 60% Pourcentage de Potentiel Couvert 50% 40% 30% 20% 10% 0% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% pourcentage de foyer ciblé Story 1 : modèle pour une « banque française » 1/2Évaluation du ROI supplémentaire généré par TIM TIMi model La lift à 10% du nouveau modèle fait avec TIMi est 62%. Nous avons une sélection qui est 6.2 fois meilleure que la sélection aléatoire. Current model La lift à 10% pour l’ancien modèle de la « Banque Française » est 15%. Cette sélection est donc 1.5 fois meilleure que la sélection aléatoire. La banque avait déjà un modèle en production. La lift de ce modèle est représentée en brun dans le graphique ci-dessus.

Story 1 : modèle pour une « banque française » 2/2Évaluation du ROI supplémentaire généré par TIM

Story 2: Modèles prédictifs robustes et de hauteperformance Extrait d’un benchmark effectué par pour le compte d’une petite banque belge, dans le but de sélectionner la meilleure solution de datamining: TIMi : 99% SPSS: 77% SAS: 70% Ces résultats parlent d’eux-mêmes. La seule différence entre ces 3 résultats est le logiciel et le temps de calcul (en moyenne TIMi est de 10 à 100x plus rapide que tout autre solution).

Partie 3: « Démonstration en Live »

« Démonstration en Live » • Telco: • Churn: Mobistar (Orange in Belgium) • Bank: • ABN-AMRO (Hollande) • PAKDD 2010 • Retail: • Delhaize

Partie 4: Préparation des données:

Caractéristiques principales de • Possibilité de manipulation de base de données très volumineuses (aucune limitation en nombre de colonnes (unique) et en nombre de lignes). • Environnement intégré de développement de transformation (IDE) convivial basé sur une technologie hybride: • approche graphique à l’aide de « boites »: très intuitive • approche à base de script Javascript: très versatile. • 99% des transformations d’Anatella fonctionnent sans définir aucun « Meta-Data » (unique). Cela permet la migration très rapide de transformation de données pré-existantes d’un environnement à un autre (par exemple: de l’environnement d’exploration/création des modèles prédictifs vers l’environnement de production). • 100% Unicode • Aisément extensible: • Gestion de version des nouveaux scripts, • Partage collaboratif des Scripts Javascript, • Le Debug des nouvelles transformations est aisé grâce à un debugger similaire au debugger de Visual Studio (unique). • Transformations spéciales pour l’analyse prédictive: • Multi-product Assignment Solver (For small assignment problems: Exact Solution using LP; For large assignment problems: Near-Optimal solution using advanced meta-heuristics) (unique), • Text mining, • Correcteur d’ortaugrafe automatique (unique), • Scoring à partir de modèles réalisés par TIMi ou Stardust, • Transformations dédiées pour les "Time Series" (Séries Temporelles), • Génération automatique de rapports graphiques (OLAP) en Powerpoint, Excel, MSWord (tous les graphiques de la suite office sont supportés), … • Anatella est rapide(rapide lors du développement de nouveaux script lors de l’exécution de ces scripts) • Anatella est Multithreadé(pour diviser les temps de calculs par un facteur entre 8 et 12)

n’est pas une Base de Donnée Les fonctionnalités de Anatella ne couvrent pas les besoins des utilisateurs de base de donnée: • Pas de code SQL. (à la place, on doit utiliser & paramétrer une série de "boites" Anatella) • Pas d’index (et encore moins d’index distribué). (un "full table scan" est nécessaire si on veut trouver une ligne particulière dans une table) • Pas d’accès concurrents aux données gérés par un système de "lock". (il est néanmoins possible d’avoir un accès concurrent en lecture seule à des fichiers plats statiques) • Pas de calculs distribués sur plusieurs PC. (Dans le futur lointain: Gestion "manuelle" de la distribution des données sur plusieurs nœuds). • Pas de gestion automatique du multithreading. • Traitement des données orienté Ligne-Par-Ligne. (et non "columnar", comme les bases de données récentes construites pour la BI)

Exemple 1: data migration « Union-Merge » des 3 datasets en 1 seul Renommer la colonne « Churn Flag » en « Target » Sauver le dataset résultant dans un fichier texte Dataset 1 dans fichier texte Dataset 2 dans fichier texte Dataset 3 dans fichier texte NTB: L’ordre des colonnes dans les datasets 1,2&3 en entrée est différent.

Exemple 1: data migration Anatella permet la manipulation de base de données très volumineuses : (aucune limitation en nombre de colonnes (unique) et en nombre de lignes). *: Temps de développement de la transformation prohibitif. Une modification substantielle des fichiers textes en entrée est nécessaire pour éviter le crash. **: Dataset standard pour la prévention du churn pour un telecom. belge. ***: Dataset standard pour la détection (basé sur le code ADN d’une personne) du cancer du sein. Ce type de dataset est aussi courant lors d’études de type « TEXT MINING ». ****: CloverETL se positionne en tant que concurrent direct à IBM-DataStage, annonçant des performances similaires.

Exemple 3: LinkAlytics Création automatisée de datasets pour l’industrie des telecoms à partir de CDR (Call Data Record) binaires (ou textes). Ce dataset peut être utilisé pour toute les tâches courantes en analytique prédictive: churn, cross-sell, up-selling, multivariatesegmention, etc. Extraction de métriques SNA (Social Network Analysis) tels que: communautés, leader de Communauté, etc. Possibilité de traîter de large volume de données (par ex.: Afrique du Sud: 24.000.000 abonnés), 2.1 TB CDR data: temps de calcul: 4 jours). Ce résultat est une première mondiale. Aucun autre outil ne peut le faire (au, du moins, il est extrêmement difficile d’arriver à des résultats comparable en utilisant d’autres outils).

Exemple 3: LinkAlytics Guinee-Bisseau data: « CL1.Churn_Mean » = % of churners in communities in last period Withoutthis variable (extractedfrom SNA): Weloose 7,6% of lift.

Partie 5:

Caractéristiques principales de • Construire des modèles prédictifs de précision inégalée en quelques clicks de souris et ainsi obtenir un ROI significativement supérieur aux autres solutions commerciales de datamining. • Les modèles sont à la fois précis et aisément compréhensibles • Génération 100% automatisée des modèles et des rapports(doc, xlsx, …) contenant de nombreux graphiques intuitifs • Temps de calcul proche du temps-réel et scoring «in-database» (pour SQL Server, Teradata, Oracle)(temps de calcul divisé par un facteur entre 100 et 1000 par rapport à d’autres solution de datamining) • Possibilité d’analyse de base de données très volumineuses (Sur du matériel de bureau standard, il est possible d’analyser en quelques minutes des datasets de plusieurs dizaines de gigabytes) • Temps pour la préparation des données réduit au minimum: le « nettoyage » de données est pratiquement inutile et il est possible d’utiliser un seul et unique dataset pour construire tous les modèles • La validationdes modèles est facile : génération automatique de nombreux graphiques de la lift, intervalles de confiance visibles sur les lifts,… • Module« Data-Drift » pourdétecter les erreurs dans la mise à jour du dataset de scoring • Prix attrayant ( th du prix de SAS/SPSS pour 4 fois plus de licences)

parmi les équipes gagnantes aux concours mondiaux de datamining prédictifs KXEN et SPSS n’ont jamais été classés parmi les équipes gagnantes d’aucun concours de datamining à l’aide de leur propre outil.

Exemple 4: Industrialisation de Modèle Model Factory / Automatisation • Colruyt: Un grand retailer en Belgique utilise un ancêtre de TIMi pour créer ses dépliants personnalisés. • Ces dépliants contiennent la sélection de produits qui ont la plus grande probabilité d’achats pour un client donné. • Chaque client reçoit un dépliant différent, contenant une sélection différente de produits. Il y a (potentiellement) autant de dépliants différents que de clients (one-to-one marketing). • Détails Techniques: • Dataset d’apprentissage :70 Gbyteet 22.000 colonnes (càd 22.000 variables). • 450 modèles prédictifs à créer « from scratch » toutes les 2 semaines. • 100% automatisé (pas d’intervention humaine). • En plus d’un mécanisme basé sur des modèles prédictifs, de simples « règles métiers » sont appliquées pour déterminer l’assignement final. Ces règles sont codées en SAS. • TIMi est le seul outil capable de: • Créer des modèles sur des datasets d’apprentissage aussi volumineux. • Produire 450 nouveaux modèles en quelques jours.

Au final, qui fait les dépliants de Colruyt? SAS ou TIMi? « SAS is able to computepurchaseprobabilities… » Littéralement traduit: « SAS est capable de calculer des probabilités d’achats… » C’est vrai. (Sauf qu’ici, c’est fait avec une veille version de TIMi). Un article de SAS qui est un chef-d’œuvre d’ambiguïté.

Exemple 5: Model Factory • Un des plus grands retailers en Belgique. • 5ième plus grand retailer aux USA • Présent aussi en Indonésie • Pour la sélection de son outil de datamining Delhaize a organisé un concours de datamining. • Les participants reçoivent: • Dataset d’apprentissage: profils des clients tels qu’observés en 2009 et achats effectués en 2010. • Dataset de Scoring: profils clients de 2010. • Taille des datasets: 300 colonnes x 150.000 lignes. • Il faut prédire quels sont les 3 produits (parmi un choix de 9 produits) qui vont être acheté en 2011. • Difficulté supplémentaire: Chacun des produit ne peut être « assigné » que 50.000 fois maximum.

Partie 6:

Intégration des techniques de segmentation multivariées & des techniques prédictives Vous pouvez utiliser Stardust (le moteur de segmentation) avant et/ou après une analyse prédictive. Stardust et TIMi sont 2 logiciels intégrés. Le nombre de segments différents dans une analyse en segmentation est pratiquement illimité (nSegments>2000 est ok). (unique: tous les outils concurrents ont: nSegments<300).

Partie 7: Le futur

Le futur • Module pour la gestion de stocks • Module pour le « up-lift » modeling • Ajouter des « forest of stumps » comme technique de modélisation • Ajouter des modules SNA supplémentaires • Fonctionnalités ELT dans Anatella • Améliorer les interfaces (en particulier celle de Anatella) • Opti-Mail-It • Finaliser l’acquisition de nouveaux clients Telco.

En résumé • Comme le démontre nos excellents résultats lors des différentes compétitions de datamining de niveau mondial et lors de benchmarks en entreprise, la : • délivre invariablement les modèles prédictifs les plus précis et les plus robustes • a un temps de calcul proche du temps réel • peut analyser aisément de larges datasetsgrâce à son mode «in-database» • délivre des modèles facilement compréhensibles grâce, entre autres, aux nombreux rapportsgénérés automatiquement lors du processus de modélisation Plus de Précision= Plus de ROI La précision accrue des modèles générés par TIMi se traduit directement en terme de ROI. Il est courant qu’un modèle prédictif construit avec TIMi permette d’accroître le ROI d’une campagne marketing de 10 à 15% comparé à un autre logiciel de datamining Consultez cette page pour plus d’informations sur le lien entre l’exactitude des modèles et le ROI: http://www.business-insight.com/html/solutions/propensity_ROI.html

Merci pour votre Attention • Pour plus d’informations, veuillez consulter notre site internet: • http://www.business-insight.com

Introduction à la modélisation prédictive avec la:

Introduction à la modélisation prédictive avec la:

Presentation Transcript

BASE DE DONNEES RELATIONNELLES

« Vivre avec une hépatite virale »

Prolapsus Génital avec incontinence urinaire

AGIR ET S’EXPRIMER AVEC SON CORPS

LES AES (ACCIDENTS AVEC EXPOSITION AU SANG ET LIQUIDES BIOLOGIQUES)

Caractérisation et modélisation de la propagation des ondes électromagnétiques à 60 GHz à l’intérieur des bâtiments

Capsule sur l’accord du verbe avec son sujet

Réseau avec Java:

Solidarité avec les Palestiniens

ALM avec Visual C++ v1.0b

Modélisation des bilans de carbone, d’eau et de minéraux des écosystèmes forestiers

Introduction à la Programmation par Objets avec Smalltalk

Modélisation et conception des Systèmes d ’information

Modélisation objet : Le langage UML

La Modélisation Moléculaire

L'environnement C.O.R.B.A. utilisation avec Java

Cursus Ordonnateur

Conception avancée de circuits numériques (VHDL)

Administration d’un service de listes de diffusion avec

Kriangkraï THONGCHUENJIT avec la méthode Le Kiosque 2

Installation et Configuration Internet Information Server (IIS 6)

Gérer ses références bibliographiques avec EndNote