DATA MINING PER IL MARKETING

DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Introduzione alla metodologia Zani-Cerioli, Cap. XI

Analogia con la regressione logistica: La variabile da prevedere Y è qualitativa (nominale): appartenenza a differenti classi; spesso Y è dicotomica Le variabili esplicative X1, X2, … forniscono informazioni su fattori ritenuti rilevanti nella previsione di Y e possono essere sia qualitative che quantitative C’è però una differenza cruciale rispetto alla regressione logistica: NON si esplicita un modello, ma si utilizza un algoritmo gerarchico di segmentazione  analisi esplorativa Grande capacità di calcolo e software specializzato (SPSS) Output di tipo grafico: struttura ad albero Negli alberi di classificazione l’obiettivo è di tipo previsivo, ma si ottiene anche selezione delle variabili (che è problematica nella regressione logistica quando le variabili sono numerose) segmentazionedelle unità (ad esempio: clienti)

Vantaggi degli alberi di classificazione L’algoritmo di segmentazione è di tipo sequenziale (ricorsivo)  veloce (per un computer) e in grado di gestire data set di grandi dimensioni: utile nelle applicazioni di data mining Nasce come metodo di segmentazione e di previsione: sono un obiettivo centrale, non un sottoprodotto del modello (a differenza della regressione)  semplicità d’uso per l’utente e facilità di interpretazione dei risultati a fini di marketing: regole decisionali Non utilizzando un modello, c’è meno dipendenza da ipotesi sulla forma di distribuzione delle variabili Il metodo è facilmente applicabile anche con variabili esplicative rilevate su scale differenti(variabili quantitative, ordinali e nominali) L’algoritmo produce automaticamente anche una regola di selezione delle variabili (che nella regressione può essere problematica)

Svantaggi degli alberi di classificazione L’algoritmo di segmentazione è di tipo sequenziale (ricorsivo) le scelte effettuate ad un passo influenzano anche quelle nei passi successivi: non è possibile “recuperare” dopo una scelta non ottimale ad un certo passo  ad esempio, regole talvolta non coerenti Notevole variabilità/instabilità dei risultati In pratica, il guadagno rispetto alla regressione (logistica) in termini di accuratezza della classificazione è spesso abbastanza modesto Performance migliori si possono ottenere con ulteriori estensioni degli alberi di classificazione, che però sono più complesse e più difficili da implementare: random forests

Algoritmo - introduzione • Due variabili esplicative X1 e X2; variabile dipendente Y • Algoritmo sequenziale con split (suddivisioni) dicotomici • Al primo passo lo split è in corrispondenza di X1 = t1: si individuano 2 regioni del piano X1-X2, in cui la previsione di Y è costante  ad esempio, Y=0 se X1≤t1 e Y=1 se X1>t1 • Al passo successivo la regione X1t1 è suddivisa in corrispondenza di X2=t2; poi la regione X1>t1 è suddivisa in corrispondenza di X1=t3; etc. • Regioni R1, …, R5  la previsione di Y è costante entro ogni regione • Rappresentazione ad albero (v. grafico) Separazione lineare tra le classi

Algoritmo – introduzione 2 • Le 5 regioni costituiscono una partizione dello spazio delle variabili esplicative (featurespace) • Regola di previsione (Y quantitativo) o di classificazione (Y dicotomico o nominale): ad ogni punto dello spazio delle variabili esplicative è associato un valore adattato • La regola è non parametrica: non è necessario specificare una forma funzionale (con parametri) per f(X) • Y quantitativo: alberi di regressione • Y qualitativo (dicotomico o nominale): alberi di classificazione

Algoritmo – introduzione 3 Split nell’albero in X1=t1: per i punti in cui X1≤t1la previsione di Y deve essere diversa da quella per i punti in cui X1>t1 • La regola è sequenziale (ricorsiva): l’algoritmo non è in grado di ottenere una partizione del tipo seguente (in cui ai punti A e B è associata la stessa previsione di Y): • Svantaggio: nell’albero, non è possibile riconsiderare l’effetto di uno split. Ad esempio i punti A e B appartengono alla stessa regione nel grafico sopra riportato. Nell’albero essi sarebbero invece divisi dallo split in corrispondenza di X1=t • Vantaggio: interpretabilità della rappresentazione ad albero che è sempre in 2 dimensioni anche quando le dimensioni di X sono molto grandi (il grafico sopra riportato è invece ottenibile solo con 2 variabili esplicative) B A t

Algoritmo – esempio (v. libro) e terminologia • Previsione di Y = rischio di credito (2 classi); 3 variabili esplicative • Y= variabile nominale con J modalità (classificazione); nell’es. J=2 • X1, …, Xp: p variabili esplicative profilo xi = (xi1, …, xip)’; = featurespace

Algoritmo – esempio (v. libro) e terminologia • Regolache associa a ogni x un intero j{1, … J}: d(x): x  j • Regola di classificazione: partizione di in J sottoinsiemi A1, …, AJ: Aj = {x: d(x) = j} j=1,…,J • Radice (root): nodo iniziale da cui si diramano i successivi  tutte le unità sono in un unico gruppo: la classificazione (in base a Y) è la stessa per tutte le unità • Ramo: insieme dei nodi che discendono da un determinato nodo • Foglie: nodi terminali

Algoritmo – esempio (v. libro) Y stimato = “basso” • Nodo iniziale: classificazione degli 8 clienti che minimizza la probabilità di errore: v. distribuzione marginale rischio di credito • probabilità di errore (stimata) = 3/8 = 37.5% • Suddivisione del nodo iniziale in base a un predittore: Patrimonio • Max. riduzione della probabilità di errore conoscendo il Patrimonio: • Se Patrimonio = basso la previsione èRischio = alto(0 errori); se Patrimonio = medio o alto la previsione èRischio = basso (1 errore) • La probabilità (stimata) di errore si riduce: 1/8 = 0.125 • Per esercizio: costruire la tabella di errata classificazione • Passi successivi: v. albero

Esempio – SPSS (v. file: Esempio_alberi_intro.sav) Modifichiamo i criteri di crescita perché in questo esempio il campione è piccolo (n=8) • Analizza – classifica – albero

Successione gerarchica di partizioni: ad ogni passo, è scelto lo split che max il miglioramento nella capacità previsiva (min l’eterogeneità dei gruppi) • Ogni nodo è attribuito alla classe di Y con frequenza massima • Selezione delle esplicative • L’albero è stato fatto crescere fino alla profondità max: le foglie sono perfettamente omogenee per quanto riguarda Y • In pratica, si vogliono strutture meno complesse: vantaggi interpretativi e di stabilità  differenti regole per la “crescita” e la “potatura” dell’albero • Quattro nodi terminali (foglie): associabili a uno specifico valore di Y  regola di classificazione

Esempio – Regola di classificazione j=1: basso rischio j=2: alto rischio • Nodo 3 e Nodo 6: basso rischio (Y = 1) • Nodo 1 e Nodo 5: alto rischio (Y = 2) • Partizione degli 8 clienti in 4 gruppi (segmenti): tale regola può essere utilizzata per allocare nuovi clienti in una delle classi di rischio • Effetti negativi della gerarchia degli split binari: • La segmentazione finale non sempre è consistente. Ad es.: patrimonio = medio  basso rischio se risparmio  medio (nodo 3); patrimonio = medio  alto rischio se risparmio > medio (nodo 5) • Instabilità dell’albero a seguito di piccole variazioni nei dati o nei criteri di analisi  v. ZC, Fig. 11.3: effetti della modifica di un’osservazione griglia: alto rischio grigio: basso rischio

Fasi di una segmentazione gerarchica • Dicotomizzazione delle variabili esplicative • Scelta del criterio di suddivisione dei nodi • Definizione dei criteri di arresto per la crescita dell’albero e/o di semplificazione della struttura ottenuta • Scelta della regola di attribuzione delle foglie alle modalità di Y (regola di classificazione) • Stima del tasso di errata classificazione

1. Split dicotomici • Ad ogni passo si effettua una suddivisione in due gruppi: è necessario rendere dicotomica ogni variabile esplicativa • Se Xj è continua occorre individuare un valore di soglia: in pratica si possono testare come possibili soglie gli n-1 valori osservati di Xj nel campione dal primo al penultimo • Se Xj è discreta (quantitativa in classi o ordinale) con r modalità: r-1 possibili split, coerenti con l’ordinamento delle modalità (v. esempio) • Se Xj è nominale con r modalità: il numero di split possibili cresce molto rapidamente con r. Ad es.: 4 modalità {a,b,c,d}  7 possibili split binari: {a} + {b,c,d} {b} + {a,c,d} {c} + {a,b,d} {d} + {a,b,c} {a,b} + {c,d} {a,c} + {b,d} {a,d} + {b,c}

2. Suddivisione dei nodi • La scelta dello split da effettuare avviene confrontando tutte le variabili e tutti i possibili split (dicotomici) di ciascuna variabile • Si sceglie lo split che garantisce il più elevato miglioramento nella capacità predittiva su Y • La misura di tale miglioramento non è però univoca  differenti algoritmi di classificazione (anche in SPSS): v. diapositive successive

3. Regole di arresto e semplificazione • Nell’esempio precedente l’albero è stato fatto crescere fino alla dimensione max: foglie omogenee • Tale procedura ha però vari inconvenienti: • Difficoltà di lettura dell’albero quando n è grande • Grande instabilità dei risultati • Scarsa capacità predittiva (overfitting) • Per questo si prevedono regole per • Limitare la crescita dell’albero e/o garantire nodi sufficientemente grandi (v. opzioni SPSS)  implicazioni di marketing • Semplificare la struttura dell’albero, senza pregiudicare la capacità classificatoria: pruning

4. Regola di classificazione • Se la foglia è omogenea, la classe assegnata è l’unica presente • Se la foglia è eterogenea, si adotta la regola della maggioranza: la classe assegnata alla foglia è quella più frequente (min la percentuale di errori di classificazione) • La regola di classificazione così ottenuta può essere utilizzata anche per classificare nuove unità sulla base del loro “profilo” sulle variabili esplicative • E’ cruciale valutare la capacità previsivadella regola ottenuta, cioè la corrispondenza tra classe stimata e classe effettiva delle nuove unità

Errori di classificazione per Y dicotomica (v. regressione logistica) • Probabilità di avere un falso positivo: • Probabilità di avere un falso negativo: • Analogia con errori I e II specie nella verifica di ipotesi • Specificità della regola di classificazione: • Sensitività della regola di classificazione: • Tabella di errata classificazione; curva ROC

5. Stima del tasso di errata classificazione • Un primo criterio consiste nel calcolare il tasso di errata classificazione nei nodi terminali dell’albero: stima di risostituzione (p. 531) • Tale stima è 1 – Hit rate nella tabella di errata classificazione • Nell’esempio relativo al Rischio di credito: • La stima della probabilità di errore sarebbe 0: foglie perfettamente omogenee • E’ una stima affidabile?

Overfitting • L’overfitting si verifica quando il modello è “troppo” complesso per i dati a disposizione: curseof dimensionality – rasoio di Occam • In presenza di overfitting si ha ottimo adattamento ma pessima capacità previsiva  cause ed esempi di overfitting • Possibili soluzioni: • Penalizzare le strutture complesse • Stimare l’errore di generalizzazione, suddividendo il campione in due parti: training set (usato per l’apprendimento, cioè la stima del modello) e test set (usato per la convalida, cioè la verifica del modello su nuove unità)  le misure calcolate sul test set forniscono una stima più accurata dell’errore di generalizzazione Stima “per risostituzione” del tasso di errata class. Dimensione ottima dell’albero  oltre tale soglia si segmenta “rumore”

DATA MINING PER IL MARKETING