1 / 44

ALBERI DECISIONALI terza parte

ALBERI DECISIONALI terza parte. Argomenti della lezione. Il metodo CHAID: Chi-Squared Automatic Interaction Detection. Il test del chi-quadrato. Il fattore di Bonferroni. Esempio di impiego degli alberi decisionali. Caratteristiche principali del metodo CHAID.

roddy
Télécharger la présentation

ALBERI DECISIONALI terza parte

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ALBERI DECISIONALI terza parte

  2. Argomenti della lezione • Il metodo CHAID: Chi-SquaredAutomatic Interaction Detection • Il test del chi-quadrato • Il fattore di Bonferroni • Esempio di impiego degli alberi decisionali

  3. Caratteristiche principali del metodo CHAID

  4. CHAID unisce le categorie del predittore che sono omogenee rispetto alla variabile dipendente, ma mantiene distinte tutte le categorie che sono eterogenee

  5. CHAID utilizza il moltiplicatore il moltiplicatore di Bonferroni per compiere gli aggiustamenti necessari per compiere inferenze statistiche simultanee

  6. CHAID, a differenza di altri metodi di partizione iterativa, è limitato a caratteri di tipo ordinale e nominale

  7. Utilizza il test del chi-quadrato per saggiare l'indipendenza tra caratteri (insieme all'aggiustamento di Bonferroni) per stabilire la significatività statistica della partizione

  8. ( n ij - nij )2 *   x2 = i j nij * Il test chi-quadrato di indipendenza

  9. nij dove è la frequenza empirica che corrisponde alla combinazione della modalità i del primo carattere con la modalità j del secondo carattere

  10. * nij = ninj è la corrispondente frequenza teorica calcolata in accordo all'ipotesi di indipendenza tra i due caratteri considerati

  11. ESEMPIO Famiglie secondo la zona di residenza e il possesso di personal computer (frequenze empiriche)

  12. Zona geografica Mezzogiorno Nord-Centro In complesso Possesso di personal computer 100 250 150 SI 250 750 NO 500 In complesso 350 1000 650

  13. Famiglie secondo la zona di residenza e il possesso di personal computer (frequenze teoriche)

  14. Zona geografica Mezzogiorno Nord-Centro In complesso Possesso di personal computer 162,5 87,5 250,0 SI 487,5 262,5 750,0 NO In complesso 650,0 350,0 1000,0

  15. Calcolo del test: (500-487,5)2/487,5+ (87,5-100)2/87,5+ (162,5-150)2/162,5+ (250-262,5)2/262,5=

  16. Il fattore di aggiustamento di Bonferroni • Consideriamo la variabile dipendente R e i predittori B, con cinque categorie, e A, con due • Poniamo che a sia l'errore del primo tipo associato con il test di indipendenza in una tabella a doppia entrata che associa B e R(ad esempio a =0,05)

  17. 1-(1-a)15 > a Vi sono 24 -1 = 15 modi differenti di rendere dicotomica la variabile B Se i 15 test di ipotesi fossero indipendenti, la probabilità di fare un errore del primo tipo sarebbe pari a:

  18. 1 - (1-a)M = Ma Nell'esempio di cui sopra, 15 è chiamato fattore di Bonferroni Se a è piccolo Per il predittore A la probabilità di commettere un errore del primo tipo è semplicemente a

  19. Nel metodo CHAIDsi confronta il valore di a associato con il test di indipendenza per la variabile A con il valore di a per la variabile B corretto con il fattore di Bonferroni

  20. Componenti di base del metodo CHAID:

  21. Una variabile dipendente categorica Un insieme di variabili indipendenti anch'esse categoriche, combinazioni delle quali sono usate per definire le partizioni 1 2 3 Un insieme di parametri per l'esecuzione dell'analisi

  22. In ogni passo dell'analisi, ciascun sottogruppo è analizzato e si identifica il miglior predittore, definito come quello che ha il valore di a corretto con il fattore di Bonferroni più piccolo

  23. Monotoniche 3 2 1 Libere Fluttuanti Tipi di variabili predittive in CHAID

  24. L'algoritmo CHAID: Passo 1: Fusione Passo 2: Divisione Passo 3: Arresto

  25. Fusione

  26. Per ciascun predittore

  27. Forma la tabella a doppia entrata completa 1

  28. Per ogni coppia di categorie che possono essere fuse assieme calcola il test chi-quadrato. Per ogni coppia che risulta non significativa procedi alla fusione e vai al passo 3. Se tutte le coppie rimanenti sono significative vai al passo 4 2

  29. Per tutte le categorie risultanti dalla fusione di tre o più categorie originarie controlla con il test chi-quadrato se ogni categoria originaria può essere separata dalle altre. Torna al passo 2 3

  30. Unisci le categorie che hanno un numero di casi troppo basso, selezionando quelle che presentano il valore di a più alto 4 5 Calcola il valore di a corretto con il fattore di Bonferroni sulla tabella risultante dal processo di fusione

  31. Divisione • Seleziona come miglior predittore quello che presenta il più piccolo valore di a corretto con il fattore di Bonferroni • Se nessun predittore mostra un valore di a significativo, non dividere quel sottogruppo

  32. Ritorna al passo 1 e analizza il sottogruppo successivo. Interrompi quando tutti i sottogruppi sono stati analizzati o contengono troppo poche osservazioni Arresto

  33. Esempio di impiego del metodo chaid Variabile dipendente: tasso di risposta ad una offerta promozionale di abbonamento ad una rivista

  34. Variabili indipendenti

  35. età del capofamiglia - 5 categorie -fluttuante (AGE) genere - 2 categorie -monotonica - (GENDER) presenza di bambini - 2 categorie - monotonica (KIDS) reddito familiare - 8 categorie - monotonica (INCOME)

  36. carta di credito - 2 categorie - monotonica (BANKCARD) numero di componenti - 6 categorie - fluttuante - (HHSIZE) tipo di occupazione -4 categorie - libera (OCCUP)

  37. Rappresentazione del processo di partizione tramite il dendrogramma

  38. Total 0.02 81,040 1 0.03 25,384 230.13 16,132 450.00 6,198 ?- 0.04 33,326 W0.36 1,758 BO?0.10 14,374 M- 0.04 25,531 F- 0.05 7,795 HHSIZE OCCUP GENDER -1- -4- -3- -2- -5- -6-

  39. Comparazione dei tassi di risposta secondo la variabile ampiezza familiare prima e dopo la fusione Interpretazione dei risultati

  40. % di risposte prima della fusione dopo la fusione HHSIZE Frequenza 25384 1,09 1,09 1 2 11240 1,49 1,52 3 4892 1,59 1,52 4 3187 1,79 1,92 5 3011 2,06 1,92 dato mancante 33326 0,87 0,87

  41. Ordinamento dei segmenti secondo il tasso di risposta

  42. Tasso di risposta Rango Numero Descrizione 1 Segmento 2 2,39 Famiglie con due o tre componenti, capofamiglia impiegato Segmento 4 1,92 2 Famiglie con quattro componenti e più

  43. Tasso di risposta Rango Numero Descrizione 3 Segmento 3 1,42 Famiglie con due o tre componenti, capofamiglia con occupazione diversa da impiegato Segmento 1 Famiglie con un componente 1,09 4

  44. Tasso di risposta Rango Numero Descrizione 5 Segmento 6 1,08 Famiglie di cui non si conosce il numero di componenti, capofamiglia donna Segmento 5 0,81 6 Famiglie di cui non si conosce il numero di componenti, capofamiglia uomo

More Related