520 likes | 743 Vues
Sintesi della lezione. Il test chi quadroIl data miningLaboratorio: il test chi quadro
E N D
1. Lezione 8: Un pot-pourri (tirare le fila)
2. Sintesi della lezione Il test chi quadro
Il data mining
Laboratorio: il test chi quadro
e per finire
un caso reale (e complesso) dellapplicazione di tecniche elementari di analisi dati
3. Test parametrici I test studiati nelle lezioni precedenti (test-t, test-z) consentono la verifica di ipotesi relative al valore di specifici parametri di popolazione
Esempio: differenza fra due medie
Condizioni di validit dei test parametrici
Variabili numeriche
Distribuzione normale della popolazione
Varianza omogenea
4. Test non-parametrici /1 I test non-parametrici consentono la verifica di ipotesi relative a:
Variabili non-numeriche
Variabili ordinali
Variabili categoriche
Distribuzioni diverse dal normale oppure ignote
5. Test non-parametrici /2 I test non-parametrici consentono la verifica di ipotesi relative alla distribuzione di una variabile categorica
Numero ministri donna vs. numero ministri uomo
Volume di vendita di due (o pi) prodotti concorrenti
Numero di morti per tumore in due diverse popolazioni
6. Il test ?2 (chi-quadro) Verifica di ipotesi relative a distribuzioni di frequenza
Goodness of fit (bont delladattamento)
Test di indipendenza Organizzazione dei dati per Il test ?2
7. Goodness of fit I dati: distribuzione di frequenza di una variabile categorica (ad es. sesso dei soggetti in un campione)
H0: distribuzione attesa
H1: distribuzione diversa da quella attesa
8. Distribuzione attesa Assenza di preferenza
Assenza di differenze rispetto ad una popolazione nota
9. Il test ?2 /1
10. Confronto fra distribuzione osservata e distribuzione attesa Il test ?2 /2
11. La statistica ?2
12. La distribuzione ?2 La tabella della distribuzione ?2 consente di identificare la zona critica per qualsiasi valore di gdl e per qualsiasi alfa
(Gdl= n. categorie 1)
13. Laureati e titolo di studio dei genitori
14. ?2 nella letteratura scientifica La distribuzione dei figli di genitori laureati per titolo di studio era significativamente diversa rispetto a quella per la popolazione italiana (?2(2,n=120)=29,02,p<0,05)
15. Esercitazione /1 Ipotesi: le automobili sportive hanno pi incidenti rispetto alle automobili di altro tipo
16. Esercitazione /2
17. Il ?2 come test di indipendenza Il test di indipendenza utilizzato per verificare la presenza di una relazione fra due variabili
Assenza di relazione: le due variabili sono indipendenti
Due variabili sono indipendenti quando la distribuzione della prima variabile priva di rapporto con la distribuzione per la seconda variabile
La distribuzione di frequenza per la prima variabile la stessa per tutte le categorie della seconda variabile
18. Personalit e preferenza per i colori H0: la preferenza per i colori indipendente rispetto alla personalit del soggetto
La distribuzione delle preferenze uguale per i due gruppi
H1: la preferenza per i colori non indipendente rispetto alla personalit
Le distribuzioni sono diverse
19. Calcolo delle frequenze attese
20. Confronto frequenze osservate/ frequenze attese
21. Calcolo dei gradi di libert
22. Verifica dellipotesi
23. Esercitazione /1 Ipotesi: la cecit ai colori determinata da un gene sul cromosoma Y (legato al sesso del soggetto)
24. Esercitazione /2
25. Condizioni di validit del test ?2 Campioni casuali
Osservazioni indipendenti
Per ogni cella il valore di fa deve essere superiore a 4
26. ?2 e Excel/Open Office Excel non comprende una funzione per il calcolo della statistica ?2
La funzione test.chi(<dati osservati>;<dati attesi>) restituisce la probabilit che la differenza fra dati osservati e dati attesi (test di indipendenza) sia dovuta al caso (H0)
Open Office: chitest(<dati osservati>;<dati attesi>)
27. Tecniche e applicazioni avanzate dellanalisi dati
28. Tecniche e applicazioni avanzate Dati e informazione
Il data mining
Cluster analysis
Modelli predittivi
Estrazione di regole
Reti neurali
Limiti del data mining
29. Dati e informazione /1 Lapplicazione delle moderne tecnologie informatiche genera immensi volumi di dati
Acquisti dei singoli consumatori in un supermercato
Transazioni bancarie o con carte di credito
Ricette mediche
Dati analitici su sequenze di DNA
30. Dati e informazione /2 Nella maggior parte dei casi i dati raccolti nelle basi dati hanno un uso operativo immediato
Emissione della ricevuta fiscale
Emissione di un estratto conto
Liquidazione delle somme dovute alle farmacie
Richiesta di brevetto
31. Dati e informazione /3 Almeno in via teorica i dati contenuti nelle basi dati possono essere utilizzati per scopi diversi da quelli originalmente previsti ad es.
Analizzare le preferenze dei consumatori
Individuare i clienti pi redditizi
Individuare i clienti a rischio di churn
Studiare nuove tendenze epidemiologiche
Scoprire bersagli per nuovi farmaci
32. Dati e informazione /4 Lestrazione di nuove informazioni da grandi basi dati sono note stato chiamato data mining
Il data mining si basa sullutilizzo di tecniche avanzate di analisi dati
33. Linput per il data mining Linput per il data mining consiste in grandi insiemi di osservazioni dove ogni osservazione caratterizzata da un elevato numero di variabili Cliente
Nome
Cognome
Sesso
Classe et
Zona residenza
Volume acquisti prodotto A
Volume acquisti prodotto B
..
Volume acquisti prodotto N
34. Cluster analysis La cluster analysis una tecnica che consente di dividere un insieme di osservazioni in cluster (sotto-gruppi) in modo tale che:
Le osservazioni simili sono raggruppati nello stesso cluster
Le osservazioni dissimili sono raggruppati in cluster diversi
35. Applicazioni del cluster analysis Segmentazione della clientela
Individuazione di gruppi omogenei di clienti ai quali indirizzare una campagna di marketing o di promozione
Creazione di alberi filogenetici in base alle sequenze di DNA
36. Modelli predittivi /1 Utilizzare i dati storici (ad es. relativi al comportamento dei clienti) per la creazione di modelli che consentono la previsione dei comportamenti futuri
Un modello predittivo consente di prevedere il valore di una variabile target in base ai valori di un insieme di variabili predittrici (predictor variables)
37. Modelli predittivi /2 Generazione del modello in base a dati storici dove si conoscono i valori :
delle possibili variabili predittrici
della variabile target
Validare il modello
Altri dati storici
Applicare il modello
Ai dati operativi (dove il valore della variabile target ignoto)
38. Analisi del churn /1 In molti business moderni (ad es. telecomunicazioni, banche, assicurazioni) il costo di acquisizione di un nuovo cliente estremamente elevato
Un cliente infedele che cambia fornitore cagiona una perdita economica
Lindividuazione dei segni premonitori di infedelt consente lattuazione di misure correttive (azioni di marketing ecc.)
39. Analisi del churn /2 Possibili variabili predittrici
Caratteristiche socio-culturali del cliente
Modalit di utilizzo del servizio (tempo t)
Nuove offerte societ concorrenti (tempo t)
Disservizi (tempo t)
Variabile target
E ancora cliente al tempo t+n? (si/no)
40. Generazione di regole I sistemi di data mining moderni comprendono degli algoritmi che consentono la generazione di un modello predittivo formulato come un insieme di regole
Se et>=45 ?fedele (87%)
Se et<45 E uso < 45mins/giorno ? fedele (75%%)
Se et<45 E uso >= 45mins/giorno ? infedele (73%)
ecc.
41. Le reti neurali Apprendimento basato su modelli (molto astratti) del funzionamento del cervello
Training set: un insieme di osservazioni che comprendono variabili predittrici e variabili target
Nuova osservazione (variabili predittrici)
Calcolo automatico della variabile target
42. Tempi di calcolo per i modelli Il tempo necessario per la creazione di un modello cresce esponenzialmente con il numero delle variabili
Il problema particolarmente grave per i modelli basati su reti neurali
43. Poca trasparenza dei modelli /1 Cluster: le caratteristiche di un cluster sono spesso poco comprensibili alloperatore umano
Esempio: clienti con >45 anni, acquisti shampoo/settimana >2, acquisti cibo cani >3, zona residenza: Vomero
44. Poca trasparenza dei modelli /2 Modelli a regole: le regole possono essere insensate oppure difficilmente comprensibili
Esempio 1: SE (il prodotto un autobus) ALLORA spesa mensile>100 euro
Esempio 2: Se (aeroporto_partenza=Lagos)e (classe=business) e (orario_partenza<6.00am) e (menu=vegetariano) ALLORA soddisfazione=ALTA
45. Poca trasparenza dei modelli /3 Reti neurali: le reti neurali rappresentano una scatola nera. Difficilmente lanalisi potr penetrare i meccanismi matematici che determinano il funzionamento della rete
46. Modelli semplici e complessi /1 I sistemi di data mining sono in grado di identificare relazioni semplici fra variabili
ad es. relazioni lineari: y=a+bx
Grande parte delle relazioni pi interessanti richiedono lutilizzo di operatori logici ad es.
Se (<et>45) E [(<fumatore>) E (NON (fattore protettivo) oppure (<et>15 E (<altro fattore rischio>) ALLORA rischio=elevato
47. Modelli semplici e complessi Esiste un numero potenzialmente infinito di combinazioni fra operatori logici
Lunico modo per generare un modello ottimale la ricerca esaustiva di tutte le possibili combinazioni (problema NP-complete)
I modelli di data mining si limitano alle combinazioni pi semplici
Lunico modo per creare un modello realmente complesso di partire da unipotesi teorica
Strategia base dellanalisi dei dati
48. Debolezze strategiche del data mining /1 Il data mining si presenta come una tecnica di analisi dati che automatizza il processo di generazione delle ipotesi
In questa visione il sistema di data mining e non lanalista umano a scegliere le variabili predittrici
49. Debolezze strategiche del data mining /2 MA in realt comunque necessaria una scelta da parte dellanalista
Definizione della variabile target
Qual il problema?
Definizione degli input al sistema
Scelta del modello di base
In nessun caso lanalisi dati pu prescindere dallattivit intelligente dellanalista umano
50. Metodologia e analisi dati /1
Una visione ideologica della ricerca scientifica
51. Metodologia e analisi dati /2 La realt
52. Conclusioni La ricerca scientifica come creazione artistica
Le tecniche come strumenti di lavoro
Il pennello
Il lessico
Lo strumento
Conoscere a fondo lo strumento per poi dimenticarlo.