1 / 52

Lezione 8: Un pot-pourri

Sintesi della lezione. Il test chi quadroIl data miningLaboratorio: il test chi quadro

waverly
Télécharger la présentation

Lezione 8: Un pot-pourri

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


    1. Lezione 8: Un pot-pourri (tirare le fila)

    2. Sintesi della lezione Il test chi quadro Il data mining Laboratorio: il test chi quadro e per finire un caso reale (e complesso) dellapplicazione di tecniche elementari di analisi dati

    3. Test parametrici I test studiati nelle lezioni precedenti (test-t, test-z) consentono la verifica di ipotesi relative al valore di specifici parametri di popolazione Esempio: differenza fra due medie Condizioni di validit dei test parametrici Variabili numeriche Distribuzione normale della popolazione Varianza omogenea

    4. Test non-parametrici /1 I test non-parametrici consentono la verifica di ipotesi relative a: Variabili non-numeriche Variabili ordinali Variabili categoriche Distribuzioni diverse dal normale oppure ignote

    5. Test non-parametrici /2 I test non-parametrici consentono la verifica di ipotesi relative alla distribuzione di una variabile categorica Numero ministri donna vs. numero ministri uomo Volume di vendita di due (o pi) prodotti concorrenti Numero di morti per tumore in due diverse popolazioni

    6. Il test ?2 (chi-quadro) Verifica di ipotesi relative a distribuzioni di frequenza Goodness of fit (bont delladattamento) Test di indipendenza Organizzazione dei dati per Il test ?2

    7. Goodness of fit I dati: distribuzione di frequenza di una variabile categorica (ad es. sesso dei soggetti in un campione) H0: distribuzione attesa H1: distribuzione diversa da quella attesa

    8. Distribuzione attesa Assenza di preferenza Assenza di differenze rispetto ad una popolazione nota

    9. Il test ?2 /1

    10. Confronto fra distribuzione osservata e distribuzione attesa Il test ?2 /2

    11. La statistica ?2

    12. La distribuzione ?2 La tabella della distribuzione ?2 consente di identificare la zona critica per qualsiasi valore di gdl e per qualsiasi alfa (Gdl= n. categorie 1)

    13. Laureati e titolo di studio dei genitori

    14. ?2 nella letteratura scientifica La distribuzione dei figli di genitori laureati per titolo di studio era significativamente diversa rispetto a quella per la popolazione italiana (?2(2,n=120)=29,02,p<0,05)

    15. Esercitazione /1 Ipotesi: le automobili sportive hanno pi incidenti rispetto alle automobili di altro tipo

    16. Esercitazione /2

    17. Il ?2 come test di indipendenza Il test di indipendenza utilizzato per verificare la presenza di una relazione fra due variabili Assenza di relazione: le due variabili sono indipendenti Due variabili sono indipendenti quando la distribuzione della prima variabile priva di rapporto con la distribuzione per la seconda variabile La distribuzione di frequenza per la prima variabile la stessa per tutte le categorie della seconda variabile

    18. Personalit e preferenza per i colori H0: la preferenza per i colori indipendente rispetto alla personalit del soggetto La distribuzione delle preferenze uguale per i due gruppi H1: la preferenza per i colori non indipendente rispetto alla personalit Le distribuzioni sono diverse

    19. Calcolo delle frequenze attese

    20. Confronto frequenze osservate/ frequenze attese

    21. Calcolo dei gradi di libert

    22. Verifica dellipotesi

    23. Esercitazione /1 Ipotesi: la cecit ai colori determinata da un gene sul cromosoma Y (legato al sesso del soggetto)

    24. Esercitazione /2

    25. Condizioni di validit del test ?2 Campioni casuali Osservazioni indipendenti Per ogni cella il valore di fa deve essere superiore a 4

    26. ?2 e Excel/Open Office Excel non comprende una funzione per il calcolo della statistica ?2 La funzione test.chi(<dati osservati>;<dati attesi>) restituisce la probabilit che la differenza fra dati osservati e dati attesi (test di indipendenza) sia dovuta al caso (H0) Open Office: chitest(<dati osservati>;<dati attesi>)

    27. Tecniche e applicazioni avanzate dellanalisi dati

    28. Tecniche e applicazioni avanzate Dati e informazione Il data mining Cluster analysis Modelli predittivi Estrazione di regole Reti neurali Limiti del data mining

    29. Dati e informazione /1 Lapplicazione delle moderne tecnologie informatiche genera immensi volumi di dati Acquisti dei singoli consumatori in un supermercato Transazioni bancarie o con carte di credito Ricette mediche Dati analitici su sequenze di DNA

    30. Dati e informazione /2 Nella maggior parte dei casi i dati raccolti nelle basi dati hanno un uso operativo immediato Emissione della ricevuta fiscale Emissione di un estratto conto Liquidazione delle somme dovute alle farmacie Richiesta di brevetto

    31. Dati e informazione /3 Almeno in via teorica i dati contenuti nelle basi dati possono essere utilizzati per scopi diversi da quelli originalmente previsti ad es. Analizzare le preferenze dei consumatori Individuare i clienti pi redditizi Individuare i clienti a rischio di churn Studiare nuove tendenze epidemiologiche Scoprire bersagli per nuovi farmaci

    32. Dati e informazione /4 Lestrazione di nuove informazioni da grandi basi dati sono note stato chiamato data mining Il data mining si basa sullutilizzo di tecniche avanzate di analisi dati

    33. Linput per il data mining Linput per il data mining consiste in grandi insiemi di osservazioni dove ogni osservazione caratterizzata da un elevato numero di variabili Cliente Nome Cognome Sesso Classe et Zona residenza Volume acquisti prodotto A Volume acquisti prodotto B .. Volume acquisti prodotto N

    34. Cluster analysis La cluster analysis una tecnica che consente di dividere un insieme di osservazioni in cluster (sotto-gruppi) in modo tale che: Le osservazioni simili sono raggruppati nello stesso cluster Le osservazioni dissimili sono raggruppati in cluster diversi

    35. Applicazioni del cluster analysis Segmentazione della clientela Individuazione di gruppi omogenei di clienti ai quali indirizzare una campagna di marketing o di promozione Creazione di alberi filogenetici in base alle sequenze di DNA

    36. Modelli predittivi /1 Utilizzare i dati storici (ad es. relativi al comportamento dei clienti) per la creazione di modelli che consentono la previsione dei comportamenti futuri Un modello predittivo consente di prevedere il valore di una variabile target in base ai valori di un insieme di variabili predittrici (predictor variables)

    37. Modelli predittivi /2 Generazione del modello in base a dati storici dove si conoscono i valori : delle possibili variabili predittrici della variabile target Validare il modello Altri dati storici Applicare il modello Ai dati operativi (dove il valore della variabile target ignoto)

    38. Analisi del churn /1 In molti business moderni (ad es. telecomunicazioni, banche, assicurazioni) il costo di acquisizione di un nuovo cliente estremamente elevato Un cliente infedele che cambia fornitore cagiona una perdita economica Lindividuazione dei segni premonitori di infedelt consente lattuazione di misure correttive (azioni di marketing ecc.)

    39. Analisi del churn /2 Possibili variabili predittrici Caratteristiche socio-culturali del cliente Modalit di utilizzo del servizio (tempo t) Nuove offerte societ concorrenti (tempo t) Disservizi (tempo t) Variabile target E ancora cliente al tempo t+n? (si/no)

    40. Generazione di regole I sistemi di data mining moderni comprendono degli algoritmi che consentono la generazione di un modello predittivo formulato come un insieme di regole Se et>=45 ?fedele (87%) Se et<45 E uso < 45mins/giorno ? fedele (75%%) Se et<45 E uso >= 45mins/giorno ? infedele (73%) ecc.

    41. Le reti neurali Apprendimento basato su modelli (molto astratti) del funzionamento del cervello Training set: un insieme di osservazioni che comprendono variabili predittrici e variabili target Nuova osservazione (variabili predittrici) Calcolo automatico della variabile target

    42. Tempi di calcolo per i modelli Il tempo necessario per la creazione di un modello cresce esponenzialmente con il numero delle variabili Il problema particolarmente grave per i modelli basati su reti neurali

    43. Poca trasparenza dei modelli /1 Cluster: le caratteristiche di un cluster sono spesso poco comprensibili alloperatore umano Esempio: clienti con >45 anni, acquisti shampoo/settimana >2, acquisti cibo cani >3, zona residenza: Vomero

    44. Poca trasparenza dei modelli /2 Modelli a regole: le regole possono essere insensate oppure difficilmente comprensibili Esempio 1: SE (il prodotto un autobus) ALLORA spesa mensile>100 euro Esempio 2: Se (aeroporto_partenza=Lagos)e (classe=business) e (orario_partenza<6.00am) e (menu=vegetariano) ALLORA soddisfazione=ALTA

    45. Poca trasparenza dei modelli /3 Reti neurali: le reti neurali rappresentano una scatola nera. Difficilmente lanalisi potr penetrare i meccanismi matematici che determinano il funzionamento della rete

    46. Modelli semplici e complessi /1 I sistemi di data mining sono in grado di identificare relazioni semplici fra variabili ad es. relazioni lineari: y=a+bx Grande parte delle relazioni pi interessanti richiedono lutilizzo di operatori logici ad es. Se (<et>45) E [(<fumatore>) E (NON (fattore protettivo) oppure (<et>15 E (<altro fattore rischio>) ALLORA rischio=elevato

    47. Modelli semplici e complessi Esiste un numero potenzialmente infinito di combinazioni fra operatori logici Lunico modo per generare un modello ottimale la ricerca esaustiva di tutte le possibili combinazioni (problema NP-complete) I modelli di data mining si limitano alle combinazioni pi semplici Lunico modo per creare un modello realmente complesso di partire da unipotesi teorica Strategia base dellanalisi dei dati

    48. Debolezze strategiche del data mining /1 Il data mining si presenta come una tecnica di analisi dati che automatizza il processo di generazione delle ipotesi In questa visione il sistema di data mining e non lanalista umano a scegliere le variabili predittrici

    49. Debolezze strategiche del data mining /2 MA in realt comunque necessaria una scelta da parte dellanalista Definizione della variabile target Qual il problema? Definizione degli input al sistema Scelta del modello di base In nessun caso lanalisi dati pu prescindere dallattivit intelligente dellanalista umano

    50. Metodologia e analisi dati /1 Una visione ideologica della ricerca scientifica

    51. Metodologia e analisi dati /2 La realt

    52. Conclusioni La ricerca scientifica come creazione artistica Le tecniche come strumenti di lavoro Il pennello Il lessico Lo strumento Conoscere a fondo lo strumento per poi dimenticarlo.

More Related