1 / 108

MODELLI NON PARAMETRICI

MODELLI NON PARAMETRICI. Uso dei Modelli in Statistica. Modelli come generalizzazione delle procedure Modello Lineare Generale (GLM) Regressione Logistica Modelli come descrizione di realtà sperimentali complesse Analisi Fattoriale MDS Analisi delle corrispondenze Modello di Rasch.

corentine
Télécharger la présentation

MODELLI NON PARAMETRICI

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. MODELLI NON PARAMETRICI

  2. Uso dei Modelli in Statistica • Modelli come generalizzazione delle procedure • Modello Lineare Generale (GLM) • Regressione Logistica • Modelli come descrizione di realtà sperimentali complesse • Analisi Fattoriale • MDS • Analisi delle corrispondenze • Modello di Rasch

  3. Analisi dei Modelli • Definizione del modello • Stima dei parametri • Valutazione della bontà del modello • (**Calcolo della significatività**)

  4. Modelli a struttura PREDETERMINATA • Definizione della struttura del modello sulla base di ipotesi a priori • Stima del valore dei parametri • Calcolo dei limiti di confidenza dei parametri • Calcolo della significatività • Ipotesi nulla: parametri = 0 • Possibile inferenza

  5. Modelli a struttura STIMATA • Stima della struttura del modello sulla base dei dati sperimentali • Stima del valore dei parametri • *Calcolo dei limiti di confidenza dei parametri • *Calcolo della significatività (su nuovi dati sperimentali) * opzionale: calcolato solo in alcune situazioni • Ipotesi nulla: valori sperimentali = valori del modello • Solo valore descrittivo

  6. Ipotesi nulla • Test statistici creati per la falsificazione dell’ipotesi nulla • Asimmetria delle zone di falsificazione e non-falsificazione dell’ipotesi nulla • Inadeguatezza dei test per la conferma dell’ipotesi nulla

  7. Analisi della Regressione Lineare

  8. Analisi della Regressione Polinomiale

  9. Materiali e metodi • 116 studenti divisi in modo random in due sottogruppi • Questionario sulle modalità di utilizzo di Internet a cinque sottoscale con punteggi da -4 a +4 • Analisi Fattoriale e Analisi della Regressione

  10. Analisi Fattoriale

  11. Regressione Multipla

  12. Conclusione • Nei modelli a struttura PREDETERMINATA l’affidabilità dei parametri viene misurata dalla loro variabilità, dai limiti di confidenza che delimitano la regione entro cui potrebbe trovarsi la ‘vera’ relazione, se le ipotesi sul modello sono corrette

  13. Conclusione • Nei modelli a struttura STIMATA, la struttura del modello viene determinata sui dati sperimentali ma la variabilità del numero dei parametri non viene fornita. Viene fornita una misura della loro capacità di rappresentare in modo ‘ADEGUATO’ i dati sperimentali

  14. CONFRONTO FRA MODELLI PARAMETRICI E NON PARAMETRICI “Accuracy and certainty are competitors: The surer we want to be, the less we must demand” Basic Ideas of Scientific Sampling di Alan Stuart, Griffin, London 1968

  15. Variabili Qualitative • In alcuni casi il fenomeno in esame può essere valutato solo da variabili qualitative (Es. dipendenza o non dipendenza da droga) • VANTAGGI: corrispondono a situazioni più definite (presenza o assenza di una patologia) • SVANTAGGI: minor precisione nella misura

  16. TEST NON PARAMETRICI Una serie di dati - Binomiale - Chi quadrato Due serie di dati correlati - McNemar (proporzioni) -  Segno (distribuzione dei valori) - Wilcoxon Più serie di dati correlati - Friedman Due serie di dati indipendenti - Mann-Whitney -  Kolmogorov-Smirnov Più serie di dati indipendenti - Kruskall-Wallis

  17. MODELLI NON PARAMETRICI Misure di associazione • Tavole di contingenza: associazione fra due variabili qualitative • Modelli Log-Lineari: associazione fra più variabili qualitative Modelli Regressivi • Regressione Logistica: modello generale in cui è possibile esprimere una variabile qualitativa (dicotomica) come funzione di una o più variabili sia qualitative che quantitative.

  18. Regressione Logistica • Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche • Tecnica non parametrica

  19. Regressione Logistica Procedura • La variabile è trasformata in logit ovvero legata ai fattori che la influenzano da una funzione logaritmica logit (variabile)= b0 + b1  x1 + b2  x2 …

  20. Regressione Logistica Trasforma la variabile qualitativa dicotomica (evento, non evento) in una variabile quantitativa utilizzando il parametro odds • 1.Variabile 0,1 • 2.Probabilità 0 1 • 3.Odds 0 

  21. Regressione Logistica Per poter utilizzare una equazione nel campo dei numeri reali si esegue una ulteriore trasformazione logarimica che prende il nome di logit Odds logit (valore - --- 0 --- +)

  22. Regressione Logistica • Logaritmo: funzione inversa dell’esponente • Logaritmo naturale (Ln) di x è l’esponente da dare a e (numero naturale e = 2.718) per ottenere x • Ln 5 = 1.6 perché 2.718 1.6 = 5

  23. Regressione Logistica Proprietà dei logaritmi • Ln 1 = 0 • Ln 0 = -  • Ln +  = + 

  24. Regressione Logistica La variabile può essere vista come funzione dei fattori in un modello regressivo: logit (variabile)= b0 + b1  x1 + b2  x2 + b3 x3

  25. Regressione Logistica 2. Procedura: VALUTAZIONE della Bontà del modello - stima dei parametri b Diversi metodi di approssimazione • A blocchi: valuta tutti i parametri assieme tramite il criterio di tolleranza (esclude le variabili che apportano poca informazione al modello) • Per passi o per esclusione: toglie o aggiunge i parametri a seconda dell’apporto di questi alla significatività del modello

  26. Regressione Logistica Procedura • Stima dei Parametri (b) viene fatta con metodo a successive approssimazioni. Il loro significato si può dedurre dall’odds ratio:

  27. Regressione Logistica • Nella regressione logistica il modello non è lineare ma esponenziale e i parametri vengono scelti attraverso il principio del massimo likelyhood • Il likelyhood ratio, utilizzato anche per il modello Log lineare, è la probabilità che i dati sperimentali siano stati generati dal modello

  28. Regressione Logistica 3. Valutazione della bontà del modello Statistica Wald Tuttavia, la statistica Wald non può esser usata da sola poiché quando il valore assoluto di b diventa molto grande, l’errore standard sarà anche esso grande e la statistica Wald assumerà valori molto piccoli che facilmente falsificheranno l’ipotesi nulla anche quando non sarebbe da falsificare.

  29. Regressione Logistica Significatività La significatività dei parametri relativi ai fattori si può anche verificare attraverso l’intervallo di confidenza attorno all’esponenziale di b per ciascun fattore

  30. Regressione Logistica La regressione logistica fornisce le significatività per: • il modello globale • i singoli parametri, togliendo gli effetti dei parametri già considerati

  31. Regressione Logistica Il contributo di ciascun fattore e il senso della sua influenza sulla variabile dipendente è stimato attraverso l’esponenziale di b (odds ratio)

  32. Regressione Logistica Esempio logit (risposta aggressiva)= b0 + b1  x1 + b2  x2+ b3  x3 Dove il logit della probabilità di rispondere in modo aggressivo è visto in funzione di una costante b0 sommata al contributo dato da ciascun fattore al quale il modello ha attribuito il valore 1 moltiplicato per il suo coefficiente bn Attraverso la regressione logistica tutte le variabili categoriche vengono trasformate in variabili dicotomiche (con valori 0,1) B1 è il parametro relativo all’essere maschi B2 è il parametro relativo all’età B3 è il parametro relativo alla professione di dipendente

  33. Regressione Logistica

  34. Regressione Logistica

  35. Regressione Logistica Exp(b) L’esponenziale di b relativo al genere è dato dal rapporto fra l’odds di rispondere con un comportamento aggressivo essendo femmina diviso l’odds di rispondere con un comportamento aggressivo essendo maschi.

  36. Analisi Log - lineare • SCOPO: studia la relazione fra più di due variabili qualitative categoriche • TIPO DI PROCEDURA: modello logistico applicato a una tavola di contingenza multidimensionale

  37. Analisi Log lineare Tavola di contingenza multidimensionale: ogni cella è vista come combinazione di due o più variabili Esempio

  38. Analisi Log lineare • Applicare più test χ² per analizzare ciascuna combinazione sarebbe una procedura non corretta perché: • Aumento dell’errore alpha • Lettura dei risultati non comprensibile

  39. Analisi Log lineare • Date le tre variabili da studiare nella loro relazione è possibile analizzare: • Ogni confronto binario • L’interazione fra tutte le variabili

  40. Analisi Log lineare Modello Log lineare attraverso un’unica procedura di analisi rappresenta tutte le possibili combinazioni in modo indipendente le une dalle altre. • Struttura modello • Stima dei parametri e valutazione della bontà del modello

  41. Analisi Log lineare Struttura: logaritmo delle frequenze di ogni combinazione possibile in funzione dei valori delle varie componenti di classificazione Tuttavia… Scopo del modello è rappresentare adeguatamente i dati sperimentali con il numero minore di relazioni fra le variabili.

  42. Analisi Log lineare Tutte le variabili sono considerate come variabili indipendenti o fattori, la variabile dipendente è il numero di casi in ogni cella, ovvero la frequenza osservata, che è proprio l’indice dell’interazione fra le variabili in studio.

  43. Analisi Log lineare Stima dei parametri: • Calcolo del logaritmo delle frequenze osservate in base al modello • Calcolo delle frequenze attese • Confronto frequenze attese con le frequenze osservate • Valutazione della bontà del modello

  44. Analisi Log lineare • Una volta calcolate le frequenze attese per ogni cella si calcolano i punti z dal rapporto di ciascun parametro e il suo errore standard. • Per verificare se il modello rappresenta sufficientemente i dati si può considerare il test sull’ipotesi nulla che λ sia uguale a zero attraverso i limiti di falsificazione della distribuzione z.

  45. Analisi Log lineare • I dati sperimentali possono produrre diversi modelli Log Lineari. • Il modello è definito saturo quando rappresenta tutte le possibili combinazioni fra le celle; • non saturato quando solo alcune delle interazioni sono considerate.

  46. Analisi Log lineare • Nel modello gerarchico l’effetto interazione (definito termine di ordine superiore in quanto comprende in sé più termini) è accostato a termini di ordine inferiore. • Attraverso questo modello è possibile considerare solo gli effetti di ordine superiore o inferiore

  47. Analisi Log lineare Il Goodness of fit test è basato sul Χ2 e testa la probabilità che quel particolare modello (Fij ) rappresenti bene i dati sperimentali (Fij ). È calcolato tramite la formula:

  48. Analisi Log lineare Il Likelyhood ratio test: la probabilità che raccolti quei dati sperimentali essi siano generati dal modello ed è dato dal logaritmo del rapporto fra valori sperimentali e teorici per tutte le possibili condizioni.

  49. Tecniche descrittive • Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio • Il fine è la descrizione semplificata del fenomeno attraverso il modello di riferimento

  50. Tecniche descrittive • Metodo: il modello è creato ad hoc sui dati sperimentali • Diversi livelli di complessità del modello a seconda del fenomeno in studio • Esempi: distribuzioni di probabilità, analisi fattoriale, analisi discriminante, cluster analysis

More Related