MateSta
Uploaded by
75 SLIDES
961 VUES
750LIKES

Statistica

DESCRIPTION

dfnbsgfnxfg xn xb xn x

1 / 75

Télécharger la présentation

Statistica

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. LA STATISTICA

  2. STATISTICA • Un INSIEME di un elevato numero elementi (individui, organismi viventi, oggetti fisici, dati sperimentali…) presenta in sé • unacomponente aleatoria • che provoca una variabilità accidentale ossia casuale, non prevedibile, tra •  gli individui di una popolazione che non sono tutti identici tra loro ma mostrano delle variazioni • le osservazioni ripetute e svolte in condizioni simili a causa, ad esempio, • dell’incertezza della misurazione •  della presenza di fattori detti latenti •  …. • una componente strutturale • che mette in luce leggi o regolarità che legano le diverse grandezze •  avvalendosi di relazioni matematiche è possibile esprimere le relazione di causa-effetto

  3. STATISTICA La STATISTICA, seguendo una specifica metodologia scientifica, organizza, classifica e analizza dati numerici che esprimono aspetti di fenomeni collettivi scelti come oggetto di studio e permette di scoprire quanto di strutturale (regolarità.. ) è presente nel fenomeno ripetitivo, accettando la presenza di variazioni inspiegabili, corrispondenti alla accidentale variabilità  COSTRUISCE MODELLI INTERPRETATIVI DELLA REALTÀ per fini descrittivi o per consentire di fare previsioni e prendere delle decisioni  il risultato non è determinabile a priori e con esattezza ma si possono creare dei modelli matematici interpretativi che consentono di  valutare l’andamento di un fenomeno  stabilire l’attendibilità della previsione

  4. METODOLOGIE STATISTICHE:  STATISTICA DESCRITTIVA  STATISTICA INFERENZIALE

  5. STATISTICA DESCRITTIVA  l’indagine comporta la raccolta e l’analisi di una numerosa massa di dati relativi a un fenomeno  i dati sono resi comprensibili attraverso una esposizione razionale e ordinata  in tabelle  conrappresentazioni grafiche  per ridurre il volume dei dati osservati  con indicatori sintetici/numerici  media, moda, mediana… indici di dispersione e di correlazione funzioni di regressione… le informazioni raccolte ed evidenziate consentono: di descrivere il comportamento della popolazione  di prendere decisioni / pianificare azioni… modelli  per analisi comparative e previsioni (adattamento dei dati sperimentali a un modello teorico) dalla mole di dati numerici a disposizione trae degli indicatori sintetici che possano riassumere le proprietà salienti dell’intera distribuzione

  6. STATISTICA INFERENZIALE  ci si avvale di rilevazioni parziali, spesso di numerosità limitata  il comportamento o le caratteristiche della popolazione complessiva sono indotteattraverso il calcolo probabilistico (metodo preciso e quantitativo) a partire dall’analisi di un campionerappresentativo estratto dalla popolazione: dal particolare si traggono conoscenze generalizzabili, al fine di ricavare conoscenze riguardanti l’interezza del fenomeno ed esprimere informazioni sulle possibili manifestazioni future Le conclusioni non sono certezze ma STIME: asserzioni formulate con i metodi matematici del calcolo probabilistico e affette da incertezza (ERRORE) permette di inferire o indurre le proprietà di una popolazione (parametri) in base ad informazioni ricavate da un campione (statistiche) . . .

  7. STATISTICA DESCRITTIVA

  8. Caso di studio: Confronto di due trattamenti (Medicina) misurazioni relative a 43 pazienti anoressiche, divise a caso in 2 gruppi di numerosità 26 e 17, sottoposti a 2 diversi trattamenti: A=placebo B=farmaco Simisura la variazione di pesotra prima e dopo il trattamento  DATASET trattamentoA trattamentoB −5 0510 differenzedi peso (in libbre,1lb=0.45kg) −15 −10 Obiettivo: Si intende verificare se c’èun miglioramento nel peso a seguito del trattamento, ese un gruppo trattato con il farmaco ha un miglioramento superiorerispetto a quello trattato con ilplacebo

  9. TERMINOLOGIA UNITÀ STATISTICA O VARIABILE entità (caratteristica di interesse) su cui è condotta la rilevazione statistica qualitative(non numeriche) es.: tipo di trattamento..  quantitative(numeriche: continue, discrete), es.: peso, età.. MODALITÀ i valori distinti che la variabile può assumere POPOLAZIONE insieme di tutte le unità statistiche facenti parte di un collettivo di riferimento  serie di dati, che rappresenta l’insieme universoche si vuole indagare (reali, sperimentali, matematici) CAMPIONE un sottoinsieme di unità statistiche selezionate (spesso casualmente) da una popolazione. La dimensione del campione può variare da poche unità a molte migliaia di osservazioni

  10. TERMINOLOGIA ESEMPIO: Nello studio sul trattamento dell’anoressia: - la popolazione sono «tutte le ragazze affette da anoressia» - il campione è costituito da «43 pazienti anoressiche» - la variabile«differenza di peso» può assumere valori nell’intervallo (-30, 30) - le modalitàsono dunque tutti «i numeri reali appartenenti all’intervallo (-30, 30)»

  11. Caso di studio: Confronto di due trattamenti (Medicina) Vogliamo studiare quale tra due trattamenti, A e B, sia migliore  La popolazione di riferimento è l’insieme di tutti i pazienti affetti da quella particolare patologia (oggi, ma anche domani, . . .) Le unità statistiche sono i pazienti In questo caso la popolazione è virtuale e si osserva un campione. Campione di 43 unità, 26 unità sono trattate con A e 17 unità con B. Alla fine della terapia si valuta, per ogni unità, la variazione di peso.

  12. TIPI DI VARIABILE: QUALITATIVA • QUALITATIVA • quando le sue modalità sono espresse in forma verbale • (sesso, livello di istruzione, trattamento..) • A sua volta può essere: • - sconnessa o nominale: • non esiste nessun ordinamento tra le modalità • es.: variabile sesso con modalità M o F • variabile modo di somministrazione con modalità orale, endovena… • - ordinale: • si può individuare un ordinamento naturale delle modalità • es.: variabile livello di istruzione (elementare, media inf, media sup.) variabile giudizio con modalità: insuff, suff, discreto, buono..

  13. STATISTICA DESCRITTIVA ESEMPIO casi e relative cause di malfunzionamento di una macchina utensile registrati in uno stabilimento nel corso di un mese VARIABILE: cause di un guasto ad una macchina  qualitativa, non numerica

  14. TIPI DI VARIABILE: NUMERICA • QUANTITATIVA o NUMERICA • quando le sue modalità sono espresse da numeri (età, peso...) • A sua volta può essere: • - discreta: • se l’insieme delle modalità è finito o nuerabile • es.: variabile numero di teste in 10 lanci di una moneta con mod. 0, 1, 2…10 • es.: variabile numero di sedute, numero di figli.. con modalità 0, 1, 2… • - continua: • l’insieme delle modalità è un intervallo (cioè un sottoinsieme) • anche illimitato dei numeri reali • es.: variabile peso in kg che ha come modalità tutti i valori positivi • es.: variabile dose di un farmaco in mg con modalità i valori positivi da 0 a 1000

  15. STATISTICA DESCRITTIVA ESEMPIO Con uno strumento di misurazione si rileva il numero di particelle cosmiche in 40 periodi consecutivi di un minuto VARIABILE: numero delle particelle contate in un minuto  numerica e discreta n° dati: 40

  16. STATISTICA DESCRITTIVA ESEMPIO emissione giornaliera (in una data unità di misura) di un gas inquinante da un impianto industriale VARIABILE: quantità di gas inquinante emessa in un giorno  numerica e continua n° dati: 80 campo di variazione (range) R = 31,8 – 6,2 = 25,6

  17. Presentazione dei dati: Tabelle Frequenze  Grafici METODI PER ORGANIZZARE E SINTETIZZARE VISIVAMENTE UN INSIEME DI DATI

  18. Presentazione dei dati: DATI GREZZI • DATI GREZZI: dati disordinati raccolti • Lo scopo di una tabella è di sintetizzare un insieme di osservazioni e di trasformare un insieme di dati in un formato facile da capire • Se i dati sono riportati nella successione come sono stati raccolti • nonemergono le caratteristiche fondamentali della distribuzione : • tendenza centrale • variabilità del fenomeno • forma della distribuzione dei dati ESEMPIO: I dati grezzi nei due gruppi di pazienti anoressiche sono riportati di seguito. Si tratta delle differenze di peso (in libbre) nei due gruppi le pazienti trattate con la terapia A (placebo) e le pazienti trattate con B (farmaco).

  19. ORGANIZZAZIONE DEI DATI GREZZI • DEFINIRE LE CLASSI o MODALITÀ • suddivisione dei dati in gruppi • di norma tutte le classi hanno la stessa ampiezza • le classi non devono sovrapporsi • il numero delle classi dipende: • - si identificano i valori minimo e massimo: VARIABILITÀ o DISPERISONE della serie • - si stabilisce il numero ottimale di classi da considerare • - per ogni valore si contano le modalità di espressione (quante volte appare lo stesso numero) •  la FREQUENZA ASSOLUTA DELLA CLASSE (numero dei dati appartenenti alla classe) • - si dispongono i dati in una TABELLA DI DISTRIBUZIONE DI FREQUENZA (una tabella che raccoglie i dati secondo le classi e le corrispondenti frequenze) dal numero totale N delle osservazioni dalla variabilità dei dati troppe si disperde l’informazione rendendola frammentaria si perde l’informazione pochesu variabilità rendendola omogeneizzando

  20. FREQUENZA ASSOLUTA numero di osservazioni che cadono in ciascuna classe (numero di volte che quel dato compare) è un numero compreso tra 0 e il numero totale delle osservazioni RELATIVA il rapporto tra frequenza assoluta e numero totale di osservazioni è un numero compreso tra 0 e 1 dà la proporzione di osservazioni per ciascuna modalità o intervallo permette di confrontare tabelle di frequenza di una variabile calcolata per insiemi di unitàstatistiche di diversa numerosità complessiva PERCENTUALE la frequenza relativa moltiplicata per 100 è un numero compreso tra 0 e 100

  21. TABELLE DI FREQUENZA Tipo di tabella più comunemente usato per riassumere i dati Supponiamo di aver osservato una sola variabile Xsu n unità statistiche E si indica x1, x2… , xk le diverse modalità osservate (in forma verbale o numerica) - per variabili qualitative o quantitativediscrete con poche modalitàcorrispondono al numero di volte che ciascuna modalità è stata osservata - per variabili quantitative si raggruppanoi valori della variabile in una serie di intervalli o classi non sovrapposti e si conta quante osservazioni cadono nei vari intervalli DEF: Una TABELLA DI FREQUENZA associa alle modalità x1, x2… , xkdella variabile X (qualitativa o quantitativa) le corrispondenti frequenze assolute n1, n2… , nk ossia la DISTRIBUZIONE DI FREQUENZA ASSOLUTA NB Non n righe ma k righe, con k = numero di modalitàdistinte di X.

  22. Tabella di frequenza per una variabile quantitativa continua • ESEMPIO trattamento dell’anoressia, • Si utilizzano intervalli di ampiezza 5 • Considerando solo gli intervalli con frequenza positiva in almeno uno dei due gruppi, si ottiene la seguente tabella di frequenza: • Si evincono: • posizione, dimensione o tendenza centrale • variabilità o dispersione • forma della distribuzione

  23. DISTRIBUZIONE DI FREQUENZA ESEMPIO VARIABILE: numero delle particelle contate in un minuto  numerica e discreta n° dati: 40 valori assunti: 0, 1, 2, 3, 4, 5, 6, 7, 8 di conseguenza si scelgono come classi i numeri: k = 0, 1, 2, 3, 4, 5, 6, 7, 8

  24. DISTRIBUZIONE DI FREQUENZA ESEMPIO malfunzionamento di una macchina utensile VARIABILE: cause di un guasto ad una macchina  qualitativa, non numerica i dati sono già raggruppati in classi

  25. DISTRIBUZIONE DI FREQUENZA ESEMPIO emissione giornaliera di un gas inquinante VARIABILE: quantità di gas inquinante emessa in un giorno  numerica e continua n° dati: 80 campo di variazione (range) R = 31,8 – 6,2 = 25,6 numero delle classi: ampiezza delle classi:  7 classi di ampiezza 4

  26. DISTRIBUZIONI CUMULATIVE FREQUENZA ASSOLUTA CUMULATA: la frequenza totale (la somma delle frequenze) di tutti i valori minori del limite superiore di una data classe FREQUENZA RELATIVA CUMULATA la frequenza relativa di tutti i valori minori del limite superiore di una data classe

  27. Frequenze (assolute e relative) cumulate Solo per variabili le cui modalità sono ordinate, si misura la frequenza con cui si presentano modalità di valore inferiore o uguale ad una certa modalità Si ottengono “cumulando” progressivamente le frequenze (ossia sommando le frequenze della modalità, o dell’intervallo, specificata a quelle di tutte le modalità, o intervalli, precedenti) Possono essere assolute o relative. Ma per confrontare gruppi di numerosità diverse occorre utilizzare le frequenze relative.

  28. FREQUENZA CUMULATA ESEMPIO VARIABILE: numero delle particelle contate in un minuto  numerica e discreta

  29. FREQUENZA CUMULATA ESEMPIO Punteggi ottenuti con 500 lanci di 2 dadi VARIABILE: punteggio  numerica e discreta

  30. GRAFICI DI DISTRIBUZIONE DI FREQUENZA • Un buon grafico consente in modo immediato di • - sintetizzare ed evidenziare dati in modo efficace • - evidenziare irregolarità o comportamenti anomali non direttamente osservabili sui dati • (ad esempio ci si può accorgere di errori di misurazione) • - far emergere una certa caratteristica o proprietà della classe dei dati esposti • Il tipo giusto di grafico dipende dal tipo di dati disponibili. Ci sono grafici diversi per • variabili qualitative o quantitative, discrete o continue, serie storiche, serie geografiche… • Anche il numero di osservazioni è importante per scegliere il tipo di grafico. • I grafici devono essere accurati, semplici, chiari, belli e ben strutturati. • Tra le rappresentazioni grafiche più diffuse: • DIAGRAMMA CIRCOLARE O AEROGRAMMA • DIAGRAMMA A BARRE • ISTOGRAMMA • IDEOGRAMMA • DIAGRAMMA CARTESIANO…

  31. DIAGRAMMA A TORTA O CIRCOLARE Nel diagramma circolare o aerogramma le frequenze percentuali sono rappresentate da settori circolari aventi ampiezze proporzionali alle frequenze che rappresentano Il diagramma circolare è il più adatto per le frequenze relative percentuali e per le variabili non numeriche ESEMPIO: Rappresentazione della variabile provenienza dei 456 iscritti ad una facoltà universitaria Le diverse modalità sono rappresentate da uno spicchio della torta L’angolo al centro è proporzionale alla frequenza relativa di quella modalità: 360° × f.

  32. DIAGRAMMA CIRCOLARE ESEMPIO Numero di studenti iscritti ai vari anni di corso di un istituto superiore (frequenze assolute) e le corrispondenti frequenze percentuali

  33. DIAGRAMMA A BARRE (O A BASTONCINI) si raggruppano i dati in classi per ciascuna classe si disegna un rettangolo avente base di ampiezza costante e altezza uguale alla frequenza di classe i rettangoli di solito non sono adiacenti ma equidistanti fra loro (no continuità) Il numero di barre èpari al numero di modalità da rappresentare Particolarmente indicato per distribuzioni di frequenza (assolute o relative) di variabili non numeriche(qualitative ordinali o meno) e per variabili discrete

  34. ISTOGRAMMA • consiste in un insieme di rettangoli adiacenti, aventi base sull’asse orizzontale •  per rappresentare la distribuzione di frequenza di una variabile quantitativa continua con raggruppamento in intervalli •  le basi sono gli intervalli che definiscono le classi (base uguale alla corrispondente ampiezza della classe e i punti medi delle basi sono i valori centrali delle classi - intervalli riportati nella prima colonna della tabella di frequenza) •  sele classi hanno tutte la stessa ampiezza, le altezze dei rettangoli sono uguali o proporzionali, alle corrispondenti frequenze assolute (o relative o percentuali) •  se le classi sono di ampiezza diversa, i rettangoli hanno area (non più altezza!) corrispondente alla frequenza: l'altezza del rettangolo sarà uguale o proporzionale • al rapporto fra la frequenza e l'ampiezza di classe • Tale rapporto si chiama densità di frequenza • unendo i punti medi • dei lati superiori dei • rettangoli, si ottiene il cosiddetto • poligono di frequenza

  35. ISTOGRAMMA: CLASSI DI AMPIEZZA DIVERSA l’altezza di ogni rettangolo corrisponde non alla frequenza ma alla densità media dei valori all’interno della classe corrispondente. L’area dei rettangoli contiene l’informazione relativa alla frequenza Questa distinzione è teoricamente importante, anche se non sempre rilevante da un punto di vista pratico

  36. ISTOGRAMMA Nota . . . Il grafico suggerisce le stesse considerazioni fatte sulla base della tabella di frequenza: la distribuzione delle pazienti trattate con il farmaco (tratt. B) è, rispetto a quella delle pazienti trattate con il placebo (tratt. A), più spostata verso destra

  37. POLIGONO DI FREQUENZA  GRFICO A LINEE È un grafico molto simile all’istogramma e usa i suoi stessi assi. È costruito congiungendo con segmenti i punti centrali dei lati superiori dei rettangoli che definiscono l’istogramma. In genere, si aggiungono due classi terminali con frequenza zero e ampiezza pari a quella della classe adiacente. In questo modo, la somma delle aree dei rettangoli è uguale all’area sottesa al poligono di frequenza, se le classi sono di egual lunghezza.

  38. OSSERVAZIONI SU ISTOGRAMMI Numero di intervalli: nella costruzione di un istogramma esiste un elemento di arbitrarietà: la scelta di quanti e quali intervalli utilizzare. È necessario fare un po’ di attenzione  Suggerimenti: quasi sempre èconveniente fare più di un grafico. Si provano differenti lunghezze per gli intervalli e poi si sceglie. Il numero di intervalli deve dipendere dal numero di dati. Ripartire 1000 osservazioni in 40 intervalli puòanche dare risultati sensati, ma usare gli stessi 40 intervalli per 20 dati non è appropriato. Se le basi hanno ampiezze diverse, in corrispondenza di ciascun intervallo si ha un rettangolo la cui area èproporzionale alla frequenza corrispondente all’intervallo stesso, ovvero area rettangolo = base × altezza = frequenza.

  39. GRAFICI DI DISTRIBUZIONE DI FREQUENZA EFFETTO DELL’AMPIEZZA DI BASE IN CIASCUN CASO SONO PRESENTATI GLI STESSI DATI MA LE AMPIEZZE DEGLI INTERVALLI SONO DIVERSE

  40. GRAFICI DI DISTRIBUZIONE DI FREQUENZA ALCUNE POSSIBILI FORME DI DISTRIBUAZIONI DI FREQUENZA

  41. GRAFICI DI DISTRIBUZIONE DI FREQUENZA DIAGRAMMA CARTESIANO EVIDENZIA: ASSOCIAZIONI TRA LE VARIABILI IN GIOCO  TENDENZE…

  42. MISURE DI SINTESI

  43. MISURE DI SINTESI • Fin qui si sono studiati le tabelle e i grafici come metodi per organizzare e sintetizzare • visivamente i dati. • Questi metodi non permettono, tuttavia, di formulare affermazioni sintetiche che • caratterizzino una distribuzione nel suo insieme e che ne evidenzino caratteristiche • essenziali. • Per variabili quantitative, è utile disporre di misure numeriche di sintesi. • Obiettivo di tali misure è: •  descrivere sinteticamente caratteristiche di un insieme di dati • mettere in evidenza le particolarità di una distribuzione di frequenza • Tutti avete sentito parlare di una “media” (come, ad esempio, il voto medio alla • maturità di una classe di liceo). Ma che cosa indica esattamente questa media? E • basta da sola a descrivere un insieme di dati?

  44. INDICI Evidenziano e descrivono le caratteristiche della distribuzione • INDICI DI POSIZIONE O CENTRALITÀ valore centrale, medie algebriche, mediana, moda, quantili (quartili e percentili) - identificano il valore «tipico» attorno al quale è centrato l’insieme dei dati - esprimono l’ordine di grandezza o la tendenza centrale dell’insieme dei dati relativi al fenomeno • INDICI DI DISPERSIONE O VARIABILITÀ intervallo di variazione, varianza, varianza stimata, deviazione standard, deviazione standard stimata - descrivono in che modo i dati sono distribuiti intorno al valore centrale - consentono di valutare le disuguaglianze dei dati in relazione allo scostamento o dispersione da una media o un valore centrale - sintetizzano il grado di variabilità dei dati • INDICI DI SIMMETRIA O ASIMMETRIA LE MISURE DI TENDENZA CENTRALE E DI DISPERSIONE RISPECCHIANO LA POSIZIONE E L’AMPIEZZA DI UNA DISTRIBUZIONE DI FREQUENZA

  45. VALORE CENTRALE È il punto medio di ogni classe Dato l’insieme di valori {x1, x2, . . . , xn} di una classe il valore centrale considera solo i due valori estremi (non tiene conto di tutti i valori): dove xmax= max {x1, x2, . . . , xn} e xmin = min {x1, x2, . . . , xn}. Esempio: {3, 20, 27, 25, 30, 310} = = 156,5

  46. MEDIA ARITMETICA O CAMPIONARIA MEDIA ANALITICA dato l’insieme di n valori {x1, x2, . . . , xn la media aritmetica è il valore medio inteso in senso analitico: La media aritmetica è sempre compresa tra il più piccolo e il più grande dei valori osservati SCARTO DALLA MEDIA indica il grado di scostamento del singolo valore xi dalla media

  47. MEDIA ARITMETICA: osservazioni • • centro di gravità dei dati • • utilizza tutti i dati • • la media puònon appartenere all’insieme dei dati • • non sempre rappresenta in modo significativo l’insieme dei valori a cui si riferisce • • riduce l’effetto dei dati estremi (se non sono molto grandi rispetto agli altri dati) pur restando sensibile ai valori anomali (o insoliti o estremi) • • nel caso di distribuzioni multimodali, la media raramente identifica un valore tipico • •implica la somma di valori numerici ⇒ ha significato solo per le variabili quantitative (continue o discrete), ma non per variabili categoriali nominali o ordinali. Un’eccezione a questa regola si ha con le variabili dicotomiche le cu modalità siano codificate 0 e 1. Ad esempio se nello studio ci sono 8 foglie verdi (valore 1) e 5 foglie gialle (valore 0), la media (interpretabile come una proporzione) è • ossia il 61,5 % delle foglie è verde.

  48. MEDIA ARITMETICA: se i dati sono raggruppati in classi • Con una distribuzione di frequenza per una variabile quantitativa continua con • raggruppamento in classi, si usa la stessa formula con xjvalore centrale del j-esimo • intervallo, njfrequenza assoluta del j-esimo intervallo e k numero di intervalli

  49. MEDIA PONDERATA MEDIA PONDERATA quando ciascuna modalità si presenta con una certa frequenza o peso, è più vantaggioso calcolare la media aritmetica considerando le frequenze: ogni valore entra nella media con il suo peso, cioè la sua frequenza dato l’insieme di valori {x1, x2, . . . , xm} con le rispettive frequenze assolute {f1, f2, . . . , fm} la media aritmetica ponderata M di n valori è: NOTA: Poiché , si ha:

  50. MEDIA ARITMETICA: proprietà • PROPRIETÀ • 1) Se applico una trasformazione lineare ai dati: • 2) PROPRIETÀ DI BARICENTRO La somma degli scarti dalla media è nulla: •  la media si può considerare il baricentro del campione dove si bilanciano gli scarti • 3) MINIMI QUADRATI La somma dei quadrati degli scarti al quadrato dei dati da un valore C è minima se C coincide con il valor medio:

More Related