230 likes | 297 Vues
„Tatisztika… Ammeg mi?”. (békásmegyeri aluljáró járókelője). Elméleti alapok I. – fogalmak, jelölések. Változó (variable): „bármi, amit mérni, vagy megfigyelni tudunk”. Változó kimenetele (outcome): „a változó lehetséges értéke”.
E N D
„Tatisztika… Ammeg mi?” (békásmegyeri aluljáró járókelője)
Elméleti alapok I. – fogalmak, jelölések Változó (variable): „bármi, amit mérni, vagy megfigyelni tudunk” Változó kimenetele (outcome): „a változó lehetséges értéke” Esemény (event): „a változó egy lehetséges értékét megfigyeljük/mérjük” Eset (case): „ahol/akin/amin… mérjük az értéket” Eseménytér (event field): „a megfigyelhetőségeket tartalmazó virtuális tér” Valószínűségi változó: ha egy eseménytérelemeihezszámokat rendelünk, akkor az eseményeken egy függvényt értelmezhetünk. Ezt a függvényt nevezzük valószínűségi változónak. Általában: ez a változó eloszlása. Eloszlás, spektrum: „hány darab adott értékű elem van” típusok: sűrűség fv/kumulatív fv; illetve relatív/abszolút (Egyes tudományterületeken eltérő, hogy mit értenek eloszlás alatt!!!) Nagy számok törvénye
Elméleti alapok II. - események valószínűsége Egyes elemi események: nagy betűkkel pl.: A. A esemény bekövetkezésének valószínűsége: P(A). P, hogy A vagy B esemény bekövetkezik: P(A+B) vagy P(AUB). P, hogy A és B is bekövetkezik: P(A*B), vagy P(AB) vagy p(A∩B). Események valószínűségének alaptörvényei (Kolmogorov-axiómák) 1. 0 ≤ P(A) ≤ 1. 2. P(biztos) = 1, P(lehetetlen) = 0. 3. Egymást kizáró eseményekre, P(A*B)=0 és ekkor ezek egyesítésének valószínűsége: P(A+B)=P(A)+P(B). [Alzheimeres (A), nem Alzheimeres (B) egér az állatházban] 3+. Egymástól független eseményekre: P(AB)=P(A)*P(B)[Alzheimeres (A), egér (B) az állatházban]
Elméleti alapok III. – kombinatorika (esetszám meghatározása) 1.A. Ismétlés nélküli permutáció: [hányféle sorrendben mérheti le Ildi SPECT/CT-n a 4 féle módon kezelt gilisztát] n! 1.B. Ismétléses permutáció: [hányféle sorrendben mérheti le Ildi a 3 kontroll és 4 beteg nyuszit – ha a kontroll, ill. betegek uolyanok] 2.A. Ismétlés nélküli kombináció: [hányféleképpen választhat ki Ildi 4 egeret a méréshez a 10 különböző közül] 2.B. Ismétléses kombináció: [hányféleképpen választhat ki Ildi 4 egeret a méréshez a 3 eltérő dobozban levő, összesen 10 közül] 3.A. Ismétlés nélküli variáció: [hányféleképpen választhat ki és mérhet le Ildi 4 egeret a méréshez a 10 különböző közül] 3.B. Ismétléses variáció: … nkIsmétlés nélküli: nincs egyforma elem
Na az eddigiek meg mire vótak jók…. Arra, hogy kiszámoljuk, hogy például: Irodalomból tudjuk, hogy az XY anyagot használva az állatok 20%-a hót meg. Mennyi annak a valószínűsége, hogy egy 20 fős csoportban legalább 14 túléli? (és 15 vagy 16?)… Hogy n-ből (20) pontosan k (14) túléli, annak a valószínűsége: (p=1-20%=80%) (Binomiális eloszlás) Ez kb. 0,11. Hogy legalább 14 túléli: 0,91. (15-re 80%; 16-ra 63%) Hasonlóan, okos emberek kiszámolták, hogy mi annak a valószínűsége, hogyha 2 egyforma normális eloszlású N1 és N2 elemű adathalmazból A illetve B számú elemet kiveszek, akkor az „A elemek” és „B elemek” átlagának különbsége egy adott érték. (t-eloszlás)
Különbség valószínűsége?!…. Biológiai rendszereink esetében kérdésünk általában: Van-e különbség? Van-e hatás? = van-e különbség; együttváltoznak-e? 1. lehetőség: ránézésre is látszik, hogy van/nincs!! Na akkor nézzünk rá az egészre – helyes ÁBRÁZOLÁSNade ez igaz akkor is ha nem minden lehetőséget tudok, mintám van? 2. lehetőség: ránézésre gyanús… Ha az egyik adatpárt nézem van, ha másikat nincs…. Ráadásul az összes lehetőséget (populáció) nem ismerem, csak mintám van…. Hogyan jellemezzem: eloszlása – de probléma uúgy fennáll: melyik értékpárt nézzem? Na akkor keressünk jellemzőket….
Újabb fogalmak…. Eloszlás „közepe” (középértékek) Populáció: várható érték Minta - becslés: átlag [mean]: számtani közép; általános jelölése: (átalgos négyzetes eltérés minimális) medián [median]: a „középső” elem; ha több középső van, akkor: elméletileg: a két középső közti összes elem gyakorlatilag: a két középső elem átlaga (abszolút eltérés minimális) módusz [modus; mode]: a leggyakrabban előforduló elem
Újabb fogalmak 2…. Eloszlás „szélessége” (szórásértékek) Populáció: elméleti szórás Minta - becslés: szórásnégyzet [variancia]: átlagtól vett átlagos négyzetes eltérés (korrigált) (tapasztalati) szórás [standard deviation]: átlagtól vett (korrigált) átlagos négyzetes eltérés négyzetgyöke Interkvartilis távolság kvantilisek: Legyen p 0 és 1 közötti szám (0 < p < 1), az x1, x2, …, xn, adatrendszer p-kvantilisének nevezzük azt a számot, amelynél kisebb adatok darabszáma legfeljebb np és amelynél nagyobb adatok darabszáma legfeljebb n(1 – p) (v.ö. medián p = 1/2) p = 1/4 alsó, p = 3/4 felső kvartilis („negyedelő”)
Újabb fogalmak 3…. Populáció-Minta??? Várható érték becslésnek a „jóságát” becsli: az átlag szórása/hibája (standard hiba – ez azért jobb kifejezés, mert nem normál eloszlás esetén nem az átlaggal becslünk…) [standard error]; Szélességet a mintaszámmal súlyozza! Ennek számítása a tapasztalati szórásból történhet [Gauss eloszlásnál; nem normál eloszlásoknál a várható értéket inkább a mediánnal, módusszal becsüljük, így ott egy kicsit más a helyzet] A kiszámítás módjából látható, hogy a minta elemszámának (n) növelésével az átlag hibája csökkenthető!!! (azaz a várható érték pontosabban becsülhető)
Újabb fogalmak 4…. centrális momentumok: az adatok átlagától vett távolságának valamelyik hatványa, osztva a minta elemszámával. [A gyakorlatban az első négy momentumot használjuk] Általánosan: , ahol r mutatja, hogy hanyadik momentumról van szó. {vagyük észre, hogy az 1. centrális momentum =0, hiszen a zárójelet felbontva az első tag maga az átlag és ebből vonjuk ki az átlagot!; valamint látjuk, hogy a második momentum nem más, mint a nem korrigált (hiszen n-nel és nem n-1-gyel van osztva) – azaz torzított – szórásnégyzet!} ferdeség [skewness]: az eloszlás asszimetriáját mutatja: mennyire ferdül balra (+), vagy jobbra (-) a normál eloszláshoz képest (második és harmadik momentumból számolható) laposság (csúcsosság) [kurtosis]: csúcsosabb (+), vagy kevésbé csúcsos (-), mint a normál eloszlás (második és negyedik momentumból számolható) minimum, maximum a minta elemszáma [count, number]; általános jelölése: n; [a populáció elemszámát N-nel jelöljük; gyakran végtelennek tekintjük] tartomány [range]: legnagyobb érték-legkisebb érték tartománya
Újabb fogalmak 5…. konfidencia-intervallum (szokták biztonsági tartománynak; megbízhatósági tartománynak is hívni): azt a tartományt (intervallumot) jelöli ki, amelyben a várható érték adott valószínűséggel (konfidencia valószínűség, konfidenciaszint) tartózkodik. Megj.: normál eloszlásnál (t:t-eloszlás értéke) Ehhez hasonlóan írhatunk le jellegzetes tartományokat: Az adatok adott százaléka található az adott tartományban. Kiemelendő a normál (refernecia) tartomány, ami a 95%-os tartomány. Megj.: normál eloszlásnál :
Különbség valószínűsége 2. Biológiai rendszereink esetében kérdésünk általában: Van-e különbség? Van-e hatás? = van-e különbség; együttváltoznak-e? 1. lehetőség: ránézésre is látszik, hogy van/nincs!! helyes ÁBRÁZOLÁS 2. lehetőség: ránézésre gyanús… Hasonlítsunk össze jellemzőket – hogyan? A saját adatunk paraméteré(ei)t egy ismerthez viszonyítjuk Null-Hipotézis: nincs különbség közöttük Ehhez „átalakítjuk” a paramétereineket Milyen esetben, hogyan? – ezt is már megmondták… hipotézisvizsgálat - statisztikai tesztek (próbák) (favágás) Eredmény: DÖNTHETEK DE HIBA lehetőségével (mert mintám van csak és nem a teljesség)
A DÖNTÉS Amit számolhatok: az elsőfajú hiba – ez alapján döntök. Megj.: Másodfajú hiba nem ismert, csak becsülhető! Szignifikancia szint: a maximálisan meghatározott elsőfajú hiba (maximálisan milyen valószínűséggel vagyok hajlandó elvetni a null-hipotézist) Gyakorlatban egy próba ereje: annak a valószínűsége, hogy a teszttel különbséget tudunk kimutatni, amikor ez a különbség valóban létezik. Elemszám és statisztikai teszt függő!
Favágás - általában 0. döntés szignifikancia szintjének meghatározása (szokásos: 5%, azaz 0,05) 1. megfelelő kérdés feltevése [pl.: hatásos-e ez a gyógyszer? – azaz csökkenti-e a vérnyomást?...] 2. H0 (null-hipotézis) megfogalmazása: az általunk vizsgált statisztikai (valószínűségi) változó eloszlásából származtatható paraméter csak a véletlen miatt (mintavételezés) tér el az általunk ismert eloszlás paraméterétől [A két csoportunkban mért vérnyomás nem különbözik egymástól – „különbségük” 0] 3. Halternatív (alternatív-hipotézis) megfogalmazása: null-hipotézis tagadása 4. Próba kiválasztása – a legjobb fejsze a körülményeknek megfelelően 5. Az eredményül kapott lehetséges elsőfajú hiba értékének és szignifikanciaszintnek az összevetése – döntés null-hipotézisről. 6. Válasz a kérdésre (dől a fa)
Favágás – vágjunk fát… Online egyszerű statisztika program: http://www.graphpad.com/quickcalcs/ Hasznos link: http://www.graphpad.com/guides/prism/6/statistics/ Megj.: centrális határeloszlás tétele: ha egy valószínűségi változó sokegymástól független kis hatás összegződéseként áll elő, akkor az jó közelítéssel normális eloszlású. (biológiai rendszerekben ez általában igaz) Megj.: normál eloszlás esetében a paraméteres (t-próba, ANOVA…) próba a legerősebb Megj.: paraméteres próba átlag és szórás alapján számol – érzékeny a kiszóró adatokra Megj.: nem paraméteres próba medián, interkvartilis távolság alapján számol – kevésbé érzékeny a kiszóró adatokra Megj.: MWU próbánál kis elemszám esetében a különböző programok eltérő korrekciót használnak Megj.: adatfelvételkor törekedjünk a lehető legmagasabb mérési skálára
ANOVA, F-érték F=MSa/MSe , F-érték számos helyen előfordul, szinte mindig (kivéve Fisher F) szórások hányadosát jelenti
Fisher Fisher egzaktról: A teszt elnevezése arra utal, hogy a khí.négyzet eloszlással szemben, ahol a valószínűséget csak közelítjük (asszimptotikusan), az egzakt tesztnél a táblához tartozó valószínűség pontosan meghatározható. Ehhez az adott marginális összegekhez (Rm; illetve Cn a sorokra és oszlopokra) tartozó összes lehetséges altáblát (segédtáblát – ai,j értékekkel az adott cellában) kell létrehozni, és mindegyikből kiszámítani a feltételes valószínűséget (pcutoff) a következő módon (N az összelemszámot jelöli): Az adott kritériumnak (pl. a megfigyelt gyakoriságokból számított p értéknél kisebb p értékűek) megfelelő valószínűségek összege adja a lehetséges elsőfajú hiba értékét.
Fisher Fisher egzaktról: A teszt elnevezése arra utal, hogy a khí.négyzet eloszlással szemben, ahol a valószínűséget csak közelítjük (asszimptotikusan), az egzakt tesztnél a táblához tartozó valószínűség pontosan meghatározható. Ehhez az adott marginális összegekhez (Rm; illetve Cn a sorokra és oszlopokra) tartozó összes lehetséges altáblát (segédtáblát – ai,j értékekkel az adott cellában) kell létrehozni, és mindegyikből kiszámítani a feltételes valószínűséget (pcutoff) a következő módon (N az összelemszámot jelöli): Az adott kritériumnak (pl. a megfigyelt gyakoriságokból számított p értéknél kisebb p értékűek) megfelelő valószínűségek összege adja a lehetséges elsőfajú hiba értékét.
Tűk A=4,3 D=5,5 P=2A/(D*pi) Pi=(2A*összes)/(D*talált)