340 likes | 617 Vues
Kvalita diagnostiky z pohledu (klasické) teorie testů. Petr Blahuš. Sekce metodologie České kinantropologické společnosti a Katedra základů kinantropologie a humanitních věd Univerzita Karlova, Fakulta tělesné výchovy a sportu. Co je “diagnostika” ?? Konotace:
E N D
Kvalita diagnostiky z pohledu (klasické)teorie testů Petr Blahuš Sekce metodologie České kinantropologické společnosti a Katedra základů kinantropologie a humanitních věd Univerzita Karlova, Fakulta tělesné výchovy a sportu
Co je “diagnostika” ?? Konotace: v terapii, pedagogice, v teorii systémů, ve vědě Odlišit: - diagnostické metodiky ne-nutně-vědecké, pro praxi klinickou a pedagogickou - diagnostické metodiky vědecko-výzkumné pro zjišťování dat v empirickém výzkumu = prostředky vědecké metody „pozorování“
Diagnostikovaná vlastnost splňuje vědecké požadavky: “výzkumná proměnná” ne-nutně-veličina, tj. ne nutně kvantitativní např. druh laterality (pravorukost-levorukost) Diagnostická kvalita ověřena mimo jiné i: souborem standardizačních charakteristik - indexů, pro, různé populační kategorie, účely atp ...
Metodologie vědy : - přímo pozorovatelná proměnná - teoreticko-konceptuální proměnná, slangově tzv. “teoretický konstrukt”
Přímo pozorovatelná proměnná, „indikátor”: operacionalizovaná pomocí dílčíkonkrétní a specifické procedury např. : - Unifit test, - měření systolického krevního tlaku, - otázka v dotazníku, - zařazení do kategorie po strukturovaném rozhovoru
Teoreticko-konceptuálníproměnná,konstrukt povahy syntetické, abstraktní a generické (indikátory “téhož druhu”), např. aerobní vytrvalost, předstartovní anxiózita, senzo-motorická koordinace, rovnovážná schopnost, extroverze, sebepojetí, kvalita života, zdravotně orientovaná zdatnost,
Příklad z klinické lékařské oblasti: - inidikátor: symptom, příznak : horečka, zvětšená játra, nález v krvi, ... - koncept: syndrom, “obraz” nemoci : tyfus (salmonely či rickettsie a jejich toxiny jsou příčinou i symptomem tyfu, nikoli však chorobou samou, “celkovým onemocněním zvaným tyfus”)
Zprostředkované “slabéasociativní měření” = „měření“ konceptů pomocí indikátorů tj. modelování např. známé - model společných latentních faktorů, - IRT modely položkových odpovědí, . . . a nejstarší klasický - klasický model teorie testů,
Jak k problému přistupuje klasická teorie testů ? Jakákoli výzkumná diagnostická metodika je “test” Cíl teorie testů: zkvalitnění diagnostiky pomocí modelových vztahů mezi vlastnostmi testu
Intuitivní příklady: obtížnost - validita reliabilita - validita délka testu - reliabilita - validita oprava validity na vliv nepřijatých uchazečů validita proti efektivitě selekce Příklady obvyklých praktických úkolů: maximalizace predikční validity pro přijímání a selekci uchazečů optimální redukce a úspornost diagnostiky “test equating” - zajištění srovnatelnosti výsledků různých verzí testu atd.
“Psychometrické” vlastnosti testu: reliabilita, validita objektivita, homogenita*, obtížnost, konzistence, délka, ekvivalence, čas, specifičnost, rychlost, generalizabilita dimenzionalita-komplexita, (* expertně hodnocená vlastnost)
Validita: ne-psychometrická - expertízně posuzovaná - obsahová (logická, věcná) teoreticko-konceptuální čili “konstruktová” a homogenita - “zřejmá” neboli “face” psychometrická - formálně vyčíslená - tradiční statistické metody: korelace, regrese - netradiční: stochastické modely, teorie informace aj.
Druhy psychometrické validity latentní - manifestní faktorová(v modelu společných faktorů) diskriminační síla (v modelech IRT), konvergentní / diskriminantní(MTMM) vnitřní - vnější jednoduchá - složená přímá - “čistá” - inkrementální souběžná - predikční absolutní - diferenciální vnitřní vzájemná paramorfní
Odhad reliability pro testy paralelně a tau-ekvivalentní - metodou “stability, test-retest”(u paralelních testů) -dělením, “split-half “(paralelně-ekvivalentní části, “metoda konzistence”, nezaměňovat s konzistencí testu !!) - metodou “obsahové ekvivalence”-dva různé testy paralelně-ekvivalentní - metodou “dolní meze”(u tau-ekvivalentních testů): - přímo : Cronbachův koeficient ALFA - z faktorového modelu: McDonaldův OMEGA - vnitrotřídní korelací z ANOVA s nejméně dvojrozměrným designem a modelem typu „mixed s replikacemi“
Typy ekvivalence testů u unidimenzionální homogení skupiny testů (od nejsilnější po nejvolnější typ ekvivalence): - paralelně-ekvivalentní - true-score ekvivalentní: - tau-ekvivalentní - kvazi-tau-ekvivalentní - kongenerické - unidimenzionální
Indikátor = “test” Koncept = “to, co má test měřit” .. laická „definice“ validity Jak matematicky tento problém modeluje klasická teorie testů? Analogie Gaussova modelu chyb měření: změřená hodnota =přesná hodnota+ chyba
Terminologie teorie testů: pozorovanáhodnota = skutečnáhodnota + diskrepance observed score x = true score + discrepancy x = + x Empirický indikátor Nepozorovatelný koncept Diskrepance známá neznámá neznámá Ve výzkumné diagnostické praxi se případ absolutně nulovédiagnostické diskrepance téměř nikdy nevyskytuje.
Dvě pojetí nepozorovatelné skutečné hodnoty : 1) ...specifická přesná hodnota individuálního testu např. ´přesná hodnota systolického krevního tlaku´ ...diagnostická chyba , jakoby „chyba měření“ diskrepance = chyba v důsledku ne-reliability testu u některých (!) testů můžeme výjimečně smysluplně (?) odhadnout několika n opakováními 1, 2,..., n jako jejich průměrP P(x1, x2,.. .xn) , tj. statistický odhad blížící se k neznámemu .
... generická úroveň teoretického “konstruktu” společného skupině testů, tj. indikátorů „téhož druhu“ např. ´úroveň senzo-motorické koordinace indikované několika různýmitesty´, pak ... diskrepance hodnoty x daného testu od coby úrovně “konstruktu” , společného skupině m testů x1, x2, ..., xm, = směschyby a specifičnosti testu
U specifického : = chyba konečného výsledku diagnostiky jednotlivce V ní komplexně všechny vlivy, podle přísnosti standardizace : prostředí, chyby experimentátora, nestabilita atd. Např.: - počasí, vliv biologických cyklů, ... - nedostatečné zaškolení pro měření kožních řas - nejednoznačost instrukcí pro časový interval k přenesení krevních vzorků do chladničky - včetně přísnosti kalibrace termostatu v chladničce Nezaměňovat s technickou chybou přístroje jako článku v komplexu zdrojů ne-reliability např. přesnost analyzátoru plynů VO2 max 3% ,
Klasický model teorie testů x = + vede i k rozkladu rozptylu: Sx2 = S2 + S2 . Soustava intuitivně i teoreticky zdůvodněných matematických axiómů modelu pak umožňuje zavést - empiricky smysluplných pojmů pro praxi, - vztahů = vzorců ke zkvalitnění diagnostiky Z nich některé nyní uvedeme i s příklady použití.
Střední- standardní diagnostická chyba • se intuitivně-logicky definuje jako • směrodatná odchylka diskrepancí, S , • tj. jako odmocnina rozptylu diskrepancí, • jakoby analogie • střední chyby „měření” S
OBSAHOVĚ HOMOGENNÍTESTY či jejich opakovaná HOMOGENNÍ „MĚŘENÍ“ diagnostikují tutéž jim společnou vlastnost, tutéž proměnnou se skutečnými hodnotami PARALELNĚ EKVIVALENTNÍ TESTY , zkráceně JEN: PARALELNÍ takové homogennítesty ve skupině diagnostikují jim společnou vlastnost se stejnoustřední diagnostickou chybouS
Koeficient diagnostické reliability (“spolehlivosti”) Rel x = S2 / Sx2 tj. podíl, proporce neznámého rozptylu skutečných hodnot ku rozptylu pozorovaných možno jen zhruba odhadnout jako korelacidvou paralelníchx , x´, - buď různých paralelních testů x , x´ - nebo paralelních měření x , x´ týmž testem
Praktické stanovení střední diagnostické chyby: Známe-li ze standardizačních studií reliabilitu Relx a směrodatnou odchylku u dané populace, vypočteme S=Sx Ilustrace: Reliabilita “měření systolického krevního tlaku“ 0,81 směrodatná odchylka v kategorii pacientů 5 mmHg střední diagnostická chyba je S= 5 .(1- 0,81) = 5 .0,09 = 5 . 0,3 = 1,5 mmHg
Střední a přibližně mezní diagnostická chyba: Při přibližně normálním rozložení: a)“střední“ chybaS- tzv. „68%-ní“ chyba znamená, že nebude překročena ve více než 32% individuálních hodnocení b) tzv. “95%-ní chyba” by neměla být překročena ve více než v “zanedbatelném” (?) počtu 5% procent případů, je tzv. přibližná mezní chybamax 2.S , Ve výše uvedeném příkladu max 3 mmHg
Kritický rozdíl dvou výsledků • U normálního rozdělění při volbě 95%-ní chyby • . • rozdíl či přírůstek, který • překračuje chyby diagnostikování • stanovíme přibližně • xa - xbkrit = 1,4 .max • Např. zlepšení či zhoršení krevního tlaku • je teprve rozdíl větší než 1,4 . 3 = 4,2 mmHg
Reliabilita = „nutná podmínka validity”- a tedy: jaká je maximální možná validita testu, známe-li jeho reliabilitu? a) Nejvyšší validita testu x k jakémukoli kritériu-účelu y nemůže převýšit odmocninu spolehlivosti testu: maximum rxy= Např. při Relx = 0,64 je maximum validity 0,80. b) Ani kritérium y nemá reliabilitu Rel y = 1, a proto maximum rxy=
c) „Disatenuace“ validity Při validitě xku y , např. rxy = 0,48, a reliabilitách Rel x= 0,64 a Rel y = 0,81 : jaká by byla validita, kdyby byly x a y diagnostikovány absolutně bez chyb ? rTxTy= rxy/( ) = 0,48 / (0,8 . 0,9) = 0,67 „Disatenuovaná” validita 0,67 : - maximální dosažitelná zlepšením reliability -rTxTy1... testy jsou kongenericky ekvivalentní
Vliv délky testu na spolehlivost • Spearmanův-Brownův S-B vzorec: • Rel(nx) = n Relx / [1 + (n-1) Relx ] • pro test, jehož části jsouparalelně ekvivalentní • Je-li test x vnitřně paralelní a s reliabilitou 0,60, • prodloužení n = 4-krát: • Rel(4x)= 4. 0,6 / [1 + (4-1).0,6] = • = 2,4 / 2,8 =0,86, • pokud 4-násobné prodloužení je prakticky únosné.
Použití S-B na “split-half” odhad reliability: - test rozdělíme na části, u každé dílčí výsledek, - dilčí výsleky rozdělíme na “sudé” a “liché”, - jsou-li paralelně ekvivalentní, - spočítáme jejich korelaci jako odhad reliabity.. Jde o reliabilitu mezi “polovinami” původního testu, proto použijeme S-B pro dvojnásobný test. . Příklad: Test sed-leh 2 minuty rozdělíme po 10-sec. intervalech na 12 častí, sečteme počet cyklů v lichých a v sudých intervalech, jejich korelační koeficient pak opravíme na délku n = 2.
Vliv délky testu na validitu • Vyšší reliabilita umožňuje zlepšit validitu - • tuto potencialitu lépe odhadneme • u vnitřně paralelního testu pomocí vzorce: • r(nx) y = rxy /
PREDIKČNÍ VALIDITA - problémy: • - oprava zkreslené validity vzhledem k odmítnutým • uchazečům • rxy = 1 / • - validita vs. efektivita selekce