Kvalita diagnostiky z pohledu (klasické) teorie testů

Kvalita diagnostiky z pohledu (klasické)teorie testů Petr Blahuš Sekce metodologie České kinantropologické společnosti a Katedra základů kinantropologie a humanitních věd Univerzita Karlova, Fakulta tělesné výchovy a sportu

Co je “diagnostika” ?? Konotace: v terapii, pedagogice, v teorii systémů, ve vědě Odlišit: - diagnostické metodiky ne-nutně-vědecké, pro praxi klinickou a pedagogickou - diagnostické metodiky vědecko-výzkumné pro zjišťování dat v empirickém výzkumu = prostředky vědecké metody „pozorování“

Diagnostikovaná vlastnost splňuje vědecké požadavky: “výzkumná proměnná” ne-nutně-veličina, tj. ne nutně kvantitativní např. druh laterality (pravorukost-levorukost) Diagnostická kvalita ověřena mimo jiné i: souborem standardizačních charakteristik - indexů, pro, různé populační kategorie, účely atp ...

Metodologie vědy : - přímo pozorovatelná proměnná - teoreticko-konceptuální proměnná, slangově tzv. “teoretický konstrukt”

Přímo pozorovatelná proměnná, „indikátor”: operacionalizovaná pomocí dílčíkonkrétní a specifické procedury např. : - Unifit test, - měření systolického krevního tlaku, - otázka v dotazníku, - zařazení do kategorie po strukturovaném rozhovoru

Teoreticko-konceptuálníproměnná,konstrukt povahy syntetické, abstraktní a generické (indikátory “téhož druhu”), např. aerobní vytrvalost, předstartovní anxiózita, senzo-motorická koordinace, rovnovážná schopnost, extroverze, sebepojetí, kvalita života, zdravotně orientovaná zdatnost,

Příklad z klinické lékařské oblasti: - inidikátor: symptom, příznak : horečka, zvětšená játra, nález v krvi, ... - koncept: syndrom, “obraz” nemoci : tyfus (salmonely či rickettsie a jejich toxiny jsou příčinou i symptomem tyfu, nikoli však chorobou samou, “celkovým onemocněním zvaným tyfus”)

Zprostředkované “slabéasociativní měření” = „měření“ konceptů pomocí indikátorů tj. modelování např. známé - model společných latentních faktorů, - IRT modely položkových odpovědí, . . . a nejstarší klasický - klasický model teorie testů,

Jak k problému přistupuje klasická teorie testů ? Jakákoli výzkumná diagnostická metodika je “test” Cíl teorie testů: zkvalitnění diagnostiky pomocí modelových vztahů mezi vlastnostmi testu

Intuitivní příklady:  obtížnost - validita  reliabilita - validita  délka testu - reliabilita - validita  oprava validity na vliv nepřijatých uchazečů  validita proti efektivitě selekce Příklady obvyklých praktických úkolů: maximalizace predikční validity pro přijímání a selekci uchazečů  optimální redukce a úspornost diagnostiky “test equating” - zajištění srovnatelnosti výsledků různých verzí testu atd.

“Psychometrické” vlastnosti testu: reliabilita, validita objektivita, homogenita*, obtížnost, konzistence, délka, ekvivalence, čas, specifičnost, rychlost, generalizabilita dimenzionalita-komplexita, (* expertně hodnocená vlastnost)

Validita: ne-psychometrická - expertízně posuzovaná - obsahová (logická, věcná) teoreticko-konceptuální čili “konstruktová” a homogenita - “zřejmá” neboli “face” psychometrická - formálně vyčíslená - tradiční statistické metody: korelace, regrese - netradiční: stochastické modely, teorie informace aj.

Druhy psychometrické validity latentní - manifestní faktorová(v modelu společných faktorů) diskriminační síla (v modelech IRT), konvergentní / diskriminantní(MTMM) vnitřní - vnější jednoduchá - složená přímá - “čistá” - inkrementální souběžná - predikční absolutní - diferenciální vnitřní vzájemná paramorfní

Odhad reliability pro testy paralelně a tau-ekvivalentní - metodou “stability, test-retest”(u paralelních testů) -dělením, “split-half “(paralelně-ekvivalentní části, “metoda konzistence”, nezaměňovat s konzistencí testu !!) - metodou “obsahové ekvivalence”-dva různé testy paralelně-ekvivalentní - metodou “dolní meze”(u tau-ekvivalentních testů): - přímo : Cronbachův koeficient ALFA - z faktorového modelu: McDonaldův OMEGA - vnitrotřídní korelací z ANOVA s nejméně dvojrozměrným designem a modelem typu „mixed s replikacemi“

Typy ekvivalence testů u unidimenzionální homogení skupiny testů (od nejsilnější po nejvolnější typ ekvivalence): - paralelně-ekvivalentní - true-score ekvivalentní: - tau-ekvivalentní - kvazi-tau-ekvivalentní - kongenerické - unidimenzionální

Indikátor = “test” Koncept = “to, co má test měřit” .. laická „definice“ validity Jak matematicky tento problém modeluje klasická teorie testů? Analogie Gaussova modelu chyb měření: změřená hodnota =přesná hodnota+ chyba

Terminologie teorie testů: pozorovanáhodnota = skutečnáhodnota + diskrepance observed score x = true score  + discrepancy  x =  +  x  Empirický indikátor Nepozorovatelný koncept Diskrepance známá neznámá neznámá Ve výzkumné diagnostické praxi se případ absolutně nulovédiagnostické diskrepance téměř nikdy nevyskytuje.

Dvě pojetí nepozorovatelné skutečné hodnoty : 1) ...specifická přesná hodnota individuálního testu např. ´přesná hodnota systolického krevního tlaku´ ...diagnostická chyba , jakoby „chyba měření“ diskrepance = chyba v důsledku ne-reliability testu u některých (!) testů můžeme výjimečně smysluplně (?) odhadnout  několika n opakováními 1, 2,..., n jako jejich průměrP P(x1, x2,.. .xn) , tj. statistický odhad blížící se k neznámemu .

... generická úroveň teoretického “konstruktu” společného skupině testů, tj. indikátorů „téhož druhu“ např. ´úroveň senzo-motorické koordinace indikované několika různýmitesty´, pak  ... diskrepance hodnoty x daného testu od  coby úrovně “konstruktu” , společného skupině m testů x1, x2, ..., xm,  = směschyby a specifičnosti testu

U specifického  :  = chyba konečného výsledku diagnostiky jednotlivce V ní komplexně všechny vlivy, podle přísnosti standardizace : prostředí, chyby experimentátora, nestabilita atd. Např.: - počasí, vliv biologických cyklů, ... - nedostatečné zaškolení pro měření kožních řas - nejednoznačost instrukcí pro časový interval k přenesení krevních vzorků do chladničky - včetně přísnosti kalibrace termostatu v chladničce Nezaměňovat s technickou chybou přístroje jako článku v komplexu zdrojů ne-reliability např. přesnost analyzátoru plynů VO2 max  3% ,

Klasický model teorie testů x =  +  vede i k rozkladu rozptylu: Sx2 = S2 + S2 . Soustava intuitivně i teoreticky zdůvodněných matematických axiómů modelu pak umožňuje zavést - empiricky smysluplných pojmů pro praxi, - vztahů = vzorců ke zkvalitnění diagnostiky Z nich některé nyní uvedeme i s příklady použití.

Střední- standardní diagnostická chyba • se intuitivně-logicky definuje jako • směrodatná odchylka diskrepancí, S , • tj. jako odmocnina rozptylu diskrepancí, • jakoby analogie • střední chyby „měření” S

OBSAHOVĚ HOMOGENNÍTESTY či jejich opakovaná HOMOGENNÍ „MĚŘENÍ“ diagnostikují tutéž jim společnou vlastnost, tutéž proměnnou se skutečnými hodnotami  PARALELNĚ EKVIVALENTNÍ TESTY , zkráceně JEN: PARALELNÍ takové homogennítesty ve skupině diagnostikují jim společnou vlastnost  se stejnoustřední diagnostickou chybouS

Koeficient diagnostické reliability (“spolehlivosti”) Rel x = S2 / Sx2 tj. podíl, proporce neznámého rozptylu skutečných hodnot ku rozptylu pozorovaných možno jen zhruba odhadnout jako korelacidvou paralelníchx , x´, - buď různých paralelních testů x , x´ - nebo paralelních měření x , x´ týmž testem

Praktické stanovení střední diagnostické chyby: Známe-li ze standardizačních studií reliabilitu Relx a směrodatnou odchylku u dané populace, vypočteme S=Sx Ilustrace: Reliabilita “měření systolického krevního tlaku“ 0,81 směrodatná odchylka v kategorii pacientů 5 mmHg střední diagnostická chyba je S= 5 .(1- 0,81) = 5 .0,09 = 5 . 0,3 = 1,5 mmHg

Střední a přibližně mezní diagnostická chyba: Při přibližně normálním rozložení: a)“střední“ chybaS- tzv. „68%-ní“ chyba znamená, že nebude překročena ve více než 32% individuálních hodnocení b) tzv. “95%-ní chyba” by neměla být překročena ve více než v “zanedbatelném” (?) počtu 5% procent případů, je tzv. přibližná mezní chybamax  2.S , Ve výše uvedeném příkladu max 3 mmHg

Kritický rozdíl dvou výsledků • U normálního rozdělění při volbě 95%-ní chyby • . • rozdíl či přírůstek, který • překračuje chyby diagnostikování • stanovíme přibližně • xa - xbkrit = 1,4 .max • Např. zlepšení či zhoršení krevního tlaku • je teprve rozdíl větší než 1,4 . 3 = 4,2 mmHg

Reliabilita = „nutná podmínka validity”- a tedy: jaká je maximální možná validita testu, známe-li jeho reliabilitu? a) Nejvyšší validita testu x k jakémukoli kritériu-účelu y nemůže převýšit odmocninu spolehlivosti testu: maximum rxy= Např. při Relx = 0,64 je maximum validity 0,80. b) Ani kritérium y nemá reliabilitu Rel y = 1, a proto maximum rxy=

c) „Disatenuace“ validity Při validitě xku y , např. rxy = 0,48, a reliabilitách Rel x= 0,64 a Rel y = 0,81 : jaká by byla validita, kdyby byly x a y diagnostikovány absolutně bez chyb ? rTxTy= rxy/( ) = 0,48 / (0,8 . 0,9) = 0,67 „Disatenuovaná” validita 0,67 : - maximální dosažitelná zlepšením reliability -rTxTy1... testy jsou kongenericky ekvivalentní

Vliv délky testu na spolehlivost • Spearmanův-Brownův S-B vzorec: • Rel(nx) = n Relx / [1 + (n-1) Relx ] • pro test, jehož části jsouparalelně ekvivalentní • Je-li test x vnitřně paralelní a s reliabilitou 0,60, • prodloužení n = 4-krát: • Rel(4x)= 4. 0,6 / [1 + (4-1).0,6] = • = 2,4 / 2,8 =0,86, • pokud 4-násobné prodloužení je prakticky únosné.

Použití S-B na “split-half” odhad reliability: - test rozdělíme na části, u každé dílčí výsledek, - dilčí výsleky rozdělíme na “sudé” a “liché”, - jsou-li paralelně ekvivalentní, - spočítáme jejich korelaci jako odhad reliabity.. Jde o reliabilitu mezi “polovinami” původního testu, proto použijeme S-B pro dvojnásobný test. . Příklad: Test sed-leh 2 minuty rozdělíme po 10-sec. intervalech na 12 častí, sečteme počet cyklů v lichých a v sudých intervalech, jejich korelační koeficient pak opravíme na délku n = 2.

Vliv délky testu na validitu • Vyšší reliabilita umožňuje zlepšit validitu - • tuto potencialitu lépe odhadneme • u vnitřně paralelního testu pomocí vzorce: • r(nx) y = rxy /

PREDIKČNÍ VALIDITA - problémy: • - oprava zkreslené validity vzhledem k odmítnutým • uchazečům • rxy = 1 / • - validita vs. efektivita selekce

Kvalita diagnostiky z pohledu (klasické) teorie testů

Kvalita diagnostiky z pohledu (klasické) teorie testů

Presentation Transcript

RNDr.Josef ČIHÁK NEMOCNICE Vsetín, příspěvková organizace KONFERENCE KVALITA ZDRAVOTNÍ PÉČE – TÝMOVÁ PRÁCE

Teorie ekonomiczne u podstaw polityki gospodarczej

KVALITA ŠKOLY A JEJ MERANIE

Úvod do psychopatologie a diagnostiky

Centrum prediktívnej diagnostiky nádorov mäkkých tkanív

Qual’è la situazione?

Účastníci online vzdělávání z pohledu typologie Ned Herrmanna Bohumír Fiala

TEORIE HER

Teorie interpretative e teorie normative La ricerca comparativa

Teorie her

Evaluace středních škol v projektu Kvalita II Radim Ryška

TEORIE KYSELIN A ZÁSAD

Diagnostika

Domácí násilí z pohledu teorie

Kostní metastázy Možnosti laboratorní diagnostiky

Kvalita laboratorních zvířat

Študijný program Kvalita produkcie strojárskej techniky I. stupeň.

SP KVALITA I

Informační systémy

Studentenkonferenz zum WIVES-Projekt , Veselí n.L ., 08.10.2009

Teorie a metodika výchovy

KINETICKÁ TEORIE STAVBY LÁTEK