Forskellige typer af sammensatte mål

Statistikog kvantitativ metodePolitik & Administration og Samfundsfag 3. semester efterår 2006Lektion 12, torsdag den 15. novemberFaktoranalyse og pålidelighedsanalyse

Uden reduktionaf udfaldsrummet Typologier Med reduktionaf udfaldsrummet Refleksiveindeks Aditiveindeks Indeks Formative Ikke-aditiveindeks Forskellige typer af sammensatte mål de Vaus skriver alene om en bestemt type af refleksive indeks. Sammenføjningaf variable

Formative indeks Et formativt indeks dannes af en serie indikatorer, der kan kaldes for ’årsags-indikatorer’, fordi de tænkes at påvirke den ikke direkte målbare variabel, som man er interesseret i. Eksempel: Galtungs mål for social position Årsagsindikatorer Indkomst Geografi Uddannelse Urbanisering Alder Stilling Køn Socialposition Latent variabel

Refleksive indeks(de resterende slides drejer sig om refleksive indeks) Et refleksivt indeks dannes af en serie indikatorer, der kan kaldes for ’effekt-indikatorer’, fordi de tænkes at være effekter af en bagvedliggende (ofte kaldet ’latent’) variabel. I den type af refleksive indeks, der ses på i det følgende, er det et krav, at der er sammenhæng mellem de forskellige indikatorer. Eksempel: Måling af depression Depression Latent variabel Irritabel Svært at overkomme noget Anspændt Ængstelig Trist Søvn-problemer Effektindikatorer

Hvorfor lave et sammensat mål? Ved mere komplekse og abstrakte begreber som f.eks. tillid til politikere, politisk selvtillid, moral i familien, servicetilfredshed, social klasse osv, dannes ofte mål, der er sammensat af en serie variable. De vigtigste grunde til at lave sådanne sammensatte mål er: • Forbedring af validiteten: et enkelt aspekt i form af en enkelt variabel er som oftest ikke tilstrækkeligt til at indfange et komplekst begreb. • Forbedring af reliabiliteten: lidt på samme måde som et stikprøvegennemsnit rammer mere effektivt end en enkelt observation, rammer et sammensat mål mere effektivt end et enkelt. • Simplificering af analysefasen: i stedet for at skulle analysere på en serie variable, kan man nøjes med at analysere på en enkelt, nemlig det sammensatte mål.

Hvordan finder man de rette items til et refleksivt indeks? • Første skridt er definition og operationalisering (se f.eks. figur 4.1 i de Vaus). • de Vaus beskriver proceduren med udgangspunkt i, at man foretager en stor pilotundersøgelse for at udsøge de rette items. Som oftest vil man imidlertid af forskellige årsager springe dette led over. • Når dataene er i hus, har man så en serie items, hvorfra man vil finde de bedste til at måle den latente variabel. Hertil findes forskellige analysemetoder – f.eks. korrelationsmatricer, Cronbach’s alpha og faktoranalyse.

Korrelationsmatricer er det simpleste • Hvis de items, der er udvalgt som indikatorer for en latent variabel, virkelig også i stor udstrækning måler denne variabel, så må det også formodes, at de enkelte items korrelerer med hinanden. • Ofte vil man derfor som noget af det første i sin undersøgelse af en række items til et indeks få beregnet korrelationskoefficienter for samtlige bivariate sammenhænge mellem variablene. Herved fås en såkaldt korrelationsmatrice med samtlige items ud af begge dimensioner samt en diagonal bestående at ene et-taller, fordi en variabels korrelation med sig selv er lig med 1. • Man kan imidlertid ikke på ren statistisk vis sikre sig, at indekset bliver en valid måling af den latente variabel, i hvert fald kun at validiteten bedres via forbedret reliabilitet.

Reliabilitetstest i SPSS, bl.a. med Cronbach’s alpha I SPSS kan kan man med proceduren ’Reliability’ foretage forskellige former for test af, hvor god en samlet serie af items er til at danne et refleksivt indeks ud fra. • Der kan bl.a. herved fås en korrelationsmatrice, ’item-to-scale coefficients’ (i SPSS kaldt for ’Item-Total Correlations’) samt ’Cronbach’s alpha’. • Cronbach’s alpha er et enkelt mål for, hvor godt serien af items korrelerer indbyrdes (man kalder det også for intern koncistens). • En tommelfingerregel siger, at item-to-scale coefficienterne skal være på minimum 0,3, og at alpha skal være på minimum 0,7 (ofte accepteres dog lidt lavere værdier). Værdien af alpha stiger med stigende indbyrdes korrelation mellem variablene samt med et stigende antal variable.

Eksempel: Kommunalpolitisk selvtillid (’internal local political efficacy’) I det følgende gennemgås et eksempel med en latent variabel for ’kommunalpolitisk selvtillid’. Der ses på indikaterer, og der foretages reliabilitets- og faktoranalyse. Politisk selvtillid kan eksempelvis defineres som: borgernes selvopfattelse af at kunne forstå politik og være kompetente nok til at deltage i politiske handlinger(Alan Acock et al 1985). Den lokalpolitiske selvtillid kan derfor defineres som: borgernes selvopfattelse af at kunne forstå politik og være kompetente nok til at deltage i lokalpolitiske handlinger

Items der skal måle begrebet(Indikatorerne) I et spørgeskema er respondenterne blevet bedt om at erklære sig mere eller mindre enige i følgende udsagn: • Jeg anser mig selv som vel kvalificeret til at deltage i kommunalpolitik • Jeg har nogenlunde forståelse af de vigtigste politiske spørgsmål, som vedrører min kommune • Jeg kunne gøre et ligeså godt arbejde som medlem af kommunalbestyrelsen, som de fleste andre • Kommunalpolitikken i min kommune er undertiden så kompliceret, at en person som mig ikke forstår, hvad der foregår Endvidere skulle de svare på følgende spørgsmål (med andre svarkategorier): • Hvor godt informeret mener De, at De er med hensyn til, hvad der sker kommunalpolitisk i deres kommune?

Simple additive indeks • Items som de viste egner sig til simple additive indeks (ofte kaldet for en Likert skala), hvor variablenes værdier blot skal summeres, eller alterna-tivt hvor der beregnes en gennemsnitsværdi (substantielt fungerer det ens). • Dog skal man være opmærksom på, om spørgsmålene eller udsagnene ’vender’ ens, sådan at høj score på alle variable betyder enten høj eller lav score på den latente variabel. I eksemplet her, er der ét udsagn, der vender modsat de andre, nemlig udsagnet om politikkens komplek-sitet. Værdierne på dette item skal derfor vendes om. • Det mest overskuelige er under alle omstændigheder at danne nye variable for samtlige oprindelige, sådan at man har dem alle liggende i forlængelse af hinanden i datamatricen.

Resultater fra ’Reliability’-proceduren (1) Korrelations-matrixen hvor de enkelte bivariate korrelationer fremgår (Pearson’s r korrelationskoefficient) Korrelationsmatricen er vanskelig at overskue. De fem items korrelerer mere eller mindre med hinanden alle sammen, men det er svært at se, om der f.eks. skulle være flere dimensioner, eller kun en enkelt.

Resultater fra ’Reliability’-proceduren (2) Udvalgte resultat-tabeller fra analysen: Læg først mærke til, om alt for stor en andel af casene udgår af analysen pga. manglende besvarelser. Læg dernæst mærke til, om Cronbach’s Alpha har en værdi på omkring 0,7 eller derover. I det er tilfælde er det ok. Check også at der ikke stor forskel mellem den rå og den standardiserede. Check så, om de enkelte Item to Scale Coefficients er på 0,3 eller derover. Check endelig til slut også, om der med fordel kan fjernes items fra indekset.

Konklusion alene pba. reliabilitetsanalysen • Ved samtlige items ses item-to-scale coefficients på over 0,3. • Selve alpha-værdien ligger lige under 0,7. • Ingen udtagelse af enkelt-items vil kunne få alpha til at stige. De valgte items godtages til at kunne udgøre et indeks for kommunalpolitisk selvtillid!

Er indekset éndimensionelt? Definitionen af den kommunalpolitiske selvtillid igen: borgernes selvopfattelse af at kunne forstå politik og være kompetente nok til at deltage i lokalpolitiske handlinger Der kan allerede i den nominelle definition af begrebet spores to dimensioner – en der går på forståelse/viden og en anden der går på handling. Det er da også disse to dimensioner, der er forsøgt indfanget. Det skal derfor undersøges, om der også i svarene på spørgsmålene udskiller sig sådanne to dimensioner. Dvs.: nok korrelerer alle variablene til en vis grad indbyrdes, men er det sådan, at der kan udskilles to grupper af variable, der korrelerer mere internt med hinanden i gruppen end eksternt?

Dimension 1:Viden/forståelse Dimension 2:Handling • Forståelse • Kompleksitet • Informeret • Kvalificeret til politisk handlen • Kommunalbestyrelsesarbejde Som operationaliseringen af begrebet ser ud Kommunalpolitiskselvtillid

Faktoranalyse reducerer kompleksitet ved at udskille dimensioner/faktorer • Faktoranalyse kan bruges til at reducere kompleksitet i en serie variable, sådan at der kan dannes et mindre antal faktorer i stedet. Til hver faktor (i nogle tilfælde blot en enkelt) kan man så eventuelt danne et refleksivt indeks. • Faktoranalysen danner selv sådanne indeks, og målet i proceduren er, at finde nogle få dimensioner/faktorer, der kan forklare så stor som muligt variation i de enkelte variable. • Det skal tilføjes, at det i en rigtig analysesituation nok ville være bedre at starte med faktoranalysen med det samme. Derefter kan så foretages reliabilitetsanalyse på den eller de faktorer, man her finder.

Faktoranalyse • Faktoranalysen består af en lang række lineære regressionsanalyser, formelt set er der derfor krav om benyttelse af intervalskalerede variable. • Som oftest slækkes der dog mere end ved ordinær regressionsanalyse på disse krav. De fleste vil sige, at faktoranalyse kan benyttes ved ordinærskalerede variable med fem kategorier eller mere, og hvor variablene ikke har meget skæve fordelinger. • En del vil endvidere turde lave faktoranalyse på ordinærskalerede variable med færre end fem kategorier samt også på dummy-variable. • Atter andre vil sige, at brug af ordinalskalerede variable med forholdsvis få kategorier er ok, men at man i givet fald skal benytte særlige korrelations-koefficienter i beregningerne (Phi eller såkaldte polichoriske/ tethrachoriske korrelationer). • En grund til at man ofte slækker noget på kravene, er at man ofte blot vil betragte resultaterne som en grovskitse.

’Communalities’ angiver under ’Extraction’, hvor megen varians den eller de udtrukne faktorer forklarer ved hver enkelt variabel. F.eks. forklares ca. 75 pct. af variansen ved variablen RC14 (’Kvalificeret’). Resultater fra faktoranalysen (1) Bartlett’s Test viser, om der overhovedet findes nogen sam-menhæng mellem variablene. Den skal være signifikant på 0,05 niveau. Kaiser-Meyer-Olkin målet (KMO) viser endvidere, om variablene ’klumper sammen’ og derfor kan anvendes til faktor-analyse. Denne skal helst være over 0,5 og gerne også omkring 0,7 eller derover.

Her følger fortsættelse af tabellen mod højre: Resultater fra faktoranalysen (2) SPSS udskiller som default dimensioner med ’eigenvalues’ på mindst 1. Eigenvalues summerer til antallet af variable, og de fortæller noget om, hvor stor en andel af variatioen, hver enkelt dimension forklarer (af værdierne på variablene i analysen)

Resultater fra faktoranalysen (3) ’Component Matrix’ viser en såkaldt ’uroteret løsning’, og den er som regel vanskelig at tolke. ’Rotated Component Matrix’ viser faktor loadings for roteret løsning, og størrelserne i tabellen angiver Pearson korrelations-koefficienter mellem hver af de to faktorer og de enkelte variable. Det ses forholdsvis tydeligt, at faktor 1 (component 1) korrelerer stærkt med variablene for forståelse, kompliceret og informeret, mens faktor 2 korrelerer forholdsvis stærkt med variablene for kvalificeret og evne som politiker.

Faktor 1(ortogonalrotation) Med grøn streg er vist roteret løsning. Her fås en mere lige fordeling af forklaret varians mellem faktorerne. Dette letter tolk-ningen, da der herved fås mere entydige faktorer. Faktor 2(ortogonalrotation) Hvad vil det sige at rotere?(her ortogonal rotation) Faktor 2(uroteret) RC18 Med sort streg er vist uroteret løsning. RC17 RC15 Faktor 1(uroteret) RC14 RC16

Kommentarer til faktoranalysen • Man kan altså danne et samlet indeks over den kommunalpolitiske selvtillid, men faktoranalysen indikerer, at det muligvis er bedre at danne to forskellige indeks – et over handlingsaspekterne og et over vidensaspekterne. • I faktoranalysen fra eksemplet er der tale om en såkaldt ’ortogonal’ rotation. En sådan benyttes til faktorer, der ikke er korrelerede. Det er ikke sikkert, at det er fornuftigt i dette tilfælde, og man kan i stedet for forsøge med en såkaldt ’oblique’ rotation. • Et tegn på, at faktorerne er korrelerede, er, hvis de enkelte variable korrelerer ikke uvæsentligt med andre end den primære faktor, som den er knyttet til. I SPSS: Varimax er en ortogonal rotationsmåde, mens Direct Oblimin er en oblique rotationsmåde.

Oblique rotation Faktor 2(uroteret) Faktor 2(oblique rotation) Faktor 1(oblique rotation) RC18 RC17 RC15 Faktor 1(uroteret) RC14 Læg mærke til, at akserne i den roterede løsning ikke længere står vinkelret på hinanden! RC16

Faktorloadings fra oblique rotation Ved oblique rotation tolkes som oftest på de faktor-loadings, der har overskriften ’Pattern Matrix’. De viser ikke korrelationskoefficienter, men derimod standardiserede regressionskoefficienter med hver enkelt item som afhængig variabel. Det fremgår, at tolkningen nu er endnu bedre for en to-faktor model (loadings på den ikke primære faktor er nu endnu lavere).

Scree plot Man anbefaler som regel at udtrække de faktorer, der ligger over ’knæ-leddet’. I det her tilfælde vil det vel egentlig alene sige faktor nummer 1, og Scree plot’et modsiger i så fald kriteriet om at udtrække faktorer med eigenvalues på 1 og derover (der var to). (Der er aldrig én sikker metode!)

Diskussion/Konklusion • I det her viste eksempel kan det være vanskeligt at vurdere, om der bør dannes et enkelt eller to indeks ud fra de fem variable. Personligt ville jeg nok prøve at analysere på såvel et samlet indeks som to del-indeks over de to dimensioner. • Viser det sig i analysen, at der ikke er den store forskel i resultaterne med de to delindeks, kan man jo benytte det samlede i stedet for (men skrive, at der forsøgsvis er foretaget analyser med de to del-indeks også). • Der er beregnet en Chronbach’s Alpha for hver af de to del-indeks, og disse viser henholdsvis 0,6 og 0,7. • Ofte vil man i øvrigt analysere omvendt af det her viste, sådan at faktor-analysen kommer først. Viser der sig f.eks. med faktoranalysen to meget tydelige dimensioner, foretager man sig derefter to reliabilitetsanalyser – og ikke én for samtlige variable. Men måden, det i dette eksempel er gjort på, viser, at resultaterne fra reliabilitetsanalysen ikke altid er velegnede til at checke for unidimensionalitet, sådan som det står i de Vaus.

Den praktiske dannelse af indeks pba. faktoranalyse Man kan vælge lade SPSS beregne indeks ud fra resultaterne i faktoranalysen, men mange vælger blot at bruge faktoranalysen som en rettesnor for, hvilke items, der ’går godt sammen’, hvorefter de konstruerer simple additive indeks ved at summere eller beregne gennemsnit af de respektive variable.

Problemet med missing values • I det viste eksempel er der i de enkelte variable hver især maksimalt omkring fem procent af casene, der har manglende værdi, men hvis man i det samlede indeks kræver, at alle spørgsmål er besvaret, så falder der omkring ti procent af casene ud. Denne metode kaldes for ’listwise’ sletning af cases. • Man kunne overveje at erstatte missing values med ’valide’. Spørgsmålet er så blot, hvordan man skal foretage denne erstatning. • Skyldtes de mange missing values i stedet en enkelt ’dårlig’ variabel, kunne man overveje at udtage denne.

Minimering af problemet med missing values • Én måde at forsøge at minimere tabet af cases på, er ved at erstatte missing values med en midterkategori i variablene. • En som regel lidt bedre måde er at erstatte missing values med gennem-snittet af valide værdier for samme case. Dvs. hvis en respondent har fået værdierne 2, 2, 1, og 3 samt en missing value i den sidste variabel, skal denne tildeles værdien 2. • Man skal dog være varsom her. Det ville f.eks. ikke være særlig lødigt at erstatte fire missing values pba. oplysning om en enkelt valid værdi. Man kan f.eks. kræve, at respondenten i dette tilfælde med de fem spørgs-mål/udsagn skal have besvaret mindst de tre, førend der kan dannes en valid indeksværdi.

Problemet med variable på forskellig skala eller med meget forskellig fordeling • Hvis de variable, som man har tænkt sig at benytte ifm. et indeks, har forskellig skala, vil de også blive vægtet forskelligt i et additivt indeks (de vil blive mere eller mindre betydningsfulde for indeksværdien). • Har man f.eks. en variabel med fire kategorier samt fire variable med fem, vil det være oplagt at forøge variationsbredden på den første variabel, sådan at der kom et ’hul’ i midten. Ikke i alle tilfælde er der dog en enkelt oplagt løsning. • Et lignende problem opstår, hvis variablene blot har meget forskellige empiriske fordelinger. I begge situationer kan man vælge at foretage z-standardisering af variablene, men der skal i så fald også foretages substantielle overvejelser.

Efterfølgende brug af indekset • Efterfølgende benyttes indekset som en ordinær variabel i analyserne, enten i rå form eller f.eks. i en tilstand, hvor den er rekodet til at kun antage færre værdier, sådan at den kan benyttes i forbindelse med tabelanalyse. • I dens rå form, hvor den kan antage mange værdier, taler mange for, at man kan betragte den som en intervalskaleret variabel, fordi afvigelserne fra intervalskala i de enkelte variable udligner sig i sammenlægningen. Hvis man godtager det, kan man benytte indekset f.eks i forbindelse med lineær regressionsanalyse.

Eksempel på brug af lineær regression ifm. indekset for lokalpolitisk viden/forståelse Indekset for viden/forståelse benyttes som afhængig variabel. Indekset er konstrueret således, at det kan antage værdier mellem 0 og 100. To uddannelsesdummier fungerer som uafhængige variable. I forhold til referencekategorien, som er laveste uddannelseskategori, betyder det ikke synderligt at være i den mellemste uddannelseskategori. Er man placeret i den højeste kategori, ligger man derimod typisk lidt over 10 point over dem i den laveste uddannelseskategori.

Tilføjelse af flere variable til regressionsanalysen Der tilføjes dummy-variable for alder og køn

Plot over observerede værdier mod forventede

Lidt om sammenhængen mellem faktoranalyse og lineær regression I OH 24 blev det nævnt, at de såkaldte factor loadings, der vises i Pattern Matrix, viser standardiserede regressionskoefficienter vedrørende effekten fra hver af de to faktorer på hver af de fem variable i analysen. F.eks. er den kontrollerede effekt fra faktor/komponent 1 på variablen RC18 estimeret til 0,883. Dette fremgår også af en regressions-analyse med RC18 som afhængig.

Lidt mere om sammenhængen I OH 18 blev det nævnt, at ’Extraction’ angiver, hvor megen varians den eller de udtrukne faktorer forklarer ved hver enkelt variabel. F.eks. forklares 70,7 pct. af variansen ved variablen RC18. Dette stemmer overens med regressionsanalysen.

Der findes andre typer af refleksive indeks (ikke pensum) Ud over de additive indeks af Likert-typen findes andre væsensforskellige refleksive indeks. Der findes således også ’differentielle’ og ’kommulative’ skalaer. ’Thurstone’-skalaen er et eksempel på førstnævnte og ’Guttman’-skalaen på sidstnævnte.

Forskellige typer af sammensatte mål