1 / 34

Multivariate Statistische Verfahren

Multivariate Statistische Verfahren. Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen. Einführung I.

Télécharger la présentation

Multivariate Statistische Verfahren

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

  2. Einführung I Es werden Kontingenztabellen betrachtet: die Abhängigkeiten zwischen Zeilen- und Spaltenkategorien werden zunächst durch einen Chi-Quadrat-Wert repräsentiert. Ist er signifikant,geht man davon aus, dass Abhängigkeiten existieren, andernfalls behält man die Nullhypothese (es existieren keine Abhängigkeiten) bei. Westphal (1931) in „Der Nervenarzt“:

  3. Einführung II Ernst Kretschmer (1888 – 1964): „Körperbau und Charakter“ (1921) • Leptosom (dünn, hager) – schizothym – schizoid – schiziphren • Pyknisch (rund und mollig) – zyklothym – zykloid – manisch-depressiv • Athletisch (kräfig, muskulär) – barykinetisch – epileptoid - epileptisch Widerspricht Westphals Tabelle der Kretschmerschen Theorie? Ein signifikanter Chi-Quadrat-Wert gibt auf diese Frage keine Antwort; Die Häufigkeiten scheinen nicht auf Kretschmers Theorie zu weisen, und ein signifikanter Chi-Quadrat-Wert sagt nur, dass wahrscheinlich Abhängigkeiten zwischen Körperbau und „Charakter“ bestehen.

  4. Einführung III Intuitive Betrachtung: sollte Kretschmers Theorie mit den Daten kompatibel sein, so müssen Skalen für den Körperbau existieren, auf denen sich die Körperbautypen nach Maßgabe ihrer „Ähnlichkeit“ anordnen lassen, und analog dazu Skalen, nach denen sich die Erkrankungen nach Maßgabe ihrer Ähnlichkeiten anordnen lassen. Weiter muß zwischen den beiden Skalenklassen eine Beziehung bestehen derart, dass die die Beziehungen zwischen Körperbau und Erkrankung abgebildet werden. Die Beziehung zwischen den Kategorien Körperbau und Art der Erkrankung wird nicht perfekt sein: Die Existenz von Mischtypen wirkt wie „Rauschen“

  5. Einführung IV Aber kann eine Beziehung der Form f(Erkrankung) = g(Körperbau) + zuf. Fehler überhaupt angenommen werden, wenn man Häufigkeiten erklären will? (f und g numerische Werte = Skalenwerte)

  6. Also: • Beziehungen zwischen Häufigkeiten in einer Kontingenztabelle durch latente Variablen derart, dass • Das Chi-Quadrat der Tabelle durch latente Variablen erklärt wird!

  7. Distanzen zwischen Zeilen- bzw. Spaltenkategorien Profile für die Körperbautypen: Häufigkeiten, geteilt durch Randsummen Häufigkeitsverteilungen für die Körperbautypen Elemente der Profile entsprechen bedingten Wahrscheinlichkeiten. Relativierung in Bezug auf Randsummen wirkt entzerrend auf Darstellung der Unterschiede. Die absolute Häufigkeit, mit der ein Körperbautyp vorkommt, wirkt verzerrend auf die Wahrnehmung der Unterschiedlichkeit der Verteilungen

  8. Definition von Profilen Zeilen‘‘masse‘‘ Spalten“masse“

  9. Distanzen zwischen Zeilenkategorien • Vorteil dieser Definition der Kategoriendistanz: unmittelbar einsichtig. • Nachteil der Definition: läßt sich nicht gut mit dem Chi-Quadrat in Verbindung bringen, keine Verteilungsäquivalenz (wird gleich erklärt)

  10. Chi-Quadrat-Distanzen (zwischen Zeilenkategorien) Die Chi-Quadrat-Distanzen definieren eine „Chi-Quadrat-Metrik“

  11. Verteilungsäquivalenz Fasst man Zeilenkategorien mit identischen Häufigkeitsverteilungen zusammen, so ändern sich die Chi-Quadrat-Distanzen zwischen den Spaltenkategorien nicht. Fasst man Spaltenkategorien mit identischen Häufigkeitsverteilungen zusammen, so ändern sich die Chi-Quadrat-Verteilungen zwischen den Zeilenkategorien nicht. Der Ausdruck „Chi-Quadrat-Distanz“ ist ein wenig irreführend, weil keine direkte Beziehung zum Chi-Quadrat besteht; die folgenden Betrachtungen zeigen aber eine indirekte Beziehung auf.

  12. Ansatz I

  13. Ansatz II

  14. Ansatz III Ja!

  15. Ansatz III

  16. Zusammenfassung: Das Chi-Quadrat kann in voneinander unabhängige, additive Komponenten zerlegt werden Die Komponenten werden so bestimmt, dass sie voneinander unabhängigen Urteilsdimensionen etc entsprechen. Dazu werden die Residuen einer Singularwertzerlegung unterzogen: (i) Komponenten für die Zeilenkategorien, (ii) Komponenten für die Spaltenkategorien. Die beiden Klassen von Komponenten beziehen sich auf die gleichen latenten Variablen! Die SVD-Koordinaten für die Kategorien werden so skaliert, dass die euklidischen Distanzen zwischen den Punkten (Zeilenpunkte einerseits, Spaltenpunkte andererseits) den Chi-Quadrat-Distanzen zwischen den Kategorien entsprechen. Die Distanzen zwischen Zeilen- und Spaltenpunkten sind nicht erklärt; die Ähnlichkeit wird über das Skalarprodukt ausgedrückt.

  17. Multiple Korrespondenzanalyse: Anwendung der KA auf Fragebögen, Tests, etc Testtheorie und (0, 1)-Items (Aufgaben: gelöst- nicht gelöst, Meinungsitem: zugestimmt – nicht zugestimmt, etc Problem: Anwendung der Faktorenanalyse bzw PCA auf (0, 1)-Daten führt oft zu Pseudorepäsentationen der unterliegenden latenten Variablen: Der Produkt-Moment-Korrelationskoeffizient wird zum Phi-Koeffizienten mit der Implikation, dass unterschiedliche Schwierigkeiten semantische Faktoren vortäuschen. Die Faktorenanalyse von (0, 1)-Daten ist äußerst problematisch. Die multiple Korrespondenztheorie liefert einen Ausweg:

  18. Multiple Korrespondenzanalyse: Anwendung der KA auf Fragebögen, Tests, etc Items Personen Antwortkategorien

  19. Multiple Korrespondenzanalyse: Anwendung der KA auf Fragebögen, Tests, etc Aus der Indikatormatrix oder –tabelle entsteht eine Kontingenztabelle, die aus Teilkontingenztabellen aufgebaut ist: jedes Item mit jedem, jede Angtwortkategorie mit jeder. Das Resultat ist eine Burt-Matrix (nach Sir Cyril Burt, 1950)

  20. Beispiel (Burt, 1950) Items Antwortkategorien Haar Items Augen Kopf Statur

  21. Korrespondenz der Klassifikationen auf OCT-Basis (RMG) und auf histologischer Basis. (OCT = Optical Coherence Tomography) schwerere Form leichtere Entzündung (kein Krebs) 0 = keine Erkrankung, CIN 21 Krebs, leichte Form, CIN 22 Krebs, etwas schwerere Form, CIN 23 Krebs, schwerere Form, CIN 10 kein Krebs, Entzündung

  22. Identifikation von Emotionen im Gesichtsausdruck Anger Disgust No happiness Happiness Fear Surprise

  23. Beispiel I

  24. Beispiel II Marascuilo & McMcSweeny (1977): 500 Männer verschiedenen Glaubens wurden nach ihrer Meinung zur Abtreibung befragt:

  25. Beispiel III Genetische Untersuchungen: Haar- und Augenfarbe schottischer Kinder (Tocher 1908, Maung 1941)

  26. Beispiel V Ansichten zur Behandlung von Strafgefangenen in den USA

  27. Beispiel VI Trends in Studienfächern (USA)

  28. Beispiel VI Trends in Studienfächern – Doktorgrade (USA)

  29. Beispiel VI Trends in Studienfächern – Doktorgrade (USA)

  30. Beispiel VII Selbstmorde in Deutschland 1974 - 1977

  31. Beispiel VII Selbstmorde in Deutschland 1974 - 1977

  32. Beispiel VII Selbstmorde in Deutschland 1974 - 1977 Altergruppe und Methode – nach Geschlechtern getrennt

  33. Beispiel VII Selbstmorde in Deutschland 1974 - 1977

  34. Danke für Ihre Aufmerksamkeit!

More Related