1 / 90

Gliederung

bisher: Häufigkeitsverteilungen (bei nominalskalierten Variablen) mit Prozenten bzw. Anteilen Mittelwerte (ab Intervallskala) Zusammenhänge zwischen 2 Variablen; Verfahren in Abhängigkeit vom Skalenniveau (z.B. Chi², Korrelation, T-Test) Problem: nur Aussagen über die Stichprobe. Gliederung.

carina
Télécharger la présentation

Gliederung

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. bisher: Häufigkeitsverteilungen (bei nominalskalierten Variablen) mit Prozenten bzw. Anteilen Mittelwerte (ab Intervallskala) Zusammenhänge zwischen 2 Variablen; Verfahren in Abhängigkeit vom Skalenniveau (z.B. Chi², Korrelation, T-Test) Problem: nur Aussagen über die Stichprobe Gliederung

  2. Schlüsse von Stichprobe auf Grundgesamtheit (Mittelwerte, Anteile, Zusammenhänge) 1. Beispiel: Ein Anteilswert in der Stichprobe (7% FDP-Wähler) dient als Schätzung für den Anteil θ in der GG. 2. Beispiel: Ein Mittelwert in der Stichprobe (Alter: xquer = 37) dient als Schätzung für den Mittelwert  in der GG. 3. Beispiel: Ein Zusammenhang zwischen zwei Variablen (Chi² zwischen Geschlecht und Wahlabsicht) soll dahingehend überprüft werden, ob er auch in der GG angenommen werden kann. Gliederung

  3. Solche Aussagen macht man in folgender Weise: 1. Beispiel: Mit 95%iger Wahrscheinlichkeit werden zwischen 6 und 8% die FDP wählen. 2. Beispiel: Der Mittelwert des Alters in der Grundgesamtheit liegt mit 95%iger Wahrscheinlichkeit zwischen 35 und 39. 3. Beispiel: Mit 95%iger Wahrscheinlichkeit kann man ausschließen, dass Geschlecht und Wahlabsicht in keinem Zusammenhang stehen. daraus folgt: Wir brauchen Kenntnisse zu Stichprobenziehung und Wahrscheinlichkeitsrechnung! Gliederung

  4. Inhalte der Vorlesung Stichprobenziehung Wahrscheinlichkeitsrechnung – kombinierte Ereignisse Tabellen: z, Chi², T Konfidenzintervalle für Mittelwerte und Anteile Chi²-Test, T-Test, F-Test multiple Regression Gliederung

  5. Personen (bzw. Haushalte, Zeitschriftenartikel, Orte…), auf die sich Aussagen beziehen sollen werden sachlich, räumlich und zeitlich definiert (z.B. Wahlberechtigte in Deutschland vor der Bundestagswahl 2005) Befragung aller: Totalerhebung (bei kleinen Grundgesamtheiten); in der Regel zu aufwändig Parameter: N, , σ, θ Meist wird nur ein Teil der Grundgesamtheit (GG) befragt (Stichprobe, Sp), von dem dann auf die GG geschlossen werden soll. Grundgesamtheit

  6. Leistungsfähigkeit von stichprobenartigen Befragungen

  7. Man kann nur von der Sp auf die GG schließen, wenn die Sp repräsentativ ist, also ein verkleinertes genaues Abbild der GG darstellt. Beispiel: Eine Befragung über die Wahlabsicht am Siegfriedplatz würde möglicherweise 40% Zustimmung zu den Grünen ergeben. Nur Zufallsstichproben sind repräsentativ. Diese sind so definiert, dass jedes Element der GG die gleiche (bzw. zumindest eine bekannte) Wahrscheinlichkeit hat, in die Stichprobe zu gelangen. Parameter von Stichproben: xquer, s, p, n (manchmal auch N) Erster Schritt: Erstellung der Auswahlgesamtheit Stichprobe

  8. Einfache Zufallsauswahl Aus allen Elementen der Auswahlgesamtheit werden so viele gezogen, wie für die Stichprobe gewünscht sind. Jedes Element hat die gleiche Wahrscheinlichkeit, in die Stichprobe zu gelangen. Man braucht Listen, in denen die komplette Auswahlgesamtheit aufgeführt ist. Verfahren: Losen, Zufallszahlen Techniken der Stichprobenziehung

  9. Systematische Zufallsauswahl Man braucht eine Liste, in der die komplette Auswahlgesamtheit aufgeführt ist. Nur das erste Element wird per Zufall bestimmt, anschließend wird jedes k-te Element gezogen. k = Stichprobenintervall = Auswahlgesamtheit / Stichprobengröße Techniken der Stichprobenziehung

  10. Mehrstufige Zufallsauswahl Zunächst werden z.B. Stimmbezirke gezogen, dann Haushalte, dann Personen. Zum Ziehen der Haushalte: random route. Von einer zufälligen Startadresse wird eine Anweisung gegeben, wie z.B. „Gehen Sie bis zur Kreuzung, dann links, dann rechts und ermitteln Sie auf dem Weg jeden 6. Haushalt auf der linken Straßenseite“. Zum Ziehen der Personen: Schwedenschlüssel: wohnt eine Person im Haushalt, wird diese befragt, wohnen zwei Personen dort, wird eine Zahl zwischen 1 und 2 gezogen und entspr. die älteste oder zweitälteste Person befragt usw. Techniken der Stichprobenziehung

  11. Geschichtete Stichprobe Es werden verschiedene Bevölkerungsteile unterschieden. Aus jeder Schicht werden getrennt Zufallsstichproben gezogen. Beispiele Ost/Westdeutsche; Homo/Heterosexuelle Dies macht man dann, wenn die Schichten unterschiedlich groß sind und man für jede Schicht eine genügende Fallzahl erreichen will, d.h. bei einer einfachen Zufallsauswahl wären Untergruppen mit so geringer Zahl vertreten, dass man über sie keine Aussagen machen kann. Daher überrepräsentiert man absichtlich kleine Bevölkerungsgruppen (dysproportionale Schichtung). Für Berechnungen mit der Gesamtstichprobe müssen daher Gewichtungsfaktoren eingesetzt werden. Techniken der Stichprobenziehung

  12. Klumpenstichprobe Wie bei der mehrstufigen Zufallsauswahl geschieht der erste Auswahlschritt nicht gleich auf der Ebene der Untersuchungseinheit (z.B. Person), sondern auf höherer Ebene, diese wird als Klumpen bezeichnet (z.B. Stadtteil, Schulklasse, Zeitung). Dies Klumpen enthalten also jeweils mehrere Untersuchungseinheiten (Haushalte, Schüler, Zeitungsartikel). Untersucht werden alle Untersuchungseinheiten des Klumpens, also der ganze Klumpen. Problem: Erwischt man einen oder mehrere untypische Klumpen, ist die Stichprobe nicht mehr repräsentativ. Techniken der Stichprobenziehung

  13. Quotenstichprobe (bewusste Auswahl) Weiß man im voraus, wie bestimmte Merkmale (Alter, Geschlecht, Schulabschluss) in der Grundgesamtheit verteilt sind, macht man einen Quotenplan, wie viele Personen welcher Art befragt werden sollen (z.B. 35 Frauen unter 40 Jahren mit Abitur), der proportional die Verhältnisse in der GG abbildet. Derartige Personen müssen dann befragt werden, es ist jedoch gleichgültig, welche Personen das sind, solange die Quotenvorgaben eingehalten werden. In vielen Lehrbüchern wird die Meinung vertreten, dass dies keine repräsentative Stichprobe ergibt; der Interviewer befragt vorwiegend Bekannte, die vermutlich bestimmte Eigenschaften haben, die sie von anderen unterscheiden (z.B. er befragt nur Sportler aus seinem Verein). Techniken der Stichprobenziehung

  14. Anfallende bzw. Gelegenheitsstichprobe (willkürliche Auswahl) Ist nicht repräsentativ Darf nicht angewendet werden, um Anteile oder Mittelwerte in der Grundgesamtheit zu schätzen Wird jedoch (v.a. in der Psychologie) in der Regel angewendet, um Zusammenhänge zwischen Variablen zu ermitteln und auch auf Signifikanz zu testen, obwohl man dies streng genommen nicht darf. Beispiel: Studie in Statistik I: Zusammenhang zwischen Wahlabsicht und Geschlecht. Wird fast immer in Experimenten verwendet. Techniken der Stichprobenziehung

  15. Die beste Stichprobe nutzt nichts, wenn viele Personen die Teilnahme an der Befragung verweigern. Stichprobenneutrale / unsystematische Ausfälle verzerren nicht das Ergebnis (falsche Adresse etc.) Systematische Ausfälle dagegen sind problematisch. Beispiele: Nichterreichbarkeit, Teilnahmeverweigerung. Man unterscheidet den Ausfall eines kompletten Interviews (unit nonresponse)und den Ausfall bei einzelnen Items(item nonresponse) Ausschöpfungsquote: der Anteil realisierter Befragungen an der bereinigten Gesamtstichprobe * (* = Gesamtstichprobe – stichprobenneutrale Ausfälle) Ausschöpfung

  16. Beschäftigung mit diskreten Variablen (nur bestimmte Ausprägungen, z.B. Anzahl der Kinder) kontinuierlichen / stetigen Variablen (alle Ausprägungen, z.B. Alter, Größe) zunächst: diskrete Variablen

  17. Das Ziehen einer Zufallsstichprobe aus einer Grundgesamtheit entspricht einem Zufallsexperiment, vergleichbar mit 10 x Würfeln bei bekannter Wahrscheinlichkeit des Auftretens bestimmter Ziffern in der Grundgesamtheit. Wahrscheinlichkeit, eine 6 zu würfeln, ist bekannt. Davon ausgehend kann man berechnen, wie wahrscheinlich es ist, bei einer Stichprobe von Würfen ein bestimmtes Ergebnis zu erzielen. Ziel: der umgekehrte Schluss von der Stichprobe auf die Grundgesamtheit. Grundidee

  18. Wahrscheinlichkeit: günstige Ereignisse / alle denkbaren Ereignisse z.B. eine 6 würfeln p(6) = 1 / 6 = 0.166 (liegt immer zwischen 0 und 1)

  19. Wahrscheinlichkeit, hintereinander 2 Sechsen zu würfeln p(6 und 6) = p (6) * p (6) = 1/6 * 1/6 = 1 /36 = 0.027

  20. Wahrscheinlichkeit, eine gerade Zahl zu würfeln p (2 oder 4 oder 6) = p (2) + p (4) + p (6) = 1/6 + 1/6 + 1/6 = 3/6 = 0.5

  21. eine Stichprobe ist „ohne Zurücklegen“, jede Person in der Stichprobe wird nicht noch einmal befragt Karten ziehen ist ohne Zurücklegen mehrfaches Würfeln ist „mit Zurücklegen“, eine schon gewürfelte Zahl kann erneut auftreten. Unsere Statistiken basieren auf Modellen „mit Zurücklegen“, obwohl die Datenerhebung „ohne Zurücklegen“ stattfindet. Fehler ist gering bei großen Grundgesamtheiten (Auswahlsatz kleiner als 5%). Fall mit und ohne Zurücklegen

  22. allgemein: p (A oder B) = p (A) + p (B) – p (A und B) disjunkt (Ereignisse schließen einander aus): p (A oder B) = p (A) + p (B) Additionssatz (Vereinigungsmenge)

  23. allgemein: p (A und B) = p (A) p (B  A) unabhängig: p (A und B) = p (A) p (B) Multiplikationssatz (Schnittmenge)

  24. Die Wahrscheinlichkeit entspricht der relativen Häufigkeit bei unendlichen Wiederholungen eines Zufallsexperiments z.B. Die Wahrscheinlichkeit, eine 6 zu würfeln ist 16.6 Prozent. Bei unendlichem Würfeln tritt die 6 in 16.6 Prozent der Würfe auf. Anmerkung: relative Häufigkeit ist die Häufigkeit des Auftretens geteilt durch die Anzahl der Versuche. Bernoulli-Theorem

  25. Dies simuliert das Ziehen einer Stichprobe! Der wahre Anteil in der Grundgesamtheit () entspricht beim Würfeln der Wahrscheinlichkeit eines Ereignisses p bei größer werdenden Stichproben immer mehr. (gilt eigentlich nur bei unendlich großen Grundgesamtheiten)

  26. mehrere Stichproben gleichen Umfangs werden gezogen Die Anteile der Würfe „6“ variieren um 16.6 Prozent 2. Zufallsexperiment

  27. Erweiterung auf 1000 Stichproben mit je 100 Würfen

  28. (eine Wahrscheinlichkeitsfunktion) Verteilungsmodell für diskrete Zufallsvariablen mit 2 Ausprägungen (hier 6 bzw. nicht 6) mit Zurücklegen Allgemeiner Fall: gibt an, mit welcher Wahrscheinlichkeit die Ausprägung a x-mal vorkommt Z.B. Wie groß ist die Wahrscheinlichkeit, dass von 10 Frauen in einer Stichprobe 3 Frauen sind, wenn der Frauenanteil in der GG 60% beträgt? Die Binomialverteilung ist abhängig von (charakterisiert durch) n und dem Anteil in der GG, Wertebereich 0 bis n. Binomialverteilung

  29. Wir betrachten jetzt aber den speziellen Fall, dass mehrere Stichproben gezogen werden: Binomialverteilung geht bei großen Stichproben in eine Normalverteilung über; Faustregel n * θ * (1-θ) > 9

  30. E (x) ist der Wert, der bei unendlich vielen Wiederholungen des Experiments im Durchschnitt für jede Stichprobe zu erwarten ist. Var (x) sagt aus, wie stark die Werte um den Erwartungswert schwanken. E (x) = n * p Var (x) = n * p * q, wobei q = 1-p Erwartungswert und Varianz einer Binomialverteilung

  31. Im Würfelbeispiel

  32. Wenn wir ein Würfelexperiment mit 100 Würfen 1000 mal wiederholen, ist n=100, nicht 1000. Die Anzahl der Wiederholungen ist irrelevant. Der Erwartungswert (hier 16.6) gilt für jede einzelne Stichprobe von 100 Würfen. Eine Binomialverteilung geht nur dann in eine Normalverteilung über, wenn es sich um verschiedene Stichproben handelt, nicht um einzelne Verteilungen, z.B. die Anzahl von Frauen bei einem Frauenanteil von 90% in der GG (vgl. Tafelbild) Achtung!!

  33. Beispiel: Es existiert eine Grundgesamtheit von Personen, die im Mittel 37.268 Jahre alt sind. Zufallsexperiment: Wir ziehen 1000 Stichproben mit je 1000 Personen Stetige Zufallsvariablen

  34. (eine Wahrscheinlichkeitsdichtefunktion) symmetrisch, eingipflig Mittelwert, Modalwert und Median sind identisch nähert sich links und rechts asymptotisch der x-Achse an geht von minus unendlich bis plus unendlich je 50% Personen befinden sich links bzw. rechts vom Mittelwert Charakterisiert durch Mittelwert und Varianz Normalverteilung

  35. Im folgenden wird der Fall betrachtet, dass nicht eine Variable (z.B. die Intelligenz) normalverteilt ist, sondern die Mittelwerte einer Anzahl von Stichproben.

  36. Erwartungswert =  Varianz = ² / n Standardabweichung =  /  n diese nennt man auch Standardfehler des Mittelwerts  xquer Merke: Es handelt sich um die Verteilung der Stichprobenmittelwerte, nicht um einzelne Werte von Personen Mittelwert und Varianz einer Stichprobenmittelwerteverteilung

  37. Mittelwerte aus beliebigen Verteilungen verteilen sich mit zunehmendem Stichprobenumfang normal mit dem Mittelwert  und der Varianz ² / n Faustregel: ab N > 30 Merke: Das gilt auch für schiefe Verteilungen, Unterscheidung zwischen der Verteilung der einzelnen Werte und der Stichprobenmittelwerte!! Zentraler Grenzwertsatz

  38. hat Mittelwert 0 und Standardabweichung 1 jede (Normal-) Verteilung von Stichprobenmittelwerten kann in eine Standardnormalverteilung umgewandelt werden. Fläche  = 1 Standardnormalverteilung

  39. Standardisierung im üblichen Fall

  40. Standardisierung im Fall von Stichprobenmittelwerten σxquer = σ / √n

  41. Möchte man berechnen, wie wahrscheinlich es ist, dass eine Stichprobe höchstens einen bestimmten Mittelwert erhält, steht also bei der Standardisierung σ / √ n im Nenner. Wahrscheinlichkeit von Stichprobenmittelwerten

  42. Die Binomialverteilung ist eine Wahrscheinlichkeitsfunktion (diese gibt die Wahrscheinlichkeit für jede Ausprägung an) Die Normalverteilung ist eine Wahrscheinlichkeitsdichtefunktion (da bei stetigen Variablen die Wahrscheinlichkeit jedes Werts praktisch 0 ist) Eine Verteilungsfunktion ist eine kumulierte Wahrscheinlichkeits- oder Dichtefunktion. Sie gibt an, wie wahrscheinlich es ist, höchstens einen bestimmten Wert zu erhalten. Eine Dichtefunktion ist damit die Ableitung einer Verteilungsfunktion. Begriffe

More Related