Klassische Hypothesenprüfung

Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

Theorie Theorie und Empirie Empirie

Theorie Hypothese Hypothese Hypothese Hypothese Prüfung   Theorie und Hypothesen

Theorie Hypothese Hypothese Hypothese Prüfung   Theorie und Hypothesen Hypothese

Hypothese Hypothese Hypothese Hypothese Prüfung   Theorie und Hypothesen Theorie

Theorie Hypothese Hypothese Hypothese Hypothese Prüfung   Theorie und Hypothesen Theorie  Prüfung  Prüfung  

H1 und H0 • H1 (Alternativhypothese, inhaltliche Hypothese, Arbeitshypothese, theoriekonforme Hypothese) • abgeleitet aus einer innovativen Theorie • z.B. Widerspruch zu herkömmlichen Theorien, • kontraintuitiv (im Widerspruch zu intuitiven Theorien), • oder Erklärung neuer Sachverhalte, Ergänzungen, ... • H0 (Nullhypothese) • keineswegs aus Gegentheorie abgeleitet,sondern lediglich Verneinung von H1.theoriefrei

Ziel einer Studie • meist: Beweis von H1. • Festigung (nicht: Beweis) der eigenen Theorie • gelegentlich: Beweis von H0. • theoriefreie Schwächung (nicht: Widerlegung) einer gängigen Theorie • Popper: Asymmetrie Beweis einer Theorie geht nicht, Widerlegung mit einem einzigen Experiment möglich. • z.B.: All-Aussagen: Alle Menschen haben ihr Herz links. • sinnvolle Theorien meist komplexer strukturiert.

Hypothesen • Unterschieds- versus Zusammenhangshypothesen • Die Einführung von PowerPoint in die Lehre verändert den Lernerfolg.UH werden mit Häufigkeits- und Mittelwertvergleichen geprüft. • Zwischen Internetgebrauch und Lesetätigkeit besteht ein Zusammenhang.ZH werden mit Korrelationsrechnungen geprüft. • Gerichtete versus ungerichtete Hypothesen • Die Einführung von PowerPoint in die Lehre verbessert den Lernerfolg. • Zunehmender Internetgebrauch beeinträchtigt die Lesetätigkeit. • Spezifische versus unspezifische Hypothesen • Die Einführung von PowerPoint verbessert den Lernerfolg um 1 Note. • Die Korrelation zwischen Internetgebrauch und Lesetätigkeit ist kleiner als –0.5.

Überführung in statistische Hypothesen • Die Einführung von PowerPoint in die Lehre verändert den Lernerfolg. • Der durchschnittliche Lernerfolg µ1 einer mit PP unterrichtete Gruppe ist ungleich dem durchschnittlichen Lernerfolg µ0 einer ohne PP unterrichteten Gruppe. H1: µ1  µ0. H0: µ1 = µ0. • Die Einführung von PowerPoint in die Lehre verbessert den Lernerfolg. • Der durchschnittliche Lernerfolg µ1 einer mit PP unterrichtete Gruppe ist größer als der durchschnittlichen Lernerfolg µ0 einer ohne PP unterrichteten Gruppe. H1: µ1 > µ0. H0: µ1  µ0.

Überführung in statistische Hypothesen • Zwischen Internetgebrauch und Lesetätigkeit besteht ein Zusammenhang. • In einer repräsentativen Stichprobe ist die Korrelation  zwischen Internetgebrauch und Lesetätigkeit ungleich Null. H1:   0. H0:  = 0. • Zunehmender Internetgebrauch beeinträchtigt die Lesetätigkeit. • In einer repräsentativen Stichprobe ist die Korrelation  zwischen Internetgebrauch und Lesetätigkeit kleiner Null. H1:  < 0. H0:   0.

Fehler Ergebnis der Hypothesenprüfung H1 stimmt H0 stimmt in Wirklichkeit stimmt H1 stimmt H0 -Fehler Fehler 2. Art -Fehler Fehler 1. Art richtig richtig Welcher Fehler ist schlimmer? Das hängt davon ab... • H1: Der eben aus Hongkong eingetroffene Tourist ist mit SARS infiziert. • H1: Der eben aus Paris eingetroffene Tourist ist nicht mit SARS infiziert.

-Fehler Wahrscheinlichkeit • z. B. im Fall einer gerichteten Unterschiedshypothese H1: µ1 > µ0. • µ0 und 0 seien bekannt. • Eine Stichprobe mit n=30 ergibt Mittelwert <x>. • erwartete Verteilung für <x> bei n=30: N(µ0,0²/30). z = (<x> – µ0) / <x> = (<x> – µ0) / (0 /  n) • testet eigentlich µ1 = µ0, nicht µ1  µ0.

-Fehler Wahrscheinlichkeit • z. B. im Fall einer ungerichteten Unterschiedshypothese H1: µ1 µ0. • µ0 und 0 seien bekannt. • Eine Stichprobe mit n=30 ergibt Mittelwert <x>. • erwartete Verteilung für <x> bei n=30: N(µ0,0²/30). z = (<x> – µ0) / <x> = (<x> – µ0) / (0 /  n) • testet korrekterweise µ1 = µ0.

Signifikanzniveaus • p (Ergebnis | H0)  0.05: signifikant • p (Ergebnis | H0)  0.01: „sehr signifikant“ Fahrer: „Was bedeutet die durchgezogene gelbe Linie am Fahrbahnrand?“Polizist: „Dort dürfen Sie nicht parken.“Fahrer: „Und was ist, wenn da zwei gelbe Linien sind?“Polizist: „Dort dürfen Sie überhaupt nicht parken!“ • entweder: Signifikanzniveaus vor Untersuchungsbeginn festlegen, nicht anhand der Daten. • oder: Nur Fehlerwahrscheinlichkeiten berichten. • Praxis: „hochsignifikante Ergebnisse (p<0.002)“(Verstoß gegen die reine Lehre, aber kein wirkliches Problem)

-Fehler Wahrscheinlichkeit

-Fehler Wahrscheinlichkeit • z. B. im Fall einer gerichteten Unterschiedshypothese H1: µ1 > µ0. • µ1 ist unbekannt. 1 wird als identisch zu 0 angenommen. • Eine Stichprobe mit n=30 ergibt Mittelwert <x>. • erwartete Verteilung für <x> bei n=30: N(µ1,0²/30). Die -Fehler Wahrscheinlichkeit ist eine Funktion von µ1! µ1 festlegen: µ1 = µ0 + E, Effektstärke  = (µ1 – µ0) / 0 = E / 0. ... fragwürdige Vorgehensweise ...

- und -Fehlerbei unterstellter Effektstärke • - und -Fehler sind gegenläufig

<x> - und -Signifikanzniveaus • „konservativ“: • kleines -Fehler-Niveau (5%, 1%) • hohes -Fehler-Niveau (z. B. 20%) • Indifferenzbereich, z.B. hier: weder H0 noch H1 verwerfen.

<x> n erhöhen  <x> nimmt ab (hier: n' = 4*n, '<x> = <x>/2). • Indifferenzbereich, hier: sowohl H0 als auch H1 verwerfen.

„optimaler“ Stichprobenumfang (hier: n' = 2*n, '<x> = <x>/1.4). • kein Indifferenzbereich....

Kritik • „optimaler“ Stichprobenumfang verschleiert das Problem, das durch den Indifferenzbereich aufgedeckt wird: Wenn eine Effektstärke vorgegeben wird,sind H0 und H1 keine komplementären Hypothesen mehr. • Es ist z. B. sehr gut möglich, daß zwar ein Effekt da ist, er aber nicht die postulierte Effektstärke erreicht.Dann stimmt weder H0 noch H1. • verwandte Begriffe: -Fehler, Effektstärke, optimaler Stichprobenumfang, Teststärke (power) 1 – .

- und -Fehlermit unterstellter Effektstärke • - und -Fehler sind gegenläufig:

- und -Fehlerbei komplementären Hypothesen  = 1 –. H1: µ1 > µ0. H0: µ1  µ0. • - und -Fehler sind gegenläufig: • -Fehler testet nicht H0: µ1  µ0, sondern “worst case” µ1 = µ0. • -Fehler testet nicht H1: µ1 > µ0, sondern “worst case” µ1 = µ0 + (mit  beliebig klein).

Korrekter Test einer unterstellten Effektstärke • wirklich konservativ: • kleines -Fehler-Niveau (5%, 1%) für H1: µ1 > µ0, H0: µ1  µ0. • kleines -Fehler-Niveau (5%, 1%) für H1: µ1 > µ0 + E, H0: µ1  µ0 + E. • „-Fehlerwahrscheinlichkeit von 20%“ entspricht „-Fehlerwahrscheinlichkeitvon 80% !!!

Wann ist es sinnvoll, den -Fehler separat zu bestimmen? • Die Effektgröße muß bekannt sein.Sonst muß man eine beliebig kleine Effektgröße zulassen, und  ist einfach 1 – . • Was soll dann noch fraglich sein?Eine klassische Unterschiedshypothese kommt nicht in Frage. • Umkehrung der Fragestellung: • bisher: Zugehörigkeit der VP zu Gruppe A oder B ist bekannt. Frage: Gibt es einen Unterschied zwischen A und B? • jetzt: Unterschied zwischen Gruppe A und B ist bekannt. Frage: Gehört VP zu Gruppe A oder zu Gruppe B? SDT (Statistical Decision Theory, Signal Detection Theory)

Klassische Hypothesenprüfung