Inferenzstatistik und statistische Signifikanz

Schliessen von einer Stichprobe auf die Grundgesamtheit

In den Sozialwissenschaften oder in der Psychologie ist man häufig mit Fragestellungen konfrontiert, die grosse Populationen betreffen. So will man bspw. erfahren, welche Ausprägungen von Persönlichkeitsmerkmalen in der deutschen Bevölkerung existieren oder wie sich die Corona-Pandemie auf das Sozialverhalten ausgewirkt hat. Zur Untersuchung dieser Fragen ist es kaum möglich, die gesamte Population zu untersuchen (Vollerhebung). Stattdessen macht man sich statistische Gesetzmässigkeiten zunutze, nachdem man eine Stichprobe aus der interessierenden Population gezogen hat.

Die mit der Forschungsfrage fokussierte Population wird als Grundgesamtheit bezeichnet und umfasst die Menge der Objekte, über die bestimmte Aussagen getroffen werden sollen. So kann die Grundgesamtheit im o. g. Beispiel als deutschsprachige Wohnbevölkerung in einem Alter zwischen 18 und 65 Jahren definiert werden. Ebenso könnte je nach Erkenntnisinteresse der weibliche oder jugendliche Anteil einer Population als Grundgesamtheit definiert werden.

Die Stichprobe nähert sich mit zunehmender Grösse der Grundgesamtheit an

Die Möglichkeit des Schliessens von einer Stichprobe auf eine Grundgesamtheit ergibt sich u. a. aus der Annahme der Normalverteilung von Variablen in einer Population. Zieht man zunächst eine Stichprobe mit nur wenigen Personen, so ist noch keine definierbare Verteilung der Daten zu erkennen. Je mehr Personen und Stichproben gezogen werden, desto mehr nähert sich die Datenverteilung schliesslich der Normalverteilung an. Das bedeutet gleichzeitig, dass sich der Mittelwert der Stichprobe dem fraglichen Parameter (Erwartungswert μ) in der Grundgesamtheit annähert. Die Untersuchung einer Stichprobe ist also die vergleichsweise effizienteste Lösung, um einen Wert in der Grundgesamtheit zu schätzen.

Dieser Annäherungsmechanismus geht auf den zentralen Grenzwertsatz zurück, eines der wichtigsten Phänomene der Inferenzstatistik. Technisch ausgedrückt besagt dieser, dass sich die Verteilung der Summe von n unabhängigen standardisierten Zufallsvariablen mit identischer Wahrscheinlichkeitsverteilung mit steigender Stichprobengrösse der typisch glockenförmigen Standardnormalverteilung annähert. Dies impliziert zugleich, dass Stichproben mit grösseren oder kleineren Mittelwerten unwahrscheinlicher sind.

An diesen Erwartungswert, Populationsparameter oder Parameterschätzer werden die Anforderungen von Gütekriterien gestellt, die bereits bei der Stichprobenziehung zu berücksichtigen sind. Das erste Gütekriterium lautet Erwartungstreue. Es besagt, dass keine systematische Verzerrung der Stichprobe gegenüber der Grundgesamtheit bestehen darf. Ein zweites Gütekriterium, die Konsistenz, beinhaltet eine Annäherung des Schätzers an den Populationsparameter bei stetiger Vergrösserung der Stichprobe nach dem Mechanismus des zentralen Grenzwertsatzes.

Die Gütekriterien heben also die Bedeutung einer Zufallsstichprobe aus der Grundgesamtheit hervor. Nur ein solcher Zufallsmechanismus stellt schliesslich sicher, dass die Gütekriterien erfüllt sind und unverzerrte Schätzer resultieren. Will man z. B. Aussagen über die Grundgesamtheit deutscher Arbeitnehmender treffen und befragt ausschliesslich Personen aus den sog. alten Bundesländern, sind systematische Verzerrungen des Schätzers wahrscheinlich. Eine Zufallsstichprobe trägt also zur Repräsentativität der Untersuchungsobjekte für die Grundgesamtheit bei.

Der Mittelwert ist aber nur eine Kennzahl zur Charakterisierung der Stichprobenkennwerteverteilung. Eine weitere inferenzstatistische Kennzahl ist die des Standardfehlers des Mittelwerts. Dieser gibt die Streuung um den Mittelwert an und erlaubt ein Urteil über die Genauigkeit der Schätzung. Je kleiner der Standardfehler ist, desto genauer ist auch die Schätzung des Populationsparameters.

Hypothesentests und Signifikanz

Zur Untersuchung eines Forschungsgegenstandes werden überprüfbare Hypothesen formuliert, die zugleich Ausgangspunkt für inferenzstatistische Analysen auf Basis der Normalverteilung sind. Hypothesen enthalten Annahmen, die Populationsparameter der Grundgesamtheit ansprechen. Dabei wird überprüft, ob durchschnittlich überzufällige Zusammenhänge vorliegen. Das Ziel eins Signifikanztests besteht allgemein in der Überprüfung von Annahmen über empirische Daten.

Unterschieden wird zwischen Unterschiedshypothesen, Zusammenhangshypothesen, gerichteten und ungerichteten Hypothesen. Formuliert werden eine Alternativ- und eine zugehörige Nullhypothese, die die Annahme der Alternativhypothese negiert. Während die Alternativhypothese also einen Zusammenhang in der Grundgesamtheit bejaht, wird dieser in der Nullhypothese abgestritten bzw. gegenteilig formuliert. Als Beispiel dient eine gerichtete Unterschiedshypothese:

Alternativhypothese (H1):
Die Fahrzeugleistung (PS) von Männern ist im Mittel grösser als die Fahrzeugleistung (PS) von Frauen.
Nullhypothese (H0):
Die Fahrzeugleistung (PS) von Männern ist im Mittel kleiner als die Fahrzeugleistung (PS) von Frauen oder es besteht kein Unterschied in der Fahrzeugleistung zwischen Männern und Frauen.

Konkret prüft ein anschliessender Signifikanztest anhand der Normalverteilung, wie wahrscheinlich bestimmte Werte in der Grundgesamtheit vorkommen. Im vorliegenden Fall besteht die entscheidende Frage darin, ob sich die Differenzen der Mittelwerte zwischen den Geschlechtern signifikant unterscheiden. Hierfür beurteilt der Test anhand der Lage der Werte in der Normalverteilung, ob die Differenz einen kritischen Wert überschreitet. Dieser kritische Wert wird durch das Signifikanzniveau festgelegt, das zuvor meist mit α = 0,05 (5 %) definiert wird, manchmal aber auch mit 1 % oder 10 %.

Werte, die grösser oder gleich diesem kritischen Wert sind, treten unter der Annahme der Nullhypothese mit einer Wahrscheinlichkeit von höchstens 5 % auf. Anders ausgedrückt befinden sich rechts neben dem kritischen Wert ungefähr 5 % aller Differenzwerte am oberen Ende der Verteilung. Kommt der Test bei einem Erwartungswert bzw. Populationsmittelwert nahe 0 zu dem Ergebnis, dass geringe Differenzen relativ wahrscheinlich sind, muss die Nullhypothese bestätigt werden.

Datenverteilung, unter der die Nullhypothese angenommen wird.

Datenverteilung, unter der die Alternativhypothese angenommen wird.

Ein analoges Vorgehen ergibt sich, sollte die Alternativhypothese zutreffen. Als Grundlage dient weiterhin der kritische Wert unter der Annahme der Nullhypothese. Eine Bestätigung der Alternativhypothese erfolgt in diesem Fall dann, wenn der Erwartungswert der Differenz grösser als der kritische Wert ist. Dann hat sich gezeigt, dass eine Differenz zwischen den Geschlechtern in der Grundgesamtheit wahrscheinlich ist.

Der Test überprüft also die Wahrscheinlichkeit der Nullhypothese. Liegt der Signifikanzwert des Tests bei mehr als 5 % (p > 0,05), so wird die Annahme der Nullhypothese allgemein beibehalten. Liegt der Wert hingegen bei weniger als 5 % (p <= 0,05), wird die Gültigkeit der Nullhypothese angezweifelt und die Alternativhypothese angenommen. Aufgrund der zentralen Rolle der Nullhypothese wird ein solcher statistischer Test auch als Nullhypothesen-Signifikanztest bezeichnet.

Die Wahl des konkreten Signifikanztests hängt von verschiedenen Faktoren ab. Neben der Art der Hypothese sind folgende Aspekte zu berücksichtigen:

Anzahl der beteiligten Variablen
Skalenniveau der Variablen
Stichprobenumfang (der zentrale Grenzwertsatz greift erst bei n >= 30)
Verteilungseigenschaften der Daten (z. B. Normalverteilung).

Weiterführende Literatur:

Albers, S., Klapper, D., Konradt, U., Walter, A., Wolf, J. (Hrsg.) (2009). Methodik der empirischen Forschung. Wiesbaden: Springer.
Baur, N., Blasius, J. (Hrsg.) (2014). Handbuch Methoden der empirischen Sozialforschung. Wiesbaden: Springer VS.
Janczyk, M., Pfister, R. (2013). Inferenzstatistik verstehen. Berlin, Heidelberg: Springer.