Der Begriff der Datenverteilung findet sowohl bei der deskriptiven als auch in der induktiven Statistik Anwendung. Während im deskriptiven Fall die Lage gemessener Werte beschrieben wird, dient die Datenverteilung in der Inferenzstatistik in Form einer Dichtefunktion zur Abschätzung von Wahrscheinlichkeiten. Im Folgenden erfolgt eine kurze Übersicht über mögliche Datenverteilungen, bei der ein Fokus auf die Normalverteilung gelegt wird. Hintergrund ist der Umstand, dass Daten als Voraussetzung für viele statistische Tests auf ihre Normalverteilung geprüft werden müssen.
Stetige und diskrete Daten
Grundsätzlich muss zunächst zwischen stetigen und diskreten Daten differenziert werden. Diskrete Daten liegen dann vor, wenn innerhalb eines Wertebereichs nur bestimmte Werte, häufig ganze Zahlen, angenommen werden können. Das ist z. B. bei einem Würfel der Fall, bei dem ausschliesslich die Werte 1, 2, 3, 4, 5 oder 6 möglich sind. Misst man hingegen das Körpergewicht von Personen, so resultiert eine stetige Verteilung von Werten, da hier jeder denkbare (Zwischen-)Wert möglich ist.
Die Unterscheidung zwischen diskreten und stetigen Daten hat u. a. Konsequenzen für die Erstellung von Diagrammen. Bei diskreten Daten können Säulendiagramme verwendet werden, wobei jeder Balken die Häufigkeit bzw. Wahrscheinlichkeit eines (diskreten) Wertes darstellt. Stetige Daten verlangen hingegen aufgrund der potenziell unbegrenzten Anzahl an Werten eine Einteilung in Wertintervalle, die mithilfe eines Histogramms dargestellt werden.
Normalverteilung und Prüfung auf Normalverteilung
Die Normalverteilung oder Gauss-Verteilung begegnet uns bspw. bei der Verteilung des Intelligenzquotienten oder der Körpergrösse von Personen in einer Population. Die typische Glockenform (oder: Gauss’sche Glockenkurve) ergibt sich durch eine Kumulation von Werten innerhalb des möglichen Wertebereichs. Wiederholt man eine Messung sehr häufig, so beobachtet man eine Häufung von Werten bei diesem sog. Erwartungswert. Aus dieser Gesetzmässigkeit ergibt sich die hohe Bedeutung der Normalverteilung in der Inferenzstatistik.
Im unten genannten Beispiel der Gewichte kann der Erwartungswert erahnt werden: Die Trainierenden an diesem Gerät stellen das Gewicht im Durchschnitt auf 60 Pfund ein. Werden die Einstellungen aller Personen an diesem Gerät innerhalb eines gegebenen Zeitraums erhoben und notiert, kann hieraus ein Datensatz erstellt werden. Dieser wiederum ist Grundlage für eine Darstellung als Säulendiagramm.
Bro science 101
Lecture: The normal distribution pic.twitter.com/dNHiZALmSU— Amir Sariaslan (@AmirSariaslan) February 20, 2022
Abbildung 1; Tweet: (Annähernde) Normalverteilung der Muskelkraft einer Stichprobe, die an den Gebrauchsspuren der Gewichte ablesbar ist.
Abbildung 2: Normalverteilung der Muskelkraft einer Stichprobe.
Statistikprogramme bieten anschliessend die Möglichkeit, dieses Säulendiagramm auf Normalverteilung zu überprüfen. Das ist beispielsweise nötig, wenn man die Muskelkraft als abhängige Variable in einem linearen Regressionsmodell verwenden will.
Während die Skalierung der Gewichte auf der x-Achse eingetragen wird (zur Illustration werden gleiche Differenzen zwischen den Gewichten angenommen), wird auf der y-Achse die Anzahl der Personen eingetragen, die die entsprechenden Gewichte heben. Dabei wurden die Trainingsgewohnheiten von 23 Personen erfasst. Wie erwartet, heben die meisten Personen 60 Pfund, während die Anzahl der Personen bei kleineren oder grösseren Gewichten kontinuierlich abnimmt. Die Extremwerte der Gewichte von 5 Pfund und 115 Pfund kommen schliesslich nur noch sehr selten vor.
Mithilfe von Statistikprogrammen kann dem Diagramm zudem eine Normalverteilungskurve hinzugefügt werden (rote Linie). Die Normalverteilungskurve stellt zugleich die Dichtefunktion der Normalverteilung dar, anhand derer Wahrscheinlichkeiten für Werte einer Zufallsvariable abgelesen werden können. Durch einen Abgleich der Daten mit der Linie beurteilt man schliesslich, ob die Daten annähernd normalverteilt sind. Im hier verwendeten Beispiel zeigt sich, dass die Annahme einer Normalverteilung bestätigt werden kann, da die Abweichungen von der Normalverteilungskurve nur gering sind.
Abbildung 3: Rechtsschiefe bzw. linkssteile Verteilung
Eine Normalverteilung kann meist auch dann noch angenommen werden, wenn keine perfekt symmetrische Verteilung vorliegt. Fällt die Verteilung der Daten asymmetrisch aus, spricht man von schiefen Verteilungen. Kumulieren die Werte in einem geringen Wertebereich, so liegt eine rechtsschiefe (bzw. linkssteile) Verteilung vor. Umgekehrt handelt es sich um eine linksschiefe (bzw. rechtssteile) Verteilung, wenn eine Konzentration im oberen Wertebereich zu erkennen ist. Zur Überprüfung auf Normalverteilung wird daher auch die statistische Kennzahl der Schiefe der Verteilung herangezogen.