Überprüfung der Datenverteilung in R

Jedes Mal, wenn wir einen Datensatz in R analysieren – egal, ob es sich um Verkaufszahlen, Umfrageergebnisse oder wissenschaftliche Messwerte handelt – steht im Hintergrund die sogenannte Datenverteilung. Doch was bedeutet das eigentlich?

Sarah | 07.10.2024 | Lesedauer 13 min

Einfach ausgedrückt, beschreibt die Datenverteilung in R, wie oft bestimmte Werte in einem Datensatz auftreten. Sie zeigt uns, ob die Daten gleichmässig verteilt sind, ob sie eine Glockenkurve (Normalverteilung) bilden oder ob sie vielleicht verzerrt sind, weil manche Werte stark abweichen.

Dieser Artikel soll einen Einblick geben, wie Datenverteilungen in R analysiert und visualisiert werden können. Dabei wird sowohl der theoretische Hintergrund der Datenverteilung erläutert als auch Schritt für Schritt erklärt, wie mit einfachen R-Tools wie Histogrammen, Boxplots und Dichteplots die Verteilung überprüft wird. Zusätzlich werden statistische Tests vorgestellt, mit denen sich feststellen lässt, ob die Daten einer Normalverteilung folgen. Das Ziel ist es, ein Verständnis dafür zu schaffen, wie die Verteilung der Daten die Wahl der Analyseverfahren beeinflusst und wie in R zuverlässige Werkzeuge genutzt werden können, um Daten vor der Analyse korrekt einzuschätzen.

Warum die Überprüfung der Datenverteilung in R wichtig ist

Die Verteilung der Daten ist nicht nur eine interessante statistische Spielerei. Sie ist entscheidend, weil sie uns verrät, welche statistischen Methoden überhaupt anwendbar sind. Zum Beispiel setzen viele gängige statistische Verfahren voraus, dass die Daten einer Normalverteilung folgen. Wenn das nicht der Fall ist und wir diese Verfahren trotzdem verwenden, können die Ergebnisse irreführend oder sogar komplett falsch sein. Ausserdem können verzerrte Daten oder Ausreisser – extreme Werte, die stark von den übrigen Datenpunkten abweichen – die Ergebnisse erheblich beeinflussen.

Eine lineare Regression etwa geht davon aus, dass die Daten gleichmässig verteilt sind. Wenn jedoch eine starke Verzerrung vorliegt oder mehrere Ausreisser den Datensatz dominieren, führt dies zu falschen Vorhersagen und einem fehlerhaften Modell.

Ein weiteres Beispiel ist der t-Test, der oft verwendet wird, um Mittelwerte zu vergleichen. Er funktioniert am besten bei Daten, die der Normalverteilung folgen. Bei stark verzerrten Daten oder vielen Ausreissern kann der Test jedoch irreführende Ergebnisse liefern.

Durch eine Analyse der Verteilung können ausserdem wertvolle Erkenntnisse gewonnen werden. So wird sichtbar, ob die Daten eine Transformation benötigen, um sie für bestimmte statistische Modelle nutzbar zu machen. Methoden wie die Log-Transformation helfen dabei, schiefe Daten «gerader» zu machen und sie einer Normalverteilung anzunähern.

 

Theoretische Grundlagen der Datenverteilung in R

Die Normalverteilung, auch bekannt als Gauss-Verteilung, ist eine der fundamentalen Verteilungen in der Statistik und spielt eine zentrale Rolle in vielen statistischen Verfahren. Sie ist eine kontinuierliche Wahrscheinlichkeitsverteilung, die durch ihre charakteristische Glockenform beschrieben wird. Diese Verteilung ist symmetrisch um ihren Mittelwert und weist bestimmte mathematische Eigenschaften auf, die sie besonders nützlich für die Datenanalyse machen. Die Normalverteilung wird durch zwei Parameter vollständig bestimmt: den Mittelwert und die Standardabweichung. Der Mittelwert liegt im Zentrum der Verteilung und entspricht dem häufigsten Wert, während die Standardabweichung die Streuung der Daten um diesen Mittelwert angibt.

Eine wichtige Eigenschaft der Normalverteilung ist, dass etwa 68 % der Werte innerhalb einer Standardabweichung um den Mittelwert liegen, etwa 95 % der Werte innerhalb von zwei Standardabweichungen und etwa 99.7 % der Werte innerhalb von drei Standardabweichungen. Diese Eigenschaft ist als die 68-95-99.7-Regel bekannt und wird häufig in der Datenanalyse genutzt, um Annahmen über die Verteilung der Daten zu überprüfen.

 

Skewness und Kurtosis

Neben der Frage, ob Daten einer Normalverteilung folgen, sind zwei weitere Kennzahlen zur Beschreibung der Form einer Verteilung zentral: Schiefe (Skewness) und Wölbung (Kurtosis).

Schiefe bezeichnet die Asymmetrie einer Verteilung. Wenn eine Verteilung symmetrisch ist, entspricht die Schiefe null. Eine positive Schiefe bedeutet, dass der rechte Schwanz der Verteilung länger ist, während bei einer negativen Schiefe der linke Schwanz dominiert. Diese Asymmetrie kann auf extreme Werte (Ausreisser) in den Daten hinweisen, die die Ergebnisse statistischer Analysen beeinflussen können. Eine Verteilung mit einer Schiefe von null ist symmetrisch, während positive Werte eine Schiefe nach rechts und negative Werte eine Schiefe nach links anzeigen.

Wölbung (Kurtosis) beschreibt, wie spitz oder flach eine Verteilung im Vergleich zur Normalverteilung ist. Eine Normalverteilung hat eine Kurtosis von 3. Eine Verteilung mit einer höheren Wölbung als 3 weist mehr Werte im Zentrum und in den Extremen auf, was auf eine schmalere und höhere Spitze sowie längere Enden hinweist (leptokurtisch). Eine Verteilung mit einer geringeren Wölbung als 3 hat eine flachere Spitze und kürzere Enden, was sie breiter und weniger konzentriert erscheinen lässt (platykurtisch). Eine hohe Kurtosis kann auf häufige extreme Abweichungen hinweisen, was statistische Analysen erschweren kann.

Beide Masse – Schiefe und Wölbung – helfen dabei, ein tieferes Verständnis bezüglich der Verteilung der Daten zu gewinnen und potenzielle Anomalien zu erkennen, die vor der Anwendung statistischer Methoden adressiert werden sollten.

 

Visualisierung der Datenverteilung in R

Histogramme in R

Histogramme sind ein unverzichtbares Instrument, wenn es darum geht, die Verteilung von Daten in R zu visualisieren und grundlegende Eigenschaften eines Datensatzes zu verstehen. Sie bieten eine grafische Darstellung, indem sie den Wertebereich einer Variablen in Intervalle (auch Bins genannt) aufteilen und die Häufigkeit der Werte in diesen Intervallen abbilden. Die Höhe jedes Balkens im Histogramm zeigt dabei, wie viele Datenpunkte in einem bestimmten Intervall liegen. Diese einfache Methode zur Visualisierung hilft dabei, die Verteilung der Daten schnell zu erfassen und erste Schlüsse zu ziehen.

In R lässt sich ein Histogramm unkompliziert mit der Funktion hist() erstellen. Diese Funktion ermöglicht es, Daten auf verschiedene Weisen zu visualisieren und die Darstellung durch verschiedene Parameter wie Farben, Achsenbeschriftungen und Titel zu personalisieren. Beispielsweise kann die Variable «Alter» aus unserem Probedatensatz wie folgt visualisiert werden:

> library(readxl)
> Probedatensatz <- read_excel("Desktop/Probedatensatz.xlsx")
> View(Probedatensatz)
> hist(Probedatensatz$Alter,
+      main = "Histogramm der Variable Alter",
+      xlab = "Alter",
+      ylab = "Häufigkeit",
+      col = "lightblue",
+      border = "black")

Mit dieser simplen Befehlsfolge kann das Alter unserer Stichprobe grafisch dargestellt werden. Durch das Histogramm wird ersichtlich, welche Altersgruppen in der Verteilung häufiger vertreten sind und wie symmetrisch oder asymmetrisch die Daten verteilt sind. Der Parameter main legt den Titel des Plots fest, während ylab die Beschriftung der y-Achse und xlab analog dazu die Beschriftung der x-Achse angibt. Mit col wird die Farbe der Box bestimmt, und border definiert die Farbe des Rahmens. Anschliessend kann die Abbildung im oberen rechten Feld über die Option «Export» als Grafik gespeichert werden:

Datenverteilung Rstudio

 

Unterschiedliche Verteilungen: Beispiele in R

Die beiden nachfolgenden Histogramme illustrieren, wie unterschiedlich Daten verteilt sein können und welche Informationen man aus solchen Darstellungen ableiten kann.

 

Datenverteilung Rstudio Histogramm Alter

 

Das erste Histogramm, das die Verteilung der Variable «Alter» darstellt, zeigt eine nahezu perfekte Glockenkurve. Diese Verteilung ist symmetrisch, was bedeutet, dass die meisten Werte um den Mittelwert (in diesem Fall zwischen 16 und 18 Jahren) liegen und die Häufigkeit zu den Extremen hin abnimmt. Solch eine Verteilung deutet darauf hin, dass die Daten annähernd normalverteilt sind, was sie ideal für viele gängige statistische Verfahren macht.

 

Datenverteilung Rstudio Histogramm Variable Zugang Bildungsressourcen

Das zweite Histogramm zeigt eine diskrete Verteilung für die Variable «Zugang zu Bildungsressourcen». Anders als bei der symmetrischen Glockenkurve des ersten Histogramms ist die Verteilung hier nicht normalverteilt. Stattdessen sind klare Unterschiede in den Häufigkeiten für die verschiedenen Kategorien (z. B. 1 bis 5) zu erkennen. Die Verteilung zeigt keine Symmetrie, und die Kategorien sind unterschiedlich stark besetzt. In solchen Fällen sind möglicherweise nicht parametrische Tests oder alternative Analysemethoden notwendig, da diese Verteilung nicht den Voraussetzungen der Normalverteilung entspricht.

 

Boxplots in R

Ein Boxplot ist ein weiteres Werkzeug, um die Verteilung von Daten auf einen Blick in R zu erfassen. Dieser Plot bietet eine grafische Darstellung der Verteilung von Werten in einem Datensatz und zeigt dabei wichtige statistische Kennzahlen wie den Median, die Quartile und Ausreisser.

Ein Boxplot lässt sich in R auf einfache Weise erstellen: Mit der Funktion boxplot() kann man innerhalb weniger Zeilen Code eine visuelle Darstellung der Datenverteilung erhalten. Der grundlegende Befehl sieht so aus:

> library(readxl)
> Probedatensatz <- read_excel("Desktop/Probedatensatz.xlsx")
> View(Probedatensatz)
> boxplot(Probedatensatz$Schulische_Leistung,
+         main = "Boxplot der Variable Schulische Leistung",
+         ylab = "Schulische Leistung",
+         col = "lightblue",
+         border = "black")

 

Datenverteilung-Rstudio Boxplot Schulische Leistung

Der dargestellte Boxplot gibt einen umfassenden Einblick in die Verteilung der schulischen Leistungen in unserem Probedatensatz. Zunächst zeigt die Box, welche den Interquartilsabstand (IQR) repräsentiert, dass die mittleren 50 % der schulischen Leistungen zwischen 500 und 800 Punkten liegen. Das bedeutet, dass die Mehrheit der Stichprobe in diesem Bereich liegt. Der Median, dargestellt durch die dicke Linie in der Box, befindet sich bei etwa 650 bis 700 Punkten. Dies zeigt, dass die Hälfte der Stichprobe eine schulische Leistung von weniger als 700 Punkten erreicht, während die andere Hälfte darüber liegt. Der Median gibt uns also einen guten Hinweis auf den zentralen Wert der Verteilung.

Die Whisker – die gestrichelten Linien, die sich über die Box hinaus erstrecken – zeigen die minimalen und maximalen Werte, die innerhalb des 1.5-Fachen des Interquartilsabstands liegen. In diesem Fall reichen die Whisker von etwa 300 bis 900 Punkten, was darauf hindeutet, dass es keine extremen Abweichungen in den Daten gibt. Tatsächlich zeigt der Boxplot keine Ausreisser, da keine Punkte ausserhalb der Whisker zu sehen sind. Das Fehlen von Ausreissern deutet darauf hin, dass die Leistungen weitgehend innerhalb eines normalen Rahmens verteilt sind und keine stark abweichenden Extremwerte vorhanden sind.

Die Breite der Box zeigt auch die Streuung der Daten innerhalb des Interquartilsabstands: Eine breite Box, wie hier zu sehen, deutet auf eine relativ grosse Variation in den schulischen Leistungen hin. Es gibt also eine gewisse Heterogenität in Bezug auf die Leistungen.

Was die Verteilung der Daten insgesamt angeht, ist der Boxplot relativ symmetrisch, da der Median ungefähr in der Mitte der Box liegt. Das deutet darauf hin, dass die Daten nicht stark schief sind, sondern eine einigermassen gleichmässige Verteilung der schulischen Leistungen aufweisen. Dies wird weiter durch die symmetrische Länge der Whisker unterstützt, die zeigt, dass die Werte auf beiden Seiten des Medians relativ gleichmässig verteilt sind.

 

Dichteplots in R

Ein Dichteplot ist eine glatte Schätzung der Wahrscheinlichkeitsdichte einer kontinuierlichen Variable und bietet eine alternative Darstellung zur Veranschaulichung der Datenverteilung. Er ermöglicht eine fliessende und detaillierte Betrachtung der Datenstruktur im Vergleich zu einem Histogramm, das die Daten in feste Intervalle aufteilt. Mit einem Dichteplot lassen sich leicht Verteilungsmuster, zentrale Tendenzen und Anomalien erkennen. In R kann ein Dichteplot mit der Funktion density() erstellt werden. Ein typischer Code kann folgendermassen aussehen:

plot(density(Probedatensatz$Schulische_Leistung),
    main = "Dichteplot der Variable",
    xlab = "Wert",
    ylab = "Dichte",
    col = "blue")

Der Dichteplot zeigt eine glatte Kurve, die die Verteilung der Werte darstellt. Die Höhe der Kurve an einem bestimmten Punkt gibt an, wie dicht die Daten in diesem Bereich verteilt sind.

Datenverteilung rstudio Dichteplot

In dem dargestellten Plot ist klar zu erkennen, dass der höchste Punkt der Kurve im Bereich zwischen 600 und 700 liegt, was darauf hinweist, dass die meisten Werte der schulischen Leistungen in diesem Bereich vorkommen. Dieser Gipfel repräsentiert den Modus der Verteilung, also den Bereich, in dem die Daten am häufigsten auftreten.

Ausserdem zeigt die Kurve, dass die Werte gleichmässig in einem Bereich von ca. 200 bis 1000 verteilt sind, mit abnehmenden Häufigkeiten in den äusseren Bereichen. Es gibt keine starken Sprünge oder abrupte Änderungen in der Verteilung, was darauf hindeutet, dass es keine extremen Ausreisser gibt. Ein Dichteplot kann auch verwendet werden, um zu erkennen, ob eine Verteilung mehrere Gipfel (Multimodalität) hat, aber in diesem Fall gibt es nur einen Hauptgipfel, was auf eine unimodale Verteilung hinweist.

 

Tests zur Verteilungsprüfung in R

Nachfolgend werden sowohl der Shapiro-Wilk-Test als auch der Kolmogorov-Smirnov-Test durchgeführt, um die Verteilung der Variable «Schulische Leistung» auf Normalverteilung zu überprüfen. Beide Tests sind Standardmethoden zur Verteilungsprüfung, verfolgen jedoch unterschiedliche Ansätze und haben jeweils spezifische Anwendungsbereiche.

 

Shapiro-Wilk-Test in R

Der Shapiro-Wilk-Test prüft die Nullhypothese, dass die Daten einer Normalverteilung folgen. Dieser Test ist besonders geeignet für kleine bis mittelgrosse Stichproben und bietet eine hohe Aussagekraft bei der Überprüfung der Normalverteilung.

> shapiro_test_leistung <- shapiro.test(Probedatensatz$Schulische_Leistung)
> print(shapiro_test_leistung)

        Shapiro-Wilk normality test
data: Probedatensatz$Schulische_Leistung
W = 0.96316, p-value = 7.223e-10

Das Ergebnis zeigt einen sehr niedrigen p-Wert von p = 7.223e-10. Dieser p-Wert liegt weit unter dem Signifikanzniveau von 0.05, was darauf hinweist, dass die Nullhypothese der Normalverteilung abgelehnt werden muss. Das bedeutet, dass die Verteilungen der beiden Variablen signifikant von einer Normalverteilung abweichen.

 

Kolmogorov-Smirnov-Test in R

Der Kolmogorov-Smirnov-Test (KS-Test) prüft ebenfalls die Nullhypothese, dass die Daten einer bestimmten theoretischen Verteilung, in diesem Fall der Normalverteilung, entsprechen. Dieser Test ist flexibler als der Shapiro-Wilk-Test, da er auf jede theoretische Verteilung angewendet werden kann, und er wird häufig bei grösseren Stichproben eingesetzt.

> ks_test_leistung <- ks.test(Probedatensatz$Schulische_Leistung, "pnorm",
+                             mean(Probedatensatz$Schulische_Leistung),
+                             sd(Probedatensatz$Schulische_Leistung))
Warning message:
In ks. test.default(Probedatensatz$Schulische_Leistung, "pnorm", :
 ties should not be present for the Kolmogorov-Smirnov test
> print(ks_test_leistung)

        Asymptotic one-sample Kolmogorov-Smirnov test
data: Probedatensatz$Schulische_Leistung
D = 0.057359, p-value = 0.0745
alternative hypothesis: two-sided

Das Testergebnis liefert einen p-Wert von p = 0.0745, der über dem Signifikanzniveau von 0.05 liegt. Dies bedeutet, dass die Nullhypothese der Normalverteilung für diese Variable nicht abgelehnt wird. Mit anderen Worten: Der KS-Test deutet darauf hin, dass die Verteilung der schulischen Leistung nicht signifikant von der Normalverteilung abweicht. Allerdings ist zu beachten, dass der Test eine Warnung ausgegeben hat, die darauf hinweist, dass identische Werte (sogenannte Ties) im Datensatz vorhanden sind, was die Ergebnisse verfälschen könnte. Der KS-Test setzt kontinuierliche Daten voraus, und das Vorhandensein von Ties kann seine Aussagekraft beeinträchtigen.

 

Vergleich der Tests

Der Shapiro-Wilk-Test und der Kolmogorov-Smirnov-Test weisen einige Gemeinsamkeiten auf, unterscheiden sich aber auch in wichtigen Punkten:

  • Beide Tests prüfen die Normalverteilung der Daten. Ihre Nullhypothese lautet, dass die Daten der Normalverteilung entsprechen. In beiden Fällen deutet ein p-Wert kleiner als 0.05 darauf hin, dass die Daten nicht normalverteilt sind.
  • Der Shapiro-Wilk-Test ist spezifisch für die Normalverteilung und besonders gut geeignet für kleinere bis mittelgrosse Datensätze. Er liefert verlässlichere Ergebnisse in diesen Fällen und ist nicht empfindlich gegenüber Ties in den Daten.
  • Der Kolmogorov-Smirnov-Test hingegen ist flexibler, da er für verschiedene theoretische Verteilungen angewendet werden kann. Er ist bei grösseren Stichproben nützlich, aber weniger genau bei kleineren Stichproben. Zudem ist der KS-Test anfällig für Ties, wie in dieser Analyse zu sehen war, da die Warnung auf die Anwesenheit identischer Werte hingewiesen hat.

 

Transformationen bei nicht normalverteilten Daten in R

Wie wir bereits gelernt haben, folgen nicht alle Datensätze einer Normalverteilung, was bei vielen statistischen Analysen problematisch sein kann. Wenn die Daten stark von der Normalverteilung abweichen, gibt es verschiedene Transformationstechniken, die dabei helfen können, die Verteilung der Daten anzupassen. Im Folgenden werden die gängigsten Methoden in R erklärt.

 

1. Logarithmische Transformation

Die Log-Transformation ist eine der am häufigsten verwendeten Methoden, um eine schiefe Verteilung symmetrischer zu machen. Sie eignet sich besonders gut für rechts-schiefe Daten, wie sie oft bei Einkommen, Verkäufen oder anderen Grössen mit grossen Ausreissern auftreten. Wichtig: Die Log-Transformation kann nur auf positive Werte angewendet werden. Negative oder Null-Werte würden zu Fehlern führen.

Beispiel in R:

log_schulische_leistung <- log(Probedatensatz$Schulische_Leistung) # Histogramm, um die neue Verteilung zu betrachten hist(log_schulische_leistung,    main = „Histogramm nach Log-Transformation“,    xlab = „Log(Schulische Leistung)“,    col = „lightblue“

 

2. Wurzeltransformation

Ähnlich wie die Logarithmus-Transformation kann auch eine Quadratwurzel-Transformation verwendet werden, um die Verteilung symmetrischer zu gestalten. Diese Methode wird häufig verwendet, wenn die Daten zwar schief, aber nicht stark verzerrt sind. Die Wurzeltransformation ist etwas weniger drastisch als die Log-Transformation und eignet sich gut für leicht schiefe Verteilungen. Auch hier wird durch die Transformation die Streuung der extremen Werte reduziert, sodass die Verteilung eher normalförmig wird.

Beispiel in R:

wurzel_alter <- sqrt(Probedatensatz$Alter)

# Histogramm der veränderten Verteilung
hist(wurzel_alter,
    main = "Histogramm nach Wurzeltransformation",
    xlab = "Wurzel(Alter)",
    col = "lightgreen")

 

3. Z-Transformation (Standardisierung)

Die Z-Transformation wird verwendet, um die Daten in eine Standardnormalverteilung mit einem Mittelwert von 0 und einer Standardabweichung von 1 zu überführen. Dies ist besonders nützlich, wenn Daten unterschiedlicher Grössenordnungen verglichen werden sollen. Diese Methode verändert die Form der Verteilung jedoch nicht, sondern nur deren Skalierung.

Beispiel in R:

z_transform <- scale(Probedatensatz$Alter)

# Histogramm der standardisierten Daten
hist(z_transform,
    main = "Histogramm nach Z-Transformation",
    xlab = "Z-Standardisiertes Alter",
    col = "pink")

 

Wann sind Transformationen sinnvoll?

Transformationen werden immer dann angewendet, wenn die Verteilung der Daten die Normalverteilungsannahmen nicht erfüllt, insbesondere wenn es um parametrische Tests wie den t-Test oder die lineare Regression geht. Es ist jedoch wichtig, zu betonen, dass Transformationen nur dann sinnvoll sind, wenn sie zu einer besseren Annäherung an die Normalverteilung führen und die Daten nicht verfälschen. Wenn Transformationen die Daten nicht in eine annähernde Normalverteilung überführen können, sollte über nicht parametrische Methoden nachgedacht werden, die keine Normalverteilungsannahmen erfordern.

Durch die in R vorgestellten Transformationstechniken kann die Verteilung von Daten deutlich verbessert werden, wodurch die Ergebnisse statistischer Analysen verlässlicher und genauer werden.

Zusammenfassung der wichtigsten Punkte

Datenverteilung:
Die Datenverteilung beschreibt, wie häufig bestimmte Werte in einem Datensatz auftreten. Eine Normalverteilung, auch bekannt als Glockenkurve, spielt eine zentrale Rolle in der Statistik. Die Überprüfung der Datenverteilung ist entscheidend, da viele statistische Analysen auf bestimmten Verteilungsannahmen basieren. Wenn diese Annahmen nicht erfüllt sind, können Analysen verzerrt oder fehlerhaft sein. So kann eine verzerrte Verteilung bei einer linearen Regression zu falschen Vorhersagen führen.

Wann ist eine Normalverteilungsprüfung notwendig:
Eine Überprüfung der Normalverteilung ist erforderlich, bevor parametrische Tests wie der t-Test, die Varianzanalyse (ANOVA) oder die lineare Regression angewendet werden, da diese Tests von normalverteilten Daten ausgehen. Wenn die Daten stark von der Normalverteilung abweichen, bieten sich nicht parametrische Tests wie der Mann-Whitney-U-Test an.

Visualisierung der Verteilung:
Histogramme bieten eine einfache Möglichkeit, die Verteilung von Daten zu visualisieren, indem sie zeigen, wie oft bestimmte Werte auftreten. Boxplots helfen dabei, den Median, die Quartile und mögliche Ausreisser zu identifizieren. Dichteplots zeigen eine glatte Kurve der Wahrscheinlichkeitsdichte und bieten eine detaillierte Übersicht über die Verteilung der Daten.

Umgang mit Ausreissern:
Ausreisser können die Ergebnisse statistischer Analysen verfälschen, weshalb es wichtig ist, sie zu identifizieren. Boxplots sind hilfreiche visuelle Werkzeuge, um Ausreisser zu erkennen. Je nach Analysekontext sollten Ausreisser entweder gesondert behandelt oder entfernt werden, insbesondere wenn sie die Analyse signifikant beeinflussen.

Statistische Tests zur Verteilungsprüfung:
Der Shapiro-Wilk-Test überprüft, ob die Daten einer Normalverteilung folgen, und eignet sich besonders für kleinere bis mittelgrosse Datensätze. Der Kolmogorov-Smirnov-Test (KS-Test) vergleicht die empirische Verteilung der Daten mit einer theoretischen Verteilung wie der Normalverteilung und wird oft für grössere Stichproben verwendet. Der KS-Test kann jedoch durch identische Werte (Ties) beeinträchtigt werden.

Transformationen bei nicht normalverteilten Daten:
Die logarithmische Transformation ist eine gängige Methode, um schiefe Daten symmetrischer zu machen, insbesondere bei rechts-schiefer Verteilung. Die Wurzeltransformation hat einen ähnlichen Effekt, ist jedoch weniger stark als die Logarithmus-Transformation. Die Z-Transformation (Standardisierung) dient dazu, Daten in eine Standardnormalverteilung zu überführen, wobei Mittelwert und Standardabweichung angepasst werden, ohne die Form der Verteilung zu verändern.

Weiterführende Literatur

Groeneveld, R. A., & Meeden, G. (1984). Measuring skewness and kurtosis. Journal of the Royal Statistical Society Series D: The Statistician, 33(4), 391–399.

Mishra, P., Pandey, C. M., Singh, U., Gupta, A., Sahu, C., & Keshri, A. (2019). Descriptive statistics and normality tests for statistical data. Annals of Cardiac Anaesthesia, 22(1), 67–72.

Razali, N. M., & Wah, Y. B. (2011). Power comparisons of shapiro-wilk, kolmogorov-smirnov, lilliefors and anderson-darling tests. Journal of Statistical Modeling and Analytics, 2(1), 21–33.

Storrer, H. H. (1995). Die Normalverteilung. In Einführung in die mathematische Behandlung der Naturwissenschaften II (S. 179–194). Basel: Birkhäuser Basel.

Yazici, B., & Yolacan, S. (2007). A comparison of various tests of normality. Journal of statistical computation and simulation, 77(2), 175–183.