Deskriptive Statistik mit RStudio

Lesen Sie, wie Sie mithilfe von RStudio deskriptive Statistiken und Häufigkeitsverteilungen über verschiedene Wege berechnen und grafisch darstellen können.

Sebastian | 29.04.2023 | Lesedauer 5 min

In einem anderen Artikel haben wir uns bereits mit der Darstellung von Datenverteilungen durch die Anwendung deskriptiver Statistikmethoden befasst. Im vorliegenden Artikel geht es nun um die praktische Umsetzung mit dem Statistikprogramm R bzw. mit der Programmoberfläche RStudio.

Bevor wir uns eine bestimmte Variable genauer anschauen, sollten wir ihre Beschaffenheit kennen. Nicht alle statistischen Kennwerte sind für jedes Skalenniveau einer Variable geeignet. Lassen Sie uns zuerst den Umgang mit einer metrisch skalierten Variable betrachten. Ein Beispiel für eine solche Variable ist die Körpergrösse einer Stichprobe, gemessen in Zentimetern.

In unserem exemplarischen Datensatz, der in R importiert wurde, wurden zuvor die Körpergrössen von 20 Personen ermittelt. Im Programm wird die Variable kurz als „grösse“ bezeichnet. Der Datensatz wird nun im Bereich oben links angezeigt. In diesem Bereich können wir im weiteren Verlauf auch zu unserem Skript wechseln, das wir im Folgenden erstellen. In der Umgebung oben rechts werden bestehende Objekte angezeigt, in diesem Fall zunächst lediglich das Objekt „datensatz“. Unten links befindet sich die (hier minimierte) Konsole, die den im Skript eingegebenen Code ausführt und die Ergebnisse der Berechnungen anzeigt. Unten rechts finden wir einen weiteren Bereich, der u. a. Hilfefunktionen und mögliche Erweiterungen (Packages) auflistet.

Deskriptive Statistik mit RStudio

 

Deskriptive Statistiken

Eine metrisch skalierte Variable kann durch unterschiedliche Lagemasse charakterisiert werden, wie zum Beispiel das arithmetische Mittel, den Median und den Modus. Um die Datenverteilung der Variable umfassend zu beschreiben, sind Streumasse wie die Spannweite, Standardabweichung und Varianz ebenfalls relevant.

Zur Eingabe von Befehlen öffnen wir zunächst ein neues Skript, das unsere Arbeitsschritte protokolliert und nachvollziehbar macht. Hierfür klicken wir auf die kleine Schaltfläche mit dem „+“-Symbol oben links und wählen „R Skript“ aus. Alternativ kann dies mit der Tastenkombination Strg+Shift+N erstellt werden. Anschliessend öffnet sich neben dem Datensatz ein weiterer Reiter, in den der Code eingetragen werden kann.

Deskriptive Statistik mit RStudio

Deskriptive Statistik mit RStudio

Eine einfache Möglichkeit zur Ausgabe deskriptiver Statistiken besteht mit der Funktion „summary()“. In der Klammer wird definiert, für welche Werte die Statistiken ausgegeben werden sollen. In unserem Fall soll der ganze Datensatz zusammengefasst werden, sodass der Befehl konkret „summary(datensatz)“ lautet. Anschliessend markieren wir die Eingabe und klicken im Bereich oben rechts auf „Run“, sodass RStudio nun den Befehl ausführt. Die Funktion gibt Minimum, 1. Quartil, Median, Mittelwert, 3. Quartil und Maximum aus.

summary(datensatz)

Deskriptive Statistik mit RStudio

Nach Auflistung der statistischen Kennzahlen aus der „summary()“-Funktion wird deutlich, dass uns noch keine Streumasse ausgegeben wurden. Eine Stärke von R liegt in der grossen Programmbibliothek, die es ermöglicht, die Funktionen zu erweitern. Ein Beispiel für ein solches Paket ist „prettyR“, das wir über die Eingabe der Funktionen install.packages(„prettyR“) und „library(prettyR)“ in das Skript herunterladen und installieren können. Alternativ können wir das Paket auch per Klick installieren, indem wir in dem Programmbereich unten rechts auf den Reiter „Packages“ klicken, „prettyR“ ins Suchfeld eingeben und mit einem Klick auf die Checkbox installieren.

install.packages("prettyR")
library(prettyR)

Deskriptive Statistik mit RStudio

Anschliessend steht die Funktion „describe()“ zur Verfügung, die wir analog zur Funktion „summary()“ in das Skript eingeben und mit „describe(datensatz)“ konkretisieren. Nach Markierung des Befehls und einem Klick auf „Run“ wird nun die folgende Ausgabe produziert, die neben Mittelwert und Median nun auch Varianz, Standardabweichung und gültige Fälle für die im Datensatz enthaltenen Variablen enthält.

describe(datensatz)

In einem grösseren Datensatz möchte man selten deskriptive Statistiken aller enthaltenen Variablen ausgeben. Der Befehl kann entsprechend auf einzelne Variablen zugeschnitten werden. Für die Variable „grösse“ würden wir beispielsweise das Argument in Klammern ergänzen und damit ausschliesslich die deskriptiven Statistiken dieser Variable erhalten. Der Befehl lautete dann „summary(datensatz$grösse)“ bzw. „describe(datensatz$grösse)“.

summary(datensatz$grösse)
describe(datensatz$grösse)

 

Häufigkeitstabellen

Wie eingangs erwähnt, sind nicht alle Skalenniveaus für die Berechnung von Lage- und Streumassen geeignet. Bei Variablen, die den höchsten Bildungsabschluss (Ordinalskala) oder das Geschlecht (Nominalskala) der Stichprobenelemente erfassen, sind solche Kennzahlen nicht sinnvoll anwendbar. Um diese Daten zu beschreiben, empfiehlt sich die Verwendung von Häufigkeitstabellen. Lediglich der Modalwert kann ermittelt werden, der den am häufigsten vorkommenden Wert repräsentiert.

Da sich Häufigkeitstabellen aber auch für metrisch skalierte Variablen eignen, können wir zur Demonstration wieder auf den bereits verwendeten Datensatz zurückgreifen. Liegt eine Ordinal- oder Nominalskala vor, kann das Vorgehen auch auf diese angewendet werden. Auch zur Erstellung von Häufigkeitstabellen greifen wir auf eine Funktion des Pakets „prettyR“ zurück, das zuvor installiert wurde (s. o.).

Anders als im vorangegangenen Abschnitt nutzt man für die Ausgabe von Häufigkeitstabellen nun die Funktion „freq()“, sodass im vorliegenden Fall „freq(datensatz)“ in das Skript eingegeben wird. Nach der Ausführung des Befehls mit einem Klick auf „Run“ wird die folgende Ausgabe produziert. Dabei werden die Ausprägungen der jeweiligen Variablen in der ersten Zeile angegeben. Darunter findet sich die absolute Anzahl der Personen, die der jeweiligen Ausprägung zuzuordnen sind. Zudem werden die prozentualen Häufigkeiten und der Prozentwert fehlender Fälle angezeigt. Auch dieser Befehl kann auf lediglich eine Variable angewendet werden, z. B. mithilfe von „freq(datensatz$grösse)“ auf die Variable „grösse“.

freq(datensatz)
freq(datensatz$grösse)

Deskriptive Statistik mit RStudio

 

Grafische Darstellung deskriptiver Statistiken mittels Boxplot

Deskriptive Statistiken von untersuchten Variablen werden oft in Tabellenform präsentiert. Eine weitere Darstellungsmöglichkeit ist die grafische Aufbereitung mithilfe eines Boxplots. Ein Boxplot oder Kastengrafik zeigt die wesentlichen Kennzahlen übersichtlich, wie im grundlegenden Artikel zur deskriptiven Statistik erklärt.

In R gibt es verschiedene Möglichkeiten zur Erstellung eines Boxplots. Mit der Funktion „boxplot()“ kann ein solcher ohne Zugriff auf Pakete erstellt werden. In Klammern muss lediglich die interessierende Variable definiert werden, die hier mit „grösse“ vorliegt. Der Befehl lautet entsprechend „boxplot(datensatz$grösse)“. Nach Markierung des Befehls und Auswahl der Schaltfläche „Run“ wird der Boxplot im Programmbereich unten rechts dargestellt und kann über „Export“ in verschiedenen Dateiformaten gespeichert werden.

boxplot(datensatz$grösse)

Deskriptive Statistik mit RStudio

Der Boxplot ist auf diese Weise allerdings noch nicht beschriftet. Das in Klammern stehende Argument kann daher noch durch Optionen ergänzt werden. In diesem Fall soll die Y-Achse mit „Körpergrösse in cm“ und der Titel mit „Körpergrösse der Probanden“ beschriftet werden. Der zugehörige Befehl lautet entsprechend „boxplot(datensatz$grösse, ylab=“Körpergrösse in cm“, main=“Körpergrösse der Probanden“)“.

boxplot(datensatz$grösse, ylab="Körpergrösse in cm", main="Körpergrösse der Probanden")

Deskriptive Statistik mit RStudio

Informationen zur Erstellung von Säulen- bzw. Balkendiagrammen in R finden sich darüber hinaus in unserem Artikel zur bivariaten Statistik.

 

Weiterführende Literatur:
Fahrmeir, L., Heumann, C., Künstler, R., Pigeot, I. & Tutz, G. (2016). Einführung in R. Berlin, Heidelberg: Springer.
Hedderich, J., Sachs, L. (2020). Angewandte Statistik. Berlin, Heidelberg: Springer.