Dieser Beitrag widmet sich der linearen Regressionsanalyse in SPSS. Das lineare Regressionsmodell stellt neben weiteren denkbaren Regressionsanalysen (bspw. binär-logistische Regression) nur eine statistische Methode dar. Zunächst kann ausserdem zwischen einer linearen Einfachregression und einer multiplen linearen Regression unterschieden werden. Im Falle der linearen Einfachregression fliessen nur zwei Variablen in das Modell ein: eine unabhängige (oder erklärende) sowie eine abhängige (oder erklärte) Variable. Dagegen erklärt man die abhängige Variable in einem multiplen linearen Regressionsmodell durch zwei oder mehr unabhängige Variablen.
Die Funktionsweise linearer Regressionsmodelle ist leicht zugänglich. Stellt man sich ein Streu- bzw. Punktdiagramm vor, versucht man mit einem solchen Modell die Werte auf der Y-Achse (abhängige Variable) durch eine oder mehrere Variable(n) auf der X-Achse zu erklären. Dabei wird eine lineare Regressionslinie, die den tatsächlichen Werten möglichst nahekommt, durch die Datenpunkte des Diagramms gezogen. Im Modell geht man daher von einem linearen Zusammenhang aus, der natürlich nur eine möglichst exakte Annäherung an die Realität ist.
Praktisch wird dies anhand des Diagramms deutlicher. Wir versuchen naheliegenderweise, das Körpergewicht von Personen in unserem Datensatz durch ihre Körpergrösse zu erklären. Zu erkennen ist, dass eine höhere Körpergrösse durchschnittlich mit höheren Gewichtswerten einhergeht. Diesem durchschnittlichen Zusammenhang nähert man sich mithilfe der abgebildeten Regressionslinie an. Aus der positiven Steigung der Linie können wir ableiten, dass zwischen den Variablen ein positiver Zusammenhang besteht („je mehr, desto mehr“).
Einzelne untersuchte Personen, die trotz geringer Körpergrösse hohe Gewichtswerte oder trotz hoher Körpergrösse geringe Gewichtswerte vorweisen, verdeutlichen den näherungsweisen Modellcharakter der Regression. Die Abstände zwischen Regressionslinie und Datenpunkten (Residuen) wurden jedoch minimiert.
Im Folgenden wird ein Anwendungsfall der linearen Regressionsanalyse konkreter vorgestellt. Dabei werden einige Voraussetzungen hervorgehoben, die für die Anwendung eines linearen Regressionsmodells erfüllt sein sollten. Anschliessend werden die Berechnungsschritte in SPSS dargestellt.
Grundsätzlich bestehen bei SPSS zwei Alternativen, die gewünschten Berechnungen in das Programm einzugeben: via Menüleiste oder über einen Befehlscode, die sogenannte Syntax. Auf eine Eingabe mittels Menü geht der Beitrag ebenso ein wie auf die Eingabe via SPSS-Syntax.
Ist man im Umgang mit dem Programm fortgeschrittener, so lassen sich Arbeitsschritte über diese Syntax effizienter abarbeiten als über manuelle Menüeingaben. Auch bei Seminar- und Abschlussarbeiten wird häufig gefordert, der Arbeit die verwendete Syntax anzuhängen. Sie dient gleichzeitig als von aussen nachvollziehbares Protokoll der Arbeitsschritte.
Vor der eigentlichen Regressionsanalyse sollten zunächst die wichtigsten Voraussetzungen für ihre Anwendung geprüft werden, die hier nur am Rande thematisiert werden. Zu diesen Voraussetzungen zählen:
- Linearität des Zusammenhangs zwischen unabhängiger und abhängiger Variable,
- Homoskedastizität, d. h. gleiche Varianz der Residuen,
- annähernde Normalverteilung der Residuen,
- keine Multikollinearität, d. h. kein statistischer Zusammenhang zwischen den unabhängigen Variablen (bei der multiplen linearen Regressionsanalyse),
- möglichst keine Datenausreisser, die das Modell verzerren könnten.
Lineare Regression in SPSS
Wie bereits skizziert, wollen wir das Gewicht von 40 Personen durch ihre Körpergröße erklären. Der entsprechende Datensatz wird in SPSS geladen.
Über das SPSS-Menü gelangt man zur linearen Regression, indem „Analysieren“, „Regression“ und anschliessend „Linear“ ausgewählt wird.
Das obere, rechte Feld ist zur Festlegung der abhängigen Variable bestimmt. Entsprechend wird aus der Gesamtliste der Variablen auf der linken Seite die relevante Variable markiert und in das genannte Feld verschoben.
Das Feld darunter dient der Festlegung der unabhängigen Variable. Auch hier werden die erklärenden Variablen wieder auf der linken Liste in die entsprechende Box verschoben. Die Differenzierung zwischen linearer Einfachregression und multipler linearer Regression spielt für Menüführung und Syntax in SPSS keine Rolle, da sich die beiden Varianten lediglich hinsichtlich der Anzahl der hinzugefügten unabhängigen Variablen unterscheiden. Die grundlegenden Spezifikationen für ein lineares Regressionsmodell sind damit bereits vorgenommen.
Als „Methode“ ist die Option „Einschluss“ voreingestellt. Mit der Methode wird festgelegt, auf welche Weise unabhängige Variablen in die Regression eingeschlossen werden. Je nach Einstellung resultiert eine unterschiedliche Anzahl an Regressionsmodellen. Die Voreinstellung hat zur Folge, dass nur ein Modell berechnet wird und alle unabhängigen Variablen gleichzeitig berücksichtigt werden. Alternativen liegen bspw. in einem schrittweisen Einschluss oder Ausschluss der unabhängigen Variablen.
Optional können in den unteren Feldern des Dialogfeldes weitere Einstellungen vorgenommen werden. So besteht über das Feld „Auswahlvariable“ die Möglichkeit, nur bestimmte Fälle in die Regression einfliessen zu lassen, bspw. wenn man nur männliche Personen oder solche aus einer bestimmten Region betrachten will. Darüber hinaus können Fälle beschriftet und eine Gewichtungsvariable aktiviert werden.
Über die Schaltfläche „Statistiken“ kann man genauere Modifikationen an der Ausgabe vornehmen. So sind die jeweiligen Kästchen zu aktivieren, sofern neben den Schätzern z. B. auch Konfidenzintervalle dargestellt werden sollen. Auch deskriptive Statistiken oder eine Kollinearitätsdiagnose als regressionsdiagnostisches Verfahren können mit ausgegeben werden.