Kapitel 18 Lineare Regression (OLS)
18.1 Problemstellung
18.2 Anknüpfungspunkte
- Korrelation
- Varianzanalyse (ANOVA)
18.3 Allgemeines
- verschiedene Fragestellungen möglich
- Ursachenanalyse: Wie stark ist der Einfluss der unabhängigen Variable auf die abhängige Variable?
- Wirkungsprognosen: Wie verändert sich die abhängige Variable bei einer Änderung der unabhängigen Variablen?
- Zeitreihenanalysen: Wie verändert sich die abhängige Variable im Zeitablauf und somit ceteris paribus auch in der Zukunft?
- Logik der linearen Regression
- die beobachteten Werte sollen auf eine Gerade verdichtet werden
- die Differenzen zwischen der Gerade und den beobachteten Werten soll minimiert werden: Summe der Quadrate der Fehler (e) wird minimiert
- bivariat und multivariat möglich
Frage: Wieso werden die Quadrate der Fehler (e) minimiert?
\[ y = b_{0} + b_{1}*x_{1} + e \]
\[ y = b_{0} + b_{1}*x_{1} + b_{2}*x_{2} + b_{n}*x_{n} + e \]
Interpretation:
- \(y\): Vorhersagewert
- \(b_{0}\): Konstante, Interzept, Schnittpukt der Geraden wenn Prädiktor(en) = 0
- \(b_{1}\)-\(b_{n}\): Richtung und Stärke des Effekts des Prädiktors 1 bis n: b ist so zu interpretieren, dass sich die Vorhersagewerte des Regressionsmodells für y genau um b Einheiten erhöhen, wenn sich die unabhängige Variable x um eine Einheit erhöht.
- \(x_{1}\)-\(x_{n}\): Werte der Prädiktoren
- \(e\): Fehler/Residuen (error); nicht erklärte Varianz
18.4 Güte der Regressionsfunktion
- F-Wert
- Als Maß dafür, wie eng die Regressionsgerade an den Punkten der Punktewolke liegt - oder wie gut das Modell an die Daten angepasst ist - wird das Verhältnis zwischen dem erklärten Teil der Streuung und der gesamten Streuung betrachtet (siehe ANOVA).
- H0: alle Regressionskoeffizienten des Modells in der Grundgesamtheit = 0
- \(R^2\): Das Verhältnis zwischen der Quadratsumme der erklärten Streuung und der Quadratsumme der Gesamtstreuung. Interpretation: Wenn X bekannt ist, kann die Vorhersage von Y um R-Quadrat % - gegenüber einer Vorhersage, die nur auf dem Mittelwert der Zufriedenheit basiert - verbessert werden. Das korrigierte R-Quadrat ist zu verwenden , wenn das Regressionsmodell mehr als eine unabhängige Variable hat.
18.5 Standardisierung
- b-Werte nicht gut vergleichbar: Die b-Werte hängen von der Skala ab, mit denen die involvierten Variablen gemessen wurden. Daher können sie untereinander nicht so leicht verglichen werden.
- Standardisierte Werte (\(\beta\))
- Vergleichbarkeit gegeben
- Konstante ist inhaltsleer
\[ y = \beta_{0} + \beta_{1}*x_{1} + e \]
\[ y = \beta_{0} + \beta_{1}*x_{1} + \beta_{2}*x_{2} + \beta_{n}*x_{n} + e \]
18.5.1 Stärke der Effekte (nach Cohen)
- 0.1 schwacher Effekt
- 0.3 mittlerer Effekt
- 0.5 starker Effekt
18.6 Voraussetzungen
- intervallskalierte Daten (bzw. Dummy Variablen)
- Zufallsstichprobe
- Diagnose: Wissen über Datensatz erforderlich.
- linearer Zusammenhang zwischen UV und AV
- Diagnose: Lineare Zusammenhänge in den partiellen Regressionsdiagrammen sichtbar?
- Lösung: Modell ändern, Transformieren
- Normalverteilung der Residuen (=Fehler)
- Diagnose: Histogramm der standardisierten Residuen beachten.
- Varianzengleichheit der Residuen (Homoskedastizität)
- Diagnose: Streudiagramm ZRESID/ZPRED. Statistische Tests in SPSS/PSPP nicht verfügbar.
- Unabhängigkeit der Residuen
- Diagnose: Durbin-Watson Statistik beachten. Gut = 2
- keine Multikollinearität
- Diagnose: VIF (unter 5) und Toleranz-Werte (über 0.10) beachten.
- Lösung: Eine Variable weglassen.
- lineare Regressionskoeffizienten: in SPSS/PSPP ist das gar nicht anders möglich.
18.7 Dummy-Kodierung
- Nominale Merkmale können in die Regression aufgenommen werden, dazu müssen sie aber umkodiert werden
- Dummy-Kodierung: 1. Merkmal vorhanden, 0. Merkmal nicht vorhanden
18.8 Beispiel (regression1.csv)
##
## Call:
## lm(formula = scale(y) ~ scale(x1) + scale(x2) + sex)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.2254 -0.7024 0.0388 0.6182 2.4186
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.00379 0.10215 -0.04 0.970
## scale(x1) 0.17772 0.06983 2.55 0.012 *
## scale(x2) 0.11343 0.06984 1.62 0.106
## sex 0.00709 0.13968 0.05 0.960
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.98 on 196 degrees of freedom
## Multiple R-squared: 0.0446, Adjusted R-squared: 0.0299
## F-statistic: 3.05 on 3 and 196 DF, p-value: 0.0299
Interpretation: Insgesamt erklären die unabhängigen Variablen x1, x2 und sex (dummy) 2.99% der Varianz in der abhängigen Variable y. Die standardisierten Regressionskoeffizienten sind \(\beta_{x1}\) = 0.18 (p = 0.01), \(\beta_{x2}\) = 0.11 (p = 0.11) und \(\beta_{sex}\) = 0.01 (p = 0.96).
18.9 Weiterführende Analysemöglichkeiten
Multiple Regressionsanalyse ´r LINK(“https://www.youtube.com/watch?v=mWDMvX00_m0&t=57m30s”)`