Kapitel 18 Lineare Regression (OLS)

18.1 Problemstellung

18.2 Anknüpfungspunkte

  • Korrelation
  • Varianzanalyse (ANOVA)

18.3 Allgemeines

  • verschiedene Fragestellungen möglich
    • Ursachenanalyse: Wie stark ist der Einfluss der unabhängigen Variable auf die abhängige Variable?
    • Wirkungsprognosen: Wie verändert sich die abhängige Variable bei einer Änderung der unabhängigen Variablen?
    • Zeitreihenanalysen: Wie verändert sich die abhängige Variable im Zeitablauf und somit ceteris paribus auch in der Zukunft?
  • Logik der linearen Regression
    • die beobachteten Werte sollen auf eine Gerade verdichtet werden
    • die Differenzen zwischen der Gerade und den beobachteten Werten soll minimiert werden: Summe der Quadrate der Fehler (e) wird minimiert
  • bivariat und multivariat möglich

Frage: Wieso werden die Quadrate der Fehler (e) minimiert?

\[ y = b_{0} + b_{1}*x_{1} + e \]

\[ y = b_{0} + b_{1}*x_{1} + b_{2}*x_{2} + b_{n}*x_{n} + e \]

Interpretation:

  • \(y\): Vorhersagewert
  • \(b_{0}\): Konstante, Interzept, Schnittpukt der Geraden wenn Prädiktor(en) = 0
  • \(b_{1}\)-\(b_{n}\): Richtung und Stärke des Effekts des Prädiktors 1 bis n: b ist so zu interpretieren, dass sich die Vorhersagewerte des Regressionsmodells für y genau um b Einheiten erhöhen, wenn sich die unabhängige Variable x um eine Einheit erhöht.
  • \(x_{1}\)-\(x_{n}\): Werte der Prädiktoren
  • \(e\): Fehler/Residuen (error); nicht erklärte Varianz

18.4 Güte der Regressionsfunktion

  • F-Wert
    • Als Maß dafür, wie eng die Regressionsgerade an den Punkten der Punktewolke liegt - oder wie gut das Modell an die Daten angepasst ist - wird das Verhältnis zwischen dem erklärten Teil der Streuung und der gesamten Streuung betrachtet (siehe ANOVA).
    • H0: alle Regressionskoeffizienten des Modells in der Grundgesamtheit = 0
  • \(R^2\): Das Verhältnis zwischen der Quadratsumme der erklärten Streuung und der Quadratsumme der Gesamtstreuung. Interpretation: Wenn X bekannt ist, kann die Vorhersage von Y um R-Quadrat % - gegenüber einer Vorhersage, die nur auf dem Mittelwert der Zufriedenheit basiert - verbessert werden. Das korrigierte R-Quadrat ist zu verwenden , wenn das Regressionsmodell mehr als eine unabhängige Variable hat.

18.5 Standardisierung

  • b-Werte nicht gut vergleichbar: Die b-Werte hängen von der Skala ab, mit denen die involvierten Variablen gemessen wurden. Daher können sie untereinander nicht so leicht verglichen werden.
  • Standardisierte Werte (\(\beta\))
    • Vergleichbarkeit gegeben
    • Konstante ist inhaltsleer

\[ y = \beta_{0} + \beta_{1}*x_{1} + e \]

\[ y = \beta_{0} + \beta_{1}*x_{1} + \beta_{2}*x_{2} + \beta_{n}*x_{n} + e \]

18.5.1 Stärke der Effekte (nach Cohen)

  • 0.1 schwacher Effekt
  • 0.3 mittlerer Effekt
  • 0.5 starker Effekt

18.6 Voraussetzungen

  • intervallskalierte Daten (bzw. Dummy Variablen)
  • Zufallsstichprobe
    • Diagnose: Wissen über Datensatz erforderlich.
  • linearer Zusammenhang zwischen UV und AV
    • Diagnose: Lineare Zusammenhänge in den partiellen Regressionsdiagrammen sichtbar?
    • Lösung: Modell ändern, Transformieren
  • Normalverteilung der Residuen (=Fehler)
    • Diagnose: Histogramm der standardisierten Residuen beachten.
  • Varianzengleichheit der Residuen (Homoskedastizität)
    • Diagnose: Streudiagramm ZRESID/ZPRED. Statistische Tests in SPSS/PSPP nicht verfügbar.
  • Unabhängigkeit der Residuen
    • Diagnose: Durbin-Watson Statistik beachten. Gut = 2
  • keine Multikollinearität
    • Diagnose: VIF (unter 5) und Toleranz-Werte (über 0.10) beachten.
    • Lösung: Eine Variable weglassen.
  • lineare Regressionskoeffizienten: in SPSS/PSPP ist das gar nicht anders möglich.

18.7 Dummy-Kodierung

  • Nominale Merkmale können in die Regression aufgenommen werden, dazu müssen sie aber umkodiert werden
  • Dummy-Kodierung: 1. Merkmal vorhanden, 0. Merkmal nicht vorhanden

18.8 Beispiel (regression1.csv)

## 
## Call:
## lm(formula = scale(y) ~ scale(x1) + scale(x2) + sex)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.2254 -0.7024  0.0388  0.6182  2.4186 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept) -0.00379    0.10215   -0.04    0.970  
## scale(x1)    0.17772    0.06983    2.55    0.012 *
## scale(x2)    0.11343    0.06984    1.62    0.106  
## sex          0.00709    0.13968    0.05    0.960  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.98 on 196 degrees of freedom
## Multiple R-squared:  0.0446, Adjusted R-squared:  0.0299 
## F-statistic: 3.05 on 3 and 196 DF,  p-value: 0.0299

Interpretation: Insgesamt erklären die unabhängigen Variablen x1, x2 und sex (dummy) 2.99% der Varianz in der abhängigen Variable y. Die standardisierten Regressionskoeffizienten sind \(\beta_{x1}\) = 0.18 (p = 0.01), \(\beta_{x2}\) = 0.11 (p = 0.11) und \(\beta_{sex}\) = 0.01 (p = 0.96).

18.9 Weiterführende Analysemöglichkeiten

Multiple Regressionsanalyse ´r LINK(“https://www.youtube.com/watch?v=mWDMvX00_m0&t=57m30s”)`