Kapitel 19 Logistische Regression

Die binäre logistische Regression ist vom Modell her ähnlich wie eine lineare Regression. Der wichtigste Unterschied ist, dass unsere abhängige Variable dichotom (binär) ist.

19.1 Odds und Log(Odds)

  • Wahrscheinlichkeit (p) ist die Gegenüberstellung eines möglichen Resultates X gegenüber allen möglichen Resultaten.
    • p = X/(X + nX)
  • Odds stellen die Ratio von Resultat X und nicht Resultat X (nX) dar
    • odds = X/nX
  • Odds haben aber ein Problem der Asymmetrie: e.g. 1/6 und 6/1 betrachten das selbe Phänomen aus der anderern Perspektive, scheinen aber ganz unterschiedliche Zahlen zu sein. Log(Odds) behebt dieses Problem: log(1/6) = -1.79, log(6/1) = +1.79. Beide Zahlen sind gleich weit weg von 0 (=Symmetrie!).

19.2 Beispiel

19.2.1 Daten

Für das Beispiel laden wir die Daten “regression1.csv” und dichotomisieren die Variable y (und setzen sie auch gleichzeitig als Faktor).

## 
##   0   1 
## 100 100

19.2.2 Einfache binäre logistische Regression: y.bi ~ sex

## 
## Call:
## glm(formula = y.bi ~ sex, family = "binomial", data = df)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -1.2013  -1.2013   0.0018   1.1537   1.2049  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)
## (Intercept)  -0.0645     0.2075   -0.31     0.76
## sex1          0.1206     0.2837    0.43     0.67
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 277.26  on 199  degrees of freedom
## Residual deviance: 277.08  on 198  degrees of freedom
## AIC: 281.1
## 
## Number of Fisher Scoring iterations: 3
  • deviance gibt Auskunft über den “Fit”

19.2.3 Binäre logistische Regression: y.bi ~ x1 + x2 + sex

## 
## Call:
## glm(formula = y.bi ~ x1 + x2 + sex, family = "binomial", data = df)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -1.4824  -1.1555   0.0246   1.1586   1.4651  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)
## (Intercept)  -0.0713     0.2097   -0.34     0.73
## x1            0.2377     0.1474    1.61     0.11
## x2            0.1628     0.1490    1.09     0.27
## sex1          0.1234     0.2866    0.43     0.67
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 277.26  on 199  degrees of freedom
## Residual deviance: 273.23  on 196  degrees of freedom
## AIC: 281.2
## 
## Number of Fisher Scoring iterations: 4

Interpretation log odds: - Logra - Wahrscheinlichkeit p = 80% -> Odds Ratio p/(1-p) = 80%/20% = 4 -> Log Odds Ln(4) = 1.39 (50% = 0)

  • AIC: Vergleiche verschiedener Modelle
  • Fisher Scoring: Wie schnell war die Lösung da?

Effect Size: McFadden’s Pseudo R2

## [1] 0.015
## [1] 1

19.2.4 Visualisierung

Atteslander, Peter. 2003. Methoden der empirischen Sozialforschung. Berlin: De Gruyter.

Langenscheidt. 2017. “Langenscheidt Fremdwörterbuch Online.”

Manderscheid, Katharina. 2012. Sozialwissenschaftliche Datenanalyse mit R: Eine Einführung. 1st ed. Wiesbaden: VS Verlag für Sozialwissenschaften.