Kapitel 15 Nominaler Zusammenhang
15.1 Vorbereitung
15.2 Problemstellung
Wir möchten eine Hypothese testen, die einen Zusammenhang zwischen zwei nominalen Variablen erwartet.
15.3 Anknüpfungspunkte
- Skalenniveaus
- Hypothesentest
15.4 Allgemeines
- gemeinsame Verteilung mehrerer Variablen wird angegeben
- Zusammenhänge nominalskalierter Variablen werden dargestellt
- Logik der nominalen Zusammenhangsmaßen: eine Assoziation dann vor, wenn die konditionalen Verteilungen der abhängigen Variablen (=Spaltenhäufigkeitsverteilungen) sich voneinander unterscheiden
- Kontingenztabelle darstellen
- Indifferenztabelle darstellen: wie würde die Tabelle aussehen, wenn keine Assoziation bestünde
- Differenzen feststellen
15.5 \(\chi^2\)-basierte Zusammenhangsmaße
Der \(\chi^2\)-Test ist ein Signifikanztest für nominalskalierte Merkmale.
- Cramer’s V: liegt immer zwischen 0 und 1, aber Cramers V ist immer positiv und gibt keine Richtung des Zusammenhangs an; Interpretation: 0,1 - 0,3 schwacher Zusammenhang, 0,4 - 0,5 mittlerer Zusammenhang, > 0,5 starker Zusammenhang
- Phi-Koeffizient: ist nicht Stichprobengrößen-abhängig, hat ein Vorzeichen und gibt Richtung des Zusammenhangs an, bei 0= kein Zusammenhang, in Spezialfällen kann Phi auch größer als 1 werden (unerwünscht!) - sollte nur für 2X2 Tabellen berechnet werden.
- Pearson’s Kontingenzkoeffizient C: Praktisch immer kleiner als 1, wiewohl mit wachsender Anzahl der Spalten und Zeilen Annäherung an 1, gibt keine Richtung des Zusammenhangs an
15.6 Voraussetzungen
- n > 50: Die Stichprobe sollte grösser als 50 sein. Achtung: Will man Chi-Quadrat für einen Assoziationskoeffizienten nutzen, dann ist zu beachten, dass Chi-Quadrat mit n zusammenhängt. Verdoppelt man z.B. alle Zellhäufigkeiten (und damit auch n), dann verdoppelt sich auch der Wert von Chi-Quadrat! Man muss also für n korrigieren.
- Die erwarteten Häufigkeiten sollten in jeder Zelle grösser als 5 sein
15.7 Beispiel Kreuztabelle und Cramer’s V (crosstable1.csv)
Erstellung der Kreuztabelle:
## Loading required package: gmodels
## Warning: package 'gmodels' was built under R version 4.0.3
##
##
## Cell Contents
## |-------------------------|
## | N |
## | Chi-square contribution |
## | N / Row Total |
## | N / Col Total |
## | N / Table Total |
## |-------------------------|
##
##
## Total Observations in Table: 200
##
##
## | df$sex
## df$org | 0 | 1 | Row Total |
## -------------|-----------|-----------|-----------|
## 0 | 28 | 26 | 54 |
## | 0.046 | 0.054 | |
## | 0.519 | 0.481 | 0.270 |
## | 0.259 | 0.283 | |
## | 0.140 | 0.130 | |
## -------------|-----------|-----------|-----------|
## 1 | 34 | 17 | 51 |
## | 1.515 | 1.779 | |
## | 0.667 | 0.333 | 0.255 |
## | 0.315 | 0.185 | |
## | 0.170 | 0.085 | |
## -------------|-----------|-----------|-----------|
## 2 | 18 | 21 | 39 |
## | 0.445 | 0.522 | |
## | 0.462 | 0.538 | 0.195 |
## | 0.167 | 0.228 | |
## | 0.090 | 0.105 | |
## -------------|-----------|-----------|-----------|
## 3 | 28 | 28 | 56 |
## | 0.166 | 0.195 | |
## | 0.500 | 0.500 | 0.280 |
## | 0.259 | 0.304 | |
## | 0.140 | 0.140 | |
## -------------|-----------|-----------|-----------|
## Column Total | 108 | 92 | 200 |
## | 0.540 | 0.460 | |
## -------------|-----------|-----------|-----------|
##
##
Berechnung Cramer’s V:
## [1] 0.15
\[ V = \sqrt{\frac{\chi^2/n}{min(k-1, r-1)}} \]