Wenn Annahmen von ANCOVA irrelevant sind
Hin und wieder arbeite ich mit einem Kunden zusammen, der zwischen einem bestimmten statistischen Stein und einem harten Ort steckt.
Es passiert, wenn sie versuchen, eine Analyse des Kovarianzmodells (ANCOVA) durchzuführen, weil sie eine kategoriale unabhängige Variable und eine kontinuierliche Kovariate haben.
Das Problem tritt auf, wenn ein Koautor, Ausschussmitglied oder Gutachter darauf besteht, dass ANCOVA in dieser Situation unangemessen ist, weil eine der folgenden ANCOVA-Annahmen nicht erfüllt ist:
1. Die unabhängige Variable und die Kovariate sind unabhängig voneinander.
2. Es gibt keine Wechselwirkung zwischen der unabhängigen Variablen und der Kovariate.
Wenn Sie sie in einem Design of Experiments-Lehrbuch nachschlagen, in dem Sie normalerweise Informationen über ANOVA und ANCOVA finden, werden Sie diese Annahmen tatsächlich finden. Der Kritiker hat also schöne Referenzen.
In diesem Fall ist es jedoch wichtig, innehalten und darüber nachzudenken, ob die Annahmen auf Ihre Situation zutreffen und wie sich der Umgang mit der Annahme auf die Analyse und die Schlussfolgerungen auswirkt, die Sie ziehen können.
Ein Beispiel
Ein sehr einfaches Beispiel hierfür könnte eine Studie sein, die den Höhenunterschied von Kindern untersucht, die einen Parasiten haben und nicht. Da das Alter einen großen Beitrag zur Körpergröße von Kindern leistet, ist dies eine wichtige Kontrollvariable.
In diesem Diagramm sehen Sie die Beziehung zwischen Alter X1 auf der x-Achse und Höhe auf der y-Achse bei zwei verschiedenen Werten von X2, Parasitenstatus. X2 = 0 gibt die Gruppe der Kinder an, die den Parasiten haben, und X2 = 1 ist die Gruppe der Kinder, die dies nicht tun.
Jüngere Kinder sind tendenziell häufiger von dem Parasiten befallen. Das heißt, das mittlere Alter (Mittelwert von X1) der blauen Punkte ist deutlich niedriger als das mittlere Alter der schwarzen Sterne. Mit anderen Worten, das Alter der Kinder mit dem Parasiten ist niedriger als die ohne.
Die Unabhängigkeit zwischen der unabhängigen Variablen (Parasitenstatus) und der Kovariate (Alter) wird also eindeutig verletzt.
Umgang mit der Verletzung der Annahmen
Dies sind Ihre Optionen:
1. Löschen Sie die Kovariate aus dem Modell, damit Sie die Annahmen von ANCOVA nicht verletzen, und führen Sie eine Einweg-ANOVA aus. Dies scheint die beliebte Option bei den meisten Kritikern zu sein.
2. Behalten Sie trotzdem sowohl die Kovariate als auch die unabhängige Variable im Modell bei.
3. Kategorisieren Sie die Kovariate in niedriges und hohes Alter und führen Sie dann eine 2 × 2-ANOVA aus.
Option # 3 wird oft befürwortet, aber ich hoffe, Sie werden bald sehen, warum es bestenfalls unnötig ist. Das willkürliche Aufteilen einer numerischen Variablen in Kategorien wirft nur gute Informationen weg.
Lassen Sie uns Option #1 untersuchen.
Das Problem damit ist in der Grafik dargestellt – es spiegelt die Daten oder die Beziehungen zwischen den Variablen nicht genau wider.
Mit der Kovariate im Modell wird der Unterschied in der mittleren Größe für Kinder mit und ohne Parasiten für Kinder im gleichen Alter geschätzt (die Höhe der roten Linie).
Wenn Sie die Kovariate fallen lassen, wird der Unterschied in der mittleren Höhe auf den Gesamtmittelwert für jede Gruppe geschätzt (die violette Linie).
Mit anderen Worten, jeder Effekt des Alters wird dem Effekt des Parasitenstatus hinzugefügt, und Sie werden den Effekt des Parasiten auf den mittleren Unterschied in der Körpergröße von Kindern übertreiben.
Warum ist es dann eine Annahme?
Sie fragen sich wahrscheinlich: „Warum um alles in der Welt wäre dies eine Annahme von ANCOVA, wenn das Entfernen der Kovariate dazu führt, dass wir Beziehungen übertreiben?“
Um zu verstehen, warum, müssen wir das Problem untersuchen, das dieser Artikel behandelt.
Im Abschnitt Analyse der Kovarianz von Geoffrey Keppels exzellentem Buch Design and Analysis: A Researcher’s Handbook heißt es:
Es wird verwendet, um zwei wichtige Anpassungen vorzunehmen: (1) Verfeinerung der Schätzungen des experimentellen Fehlers und (2) Anpassung der Behandlungseffekte für Unterschiede zwischen den Behandlungsgruppen, die vor der Verabreichung der experimentellen Behandlungen bestanden. Da die Probanden zufällig den Behandlungsbedingungen zugeordnet wurden , würden wir erwarten, relativ kleine Unterschiede zwischen den Behandlungen auf der Kovariate und erheblich größere Unterschiede auf der Kovariate zwischen den Probanden innerhalb der verschiedenen Behandlungsbedingungen. Daher wird erwartet, dass die Analyse der Kovarianz ihre größten Vorteile erzielt, indem die Größe des Fehlerterms reduziert wird ; jede Korrektur bereits bestehender Unterschiede in einer zufälligen Zuordnung ist im Vergleich gering.
Ein paar Seiten später erklärt er,
Das Hauptkriterium für eine Kovariate ist eine wesentliche lineare Korrelation mit der abhängigen Variablen Y. In den meisten Fällen werden die Ergebnisse der Kovariate vor Beginn der experimentellen Behandlung erhalten…. Gelegentlich werden die Ergebnisse gesammelt, nachdem das Experiment abgeschlossen ist. Ein solches Vorgehen ist nur dann vertretbar, wenn sicher ist, dass die experimentelle Behandlung die Kovariate nicht beeinflusst hat ….Die Analyse der Kovarianz basiert auf der Annahme, dass die Kovariate unabhängig von den experimentellen Behandlungen ist.
Mit anderen Worten, es geht darum, die Ergebnisse, die durch experimentell manipulierte Behandlungen gezogen werden können, nicht zu verderben. Wenn eine Kovariate mit der Behandlung zusammenhängt, würde dies auf ein Problem mit der zufälligen Zuweisung hinweisen, oder es würde anzeigen, dass die Behandlungen selbst die Kovariatenwerte verursacht haben. Dies sind sehr wichtige Überlegungen in Experimenten.
Wenn jedoch, wie in unserem Parasitenbeispiel, die kategoriale unabhängige Hauptvariable beobachtet und nicht manipuliert wird, ist die Unabhängigkeitsannahme zwischen der Kovariate und der unabhängigen Variablen irrelevant.
Es ist eine Designannahme. Es ist keine Modellannahme.
Der einzige Effekt der Annahme, dass die unabhängige Variable und die Kovariate unabhängig sind, besteht darin, wie Sie die Ergebnisse interpretieren.
Was ist also die geeignete Lösung?
Die angemessene Antwort lautet # 2 – Behalten Sie die Kovariate in der Analyse bei und interpretieren Sie die Ergebnisse einer Beobachtungsstudie nicht wie aus einem Experiment.
Dies führt zu einer genaueren Schätzung der tatsächlichen Beziehung zwischen der unabhängigen Variablen und dem Ergebnis. Stellen Sie einfach sicher, dass Sie sagen, dass dies die mittlere Differenz bei einem bestimmten Wert der Kovariate ist.
Die letzte Frage lautet dann: Wenn Ihr Kritiker das Wort ANCOVA verboten hat, weil Sie kein Experiment haben, wie nennen Sie es?
Jetzt kommt es auf die Semantik an. Es ist genau, es ein allgemeines lineares Modell, eine multiple Regression oder (in meiner Option) eine ANCOVA zu nennen (ich habe noch nie jemanden gesehen, der sich dagegen sträubte, eine Analyse als ANOVA zu bezeichnen, wenn die beiden kategorialen IVs verwandt waren).
Die Kritiker, die an dieser Annahme hängen bleiben, sind normalerweise diejenigen, die einen bestimmten Namen wollen. Allgemeines lineares Modell ist zu vieldeutig für sie. Ich hatte Kunden, die es eine multiple Regression nennen mussten, obwohl die wichtigste unabhängige Variable die kategorische war.
Eine Möglichkeit besteht darin, „kategoriale Prädiktorvariable“ anstelle von „unabhängige Variable“ zu verwenden, wenn die Variable in der ANCOVA beschrieben wird. Letzteres impliziert Manipulation; ersteres nicht.
Dies ist ein Fall, in dem es sich lohnt, für Ihre Analyse zu kämpfen, aber nicht für den Namen. Der Sinn all dessen ist es, die Ergebnisse genau zu kommunizieren.