Kiedy założenia ANCOVA są nieistotne
co jakiś czas pracuję z klientem, który utknął między konkretnym statystycznym kamieniem a twardym miejscem.
dzieje się tak, gdy próbują przeprowadzić analizę modelu kowariancji (ANCOVA), ponieważ mają kategoryczną zmienną niezależną i ciągłą kowariancję.
problem pojawia się, gdy współautor, członek komitetu lub recenzent twierdzi, że ANCOVA jest nieodpowiednia w tej sytuacji, ponieważ jedno z następujących założeń ANCOVA nie jest spełnione:
1. Zmienna niezależna i współzmienna są niezależne od siebie.
2. Nie ma interakcji pomiędzy zmienną niezależną a kowariantą.
jeśli przejrzysz je w dowolnym podręczniku do projektowania eksperymentów, w którym zazwyczaj znajdziesz informacje o ANOVA i ANCOVA, rzeczywiście znajdziesz te założenia. Więc krytyk ma dobre referencje.
jednak jest to przypadek, w którym ważne jest, aby zatrzymać się i zastanowić się, czy założenia odnoszą się do twojej sytuacji i jak radzenie sobie z założeniem wpłynie na analizę i wnioski, które możesz wyciągnąć.
przykład
bardzo prostym tego przykładem może być badanie, które bada różnicę w wysokości dzieci, które mają i nie mają pasożyta. Ponieważ dużym czynnikiem wpływającym na wzrost dzieci jest wiek, jest to ważna zmienna kontrolna.
na tym wykresie widać zależność między wiekiem X1, na osi x i wysokością na osi y przy dwóch różnych wartościach X2, czyli o statusie pasożyta. X2=0 oznacza grupę dzieci, które mają pasożyta, a X2 = 1 oznacza grupę dzieci, które nie mają pasożyta.
młodsze dzieci częściej cierpią na pasożyta. Oznacza to, że średni wiek (średnia X1) niebieskich kropek jest wyraźnie niższy niż średni wiek czarnych gwiazd. Innymi słowy, wiek dzieci z pasożytem jest niższy niż tych bez.
tak więc niezależność między zmienną niezależną (status pasożyta) a współzmienną (wiek) jest wyraźnie naruszona.
jak radzić sobie z naruszeniem założeń
Oto twoje opcje:
1. Odrzuć współzmienność z modelu, aby nie naruszać założeń ANCOVA i uruchom jednokierunkową ANOVĘ. Wydaje się, że jest to opcja popularna wśród większości krytyków.
2. Zachowaj zarówno zmienną kowariantną, jak i zmienną niezależną w modelu.
3. Skategoryzuj współzmienne na niskie i wysokie wieku, a następnie uruchom 2×2 ANOVA.
Opcja #3 jest często zalecana, ale mam nadzieję, że wkrótce zobaczysz, dlaczego jest niepotrzebna, w najlepszym razie. Arbitralne dzielenie zmiennej numerycznej na kategorie jest po prostu wyrzucaniem dobrych informacji.
przyjrzyjmy się opcji # 1.
problem z nim jest pokazany na wykresie–nie odzwierciedla dokładnie danych ani relacji między zmiennymi.
przy współzmiennej w modelu, różnica w średnim wzroście dla dzieci z i bez pasożyta jest szacowana dla dzieci w tym samym wieku (wysokość czerwonej linii).
Jeśli opuścisz kowariatę, różnica w średniej wysokości jest szacowana na ogólną średnią dla każdej grupy (fioletowa linia).
innymi słowy, każdy wpływ wieku zostanie dodany do efektu statusu pasożyta, a wycenisz wpływ pasożyta na średnią różnicę wzrostu dzieci.
dlaczego więc jest to założenie?
pewnie zadajesz sobie pytanie: „dlaczego miałoby to być założenie ANCOVA, skoro usunięcie kowariaty prowadzi nas do zawyżania relacji?”
aby zrozumieć, dlaczego, musimy zbadać problem, który dotyczy tych założeń.
w sekcji Analiza kowariancji znakomitej książki Geoffreya Keppela, Design and Analysis: a Researcher ’ s Handbook stwierdza:
jest ona używana do osiągnięcia dwóch ważnych korekt: (1) w celu udoskonalenia szacunków błędu doświadczalnego oraz (2) w celu dostosowania efektów leczenia do wszelkich różnic między grupami leczenia, które istniały przed podaniem leczenia eksperymentalnego. Ponieważ pacjenci zostali losowo przydzieleni do warunków leczenia , spodziewalibyśmy się znaleźć stosunkowo małe różnice między zabiegami na współzmiennej i znacznie większe różnice na współzmiennej między pacjentami w różnych warunkach leczenia. Dlatego oczekuje się, że analiza kowariancji osiągnie swoje największe korzyści poprzez zmniejszenie rozmiaru terminu błędu ; każda korekta dla wcześniej istniejących różnic wytworzonych losowego przydziału będzie niewielka w porównaniu.
kilka stron później stwierdza,
głównym kryterium kowariaty jest znaczna korelacja liniowa ze zmienną zależną, Y. w większości przypadków wyniki na kowariacie uzyskuje się przed rozpoczęciem leczenia eksperymentalnego…. Czasami wyniki są zbierane po zakończeniu eksperymentu. Taka procedura jest możliwa do obrony tylko wtedy, gdy jest pewne, że eksperymentalne leczenie nie miało wpływu na współzmienność….Analiza kowariancji opiera się na założeniu, że KOWARIANCJA jest niezależna od zabiegów eksperymentalnych.
innymi słowy, chodzi o to, aby nie zanieczyszczać wyników, które można narysować eksperymentalnie manipulowanymi zabiegami. Jeśli współzmienna była związana z leczeniem, wskazywałoby to na problem z losowym przypisaniem lub wskazywałoby, że same zabiegi spowodowały wartości współzmienne. Są to bardzo ważne kwestie w eksperymentach.
Jeśli jednak, jak w naszym przykładzie, główna kategoryczna zmienna niezależna jest obserwowana, a nie manipulowana, założenie niezależności między kowariantą a zmienną niezależną jest nieistotne.
to założenie projektowe. To nie jest modelowe założenie.
jedynym efektem założenia zmiennej niezależnej i współzmiennej jest to, jak interpretujesz wyniki.
więc jakie jest odpowiednie rozwiązanie?
odpowiednią odpowiedzią jest #2–zachowaj współzmienną w analizie i nie interpretuj wyników z badania obserwacyjnego tak, jakby były z eksperymentu.
to doprowadzi do dokładniejszego oszacowania rzeczywistej zależności między zmienną niezależną a wynikiem. Upewnij się tylko, że to jest średnia różnica dla dowolnej wartości kowariaty.
ostatnia kwestia to: jeśli twój krytyk zbanował słowo ANCOVA, bo nie masz eksperymentu, to jak to nazywasz?
teraz czas na semantykę. Dobrze jest nazwać to ogólnym modelem liniowym, wielokrotną regresją lub (w mojej opcji) ANCOVĄ (nigdy nie widziałem nikogo, kto bał się nazywać analizę ANOVA, gdy dwa kategoryczne Ivy były ze sobą powiązane).
krytycy, którzy wpadają w to przekonanie, to zazwyczaj ci, którzy chcą konkretnej nazwy. Ogólny Model liniowy jest dla nich zbyt niejednoznaczny. Miałem klientów, którzy musieli nazwać to wielokrotną regresją, mimo że główna niezależna zmienna była kategoryczna.
jedną z opcji jest użycie „kategorycznej zmiennej predykcyjnej” zamiast „zmiennej niezależnej” podczas opisywania zmiennej w ANCOVA. To drugie oznacza manipulację, to drugie nie.
To jest przypadek, w którym warto walczyć o swoją analizę, ale nie o nazwę. Celem tego wszystkiego jest dokładne przekazywanie wyników.