När antaganden om ANCOVA är irrelevanta
då och då arbetar jag med en klient som sitter fast mellan en viss statistisk sten och hård plats.
det händer när de försöker köra en analys av kovariansmodell (ANCOVA) eftersom de har en kategorisk oberoende variabel och en kontinuerlig kovariat.
problemet uppstår när en medförfattare, utskottsmedlem eller granskare insisterar på att ANCOVA är olämpligt i denna situation eftersom ett av följande ANCOVA-antaganden inte uppfylls:
1. Den oberoende variabeln och kovariaten är oberoende av varandra.
2. Det finns ingen interaktion mellan oberoende variabel och kovariat.
Om du letar upp dem i någon design av experimentbok, som vanligtvis är där du hittar information om ANOVA och ANCOVA, hittar du verkligen dessa antaganden. Så kritikern har fina referenser.
detta är dock ett fall där det är viktigt att sluta och tänka på om antagandena gäller för din situation, och hur hanteringen av antagandet kommer att påverka analysen och slutsatserna du kan dra.
ett exempel
ett mycket enkelt exempel på detta kan vara en studie som undersöker skillnaden i höjder hos barn som gör och inte har en parasit. Eftersom en stor bidragsgivare till barns höjd är ålder är detta en viktig kontrollvariabel.
i denna graf ser du förhållandet mellan ålder X1, på x-axeln och höjden på y-axeln vid två olika värden på X2, parasitstatus. X2 = 0 indikerar grupp barn som har parasiten och X2=1 är den grupp barn som inte gör det.
yngre barn tenderar att drabbas av parasiten oftare. Det vill säga medelåldern (medelvärdet av X1) för de blå prickarna är klart lägre än medelåldern för de svarta stjärnorna. Med andra ord är barnens åldrar med parasiten lägre än de utan.
så är oberoende mellan den oberoende variabeln (parasitstatus) och kovariaten (ålder) tydligt kränkt.
hur man hanterar brott mot antagandena
dessa är dina alternativ:
1. Släpp kovariaten från modellen så att du inte bryter mot ancovas antaganden och kör en enkelriktad ANOVA. Detta verkar vara det populära alternativet bland de flesta kritiker.
2. Behåll både den kovariata och den oberoende variabeln i modellen ändå.
3. Kategorisera kovariaten i låga och höga åldrar, kör sedan en 2-2-anova.
alternativ # 3 förespråkas ofta, men jag hoppas att du snart kommer att se varför det är onödigt, i bästa fall. Att godtyckligt dela upp en numerisk variabel i kategorier kastar bara bra information.
låt oss undersöka alternativ #1.
problemet med det visas i diagrammet–det återspeglar inte exakt data eller relationerna mellan variablerna.
med kovariaten i modellen beräknas skillnaden i medelhöjden för barn med och utan parasiten för barn i samma ålder (höjden på den röda linjen).
om du släpper kovariatet beräknas skillnaden i medelhöjd till det totala medelvärdet för varje grupp (den lila linjen).
med andra ord kommer någon effekt av ålder att läggas till effekten av parasitstatus, och du kommer att överdriva parasitens effekt på den genomsnittliga skillnaden i barns höjder.
Varför är det ett antagande då?
du frågar förmodligen dig själv ” varför i hela friden skulle detta vara ett antagande om ANCOVA om att ta bort kovariatet leder oss till överstatliga relationer?”
för att förstå varför måste vi undersöka problemet som dessa antaganden tar upp.
i analysen av kovariansavsnittet i Geoffrey Keppels utmärkta bok, Design och analys: en forskares handbok säger han:
det används för att utföra två viktiga justeringar: (1) för att förfina uppskattningar av experimentellt fel och (2) för att justera behandlingseffekter för eventuella skillnader mellan de behandlingsgrupper som fanns innan de experimentella behandlingarna administrerades. Eftersom försökspersoner slumpmässigt tilldelades behandlingsförhållandena, skulle vi förvänta oss att hitta relativt små skillnader mellan behandlingarna på kovariaten och betydligt större skillnader på kovariaten bland försökspersonerna inom de olika behandlingsförhållandena. Således förväntas analysen av kovarians uppnå sina största fördelar genom att minska storleken på felperioden ; varje korrigering för befintliga skillnader producerade en slumpmässig tilldelning kommer att vara liten i jämförelse.
några sidor senare säger han,
huvudkriteriet för en kovariat är en väsentlig linjär korrelation med den beroende variabeln, Y. i de flesta fall erhålls poängen på kovariatet före initieringen av experimentell behandling…. Ibland samlas poängen efter att experimentet är klart. Ett sådant förfarande är försvarbart endast när det är säkert att den experimentella behandlingen inte påverkade kovariaten….Analysen av kovarians bygger på antagandet att kovariatet är oberoende av de experimentella behandlingarna.
med andra ord handlar det om att inte tainting de resultat som kan dras av experimentellt manipulerade behandlingar. Om en kovariat var relaterad till behandlingen skulle det indikera ett problem med slumpmässig tilldelning, eller det skulle indikera att behandlingarna själva orsakade de kovariata värdena. Dessa är mycket viktiga överväganden i experiment.
Om emellertid, som i vårt parasitexempel, den huvudsakliga kategoriska oberoende variabeln observeras och inte manipuleras, är oberoende antagandet mellan kovariaten och den oberoende variabeln irrelevant.
det är en design antagande. Det är inte ett modellantagande.
den enda effekten av antagandet att den oberoende variabeln och kovariatet är oberoende är hur du tolkar resultaten.
så vad är den lämpliga lösningen?
det lämpliga svaret är #2-Håll kovariatet i analysen och tolka inte resultat från en observationsstudie som om de var från ett experiment.
Om du gör det kommer det att leda till en mer exakt uppskattning av det verkliga förhållandet mellan den oberoende variabeln och resultatet. Se bara till att du säger att detta är den genomsnittliga skillnaden vid varje givet värde av kovariaten.
den sista frågan blir då: om din kritiker har förbjudit ordet ANCOVA eftersom du inte har ett experiment, vad kallar du det?
Nu är det ner till semantik. Det är korrekt att kalla det en allmän linjär modell, en multipel regression, eller (enligt mitt alternativ), en ANCOVA (jag har aldrig sett någon balk på att ringa en analys en ANOVA när de två kategoriska IVs var relaterade).
kritikerna som hänger på detta antagande är vanligtvis de som vill ha ett specifikt namn. Allmän linjär modell är för tvetydig för dem. Jag har haft kunder som var tvungna att kalla det en multipel regression, även om den huvudsakliga oberoende variabeln var den kategoriska.
ett alternativ är använd ”kategorisk prediktorvariabel ” istället för” oberoende variabel ” när du beskriver variabeln i ANCOVA. Det senare innebär manipulation; det förra gör det inte.
detta är ett fall där det är värt att kämpa för din analys, men inte namnet. Poängen med allt detta är att kommunicera resultat exakt.