Når Forutsetninger OM ANCOVA Er Irrelevante
hver gang en stund, jobber jeg med en klient som sitter fast mellom en bestemt statistisk stein og hardt sted.
det skjer når de prøver å kjøre en analyse AV kovarians (ANCOVA) modell fordi de har en kategorisk uavhengig variabel og en kontinuerlig kovariat.
problemet oppstår når en medforfatter, komitemedlem eller anmelder insisterer PÅ AT ANCOVA er upassende i denne situasjonen fordi EN AV FØLGENDE ANCOVA-forutsetninger ikke er oppfylt:
1. Den uavhengige variabelen og kovariatet er uavhengige av hverandre.
2. Det er ingen interaksjon mellom uavhengig variabel og kovariat.
hvis du ser dem opp i noen design av eksperimenter lærebok, som vanligvis er der du finner informasjon OM ANOVA og ANCOVA, vil du faktisk finne disse forutsetningene. Kritikeren har gode referanser.dette er imidlertid et tilfelle hvor det er viktig å stoppe og tenke på om forutsetningene gjelder for din situasjon, og hvordan håndtering av antagelsen vil påvirke analysen og konklusjonene du kan trekke.
Et Eksempel
et veldig enkelt eksempel på dette kan være en studie som undersøker forskjellen i høyder av barn som gjør og ikke har en parasitt. Siden en stor bidragsyter til barnas høyde er alder, er dette en viktig kontrollvariabel.
i denne grafen ser du forholdet mellom alder X1, på x-aksen og høyde på y-aksen ved to forskjellige verdier Av x2, parasittstatus. X2 = 0 indikerer gruppe barn som har parasitten Og X2=1 er gruppen av barn som ikke gjør det.
Yngre barn har en tendens til å bli rammet av parasitten oftere. Det vil si at gjennomsnittsalderen (gjennomsnitt Av X1) av de blå prikkene er klart lavere enn gjennomsnittsalderen til de svarte stjernene. Med andre ord er alderen på barn med parasitten lavere enn de uten.
så uavhengigheten mellom den uavhengige variabelen (parasittstatus) og kovariaten (alder) er tydelig brutt.
Hvordan Håndtere Brudd På Forutsetningene
dette er alternativene dine:
1. Slipp kovariatet fra modellen slik at DU ikke bryter forutsetningene TIL ANCOVA og kjører EN enveis ANOVA. Dette synes å være det populære alternativet blant de fleste kritikere.
2. Behold både kovariatet og den uavhengige variabelen i modellen uansett.
3. Kategoriser kovariatet i lav og høy alder, og kjør deretter en 2×2 ANOVA.
Alternativ #3 er ofte foreslo, men jeg håper du snart vil se hvorfor det er unødvendig, i beste fall. Vilkårlig deling av en numerisk variabel i kategorier kaster bare bort god informasjon.
la oss undersøke alternativ #1.
problemet med det er vist i grafen – det gjenspeiler ikke dataene eller forholdene mellom variablene nøyaktig.
med kovariatet i modellen er forskjellen i gjennomsnittlig høyde for barn med og uten parasitten estimert for barn i samme alder (høyden på den røde linjen).
hvis du slipper kovariatet, estimeres forskjellen i gjennomsnittlig høyde til det totale gjennomsnittet for hver gruppe (den lilla linjen).
med andre ord vil enhver effekt av alder bli lagt til effekten av parasittstatus, og du vil overvurdere effekten av parasitten på gjennomsnittlig forskjell i barnas høyder.
Hvorfor er det en antagelse da?
du spør sannsynligvis deg selv » hvorfor i all verden ville DETTE være EN antagelse OM ANCOVA hvis fjerning av kovariatet fører oss til å overdrive forhold?»
For å forstå hvorfor, må vi undersøke problemet denne antagelsen adresserer.
i analyse av kovariansdelen Av Geoffrey Keppel utmerkede bok, Design Og Analyse: En Forskers Håndbok, sier han:
det brukes til å oppnå to viktige justeringer: (1) å finjustere estimater av eksperimentell feil og (2) å justere behandlingseffekter for eventuelle forskjeller mellom behandlingsgruppene som eksisterte før de eksperimentelle behandlingene ble administrert. Fordi forsøkspersonene ble randomisert til behandlingsbetingelsene, ville vi forvente å finne relativt små forskjeller mellom behandlingene på kovariatet og betydelig større forskjeller på kovariatet blant forsøkspersonene innenfor de ulike behandlingsbetingelsene. Dermed forventes analysen av kovarians å oppnå sine største fordeler ved å redusere størrelsen på feilbegrepet ; enhver korreksjon for pre-eksisterende forskjeller produsert en tilfeldig tildeling vil være liten ved sammenligning.
noen få sider senere sier han,
hovedkriteriet for et kovariat er en betydelig lineær korrelasjon med den avhengige variabelen, Y. I de fleste tilfeller oppnås resultatene på kovariatet før initiering av eksperimentell behandling…. Av og til blir resultatene samlet etter at eksperimentet er fullført. En slik prosedyre kan bare forsvares når det er sikkert at den eksperimentelle behandlingen ikke påvirket kovariatet.Analysen av kovarians er basert på antagelsen om at kovariatet er uavhengig av eksperimentelle behandlinger.
Med andre ord handler det om ikke å tainte resultatene som kan trekkes av eksperimentelt manipulerte behandlinger. Hvis et kovariat var relatert til behandlingen, ville det indikere et problem med tilfeldig tildeling, eller det ville indikere at behandlingene selv forårsaket kovariatverdiene. Dette er svært viktige hensyn i eksperimenter.hvis imidlertid, som i vårt parasitteksempel, den viktigste kategoriske uavhengige variabelen observeres og ikke manipuleres, er uavhengighetsforutsetningen mellom kovariatet og den uavhengige variabelen irrelevant.
det er en designforutsetning. Det er ikke en modellforutsetning.
den eneste effekten av antagelsen om den uavhengige variabelen og kovariatet er uavhengig, er hvordan du tolker resultatene.
så hva er den riktige løsningen?
den riktige responsen er # 2-hold kovariatet i analysen, og tolk ikke resultater fra en observasjonsstudie som om de var fra et eksperiment.
Dette vil føre til et mer nøyaktig estimat av det virkelige forholdet mellom den uavhengige variabelen og utfallet. Bare vær sikker på at du sier at dette er den gjennomsnittlige forskjellen til en gitt verdi av kovariatet.det siste problemet blir da: hvis kritikeren din har forbudt ordet ANCOVA fordi du ikke har et eksperiment, hva kaller du det?
nå er det ned til semantikk. Det er riktig å kalle det en generell lineær modell, en multippel regresjon, eller (i mitt valg), EN ANCOVA(jeg har aldri sett noen balk på å kalle en analyse EN ANOVA når de to kategoriske Ivene var relatert).
kritikerne som blir hengt opp på denne antagelsen, er vanligvis de som vil ha et bestemt navn. Generell Lineær Modell er for tvetydig for dem. Jeg har hatt klienter som måtte kalle det en multippel regresjon, selv om den viktigste uavhengige variabelen var den kategoriske.
Ett alternativ er å bruke «kategorisk prediktorvariabel» i stedet for «uavhengig variabel» når man beskriver variabelen I ANCOVA. Sistnevnte innebærer manipulasjon; den tidligere gjør det ikke.
dette er et tilfelle der det er verdt å kjempe for analysen din, men ikke navnet. Poenget med alt dette er å kommunisere resultatene nøyaktig.