Articles

Når antagelser om ANCOVA er irrelevante

hver gang imellem arbejder jeg med en klient, der sidder fast mellem et bestemt statistisk rock og hårdt sted.

det sker, når de forsøger at køre en analyse af kovarians (ANCOVA) model, fordi de har en kategorisk uafhængig variabel og en kontinuerlig kovariat.

problemet opstår, når en medforfatter, udvalgsmedlem eller korrekturlæser insisterer på, at ANCOVA er upassende i denne situation, fordi en af følgende ANCOVA-antagelser ikke er opfyldt:

1. Den uafhængige variabel og kovariatet er uafhængige af hinanden.

2. Der er ingen interaktion mellem uafhængig variabel og kovariatet.

Hvis du ser dem op i ethvert design af eksperimenter lærebog, som normalt er hvor du finder information om ANOVA og ANCOVA, vil du faktisk finde disse antagelser. Så kritikeren har gode referencer.

Dette er dog et tilfælde, hvor det er vigtigt at stoppe og tænke over, om antagelserne gælder for din situation, og hvordan håndtering af antagelsen vil påvirke analysen og de konklusioner, du kan drage. om antagelserne gælder for din situation, og hvordan håndtering af antagelsen vil påvirke analysen og de konklusioner, du kan drage.

et eksempel

et meget simpelt eksempel på dette kan være en undersøgelse, der undersøger forskellen i højder hos børn, der gør og ikke har en parasit. Da en stor bidragyder til børns højde er alder, er dette en vigtig kontrolvariabel.

i denne graf ser du forholdet mellem alder H1, på h-aksen og højden på y-aksen ved to forskellige værdier af H2, parasitstatus. 2=0 angiver gruppe af børn, der har parasitten, og 2 = 1 er gruppen af børn, der ikke gør det.

forening uden interaktion

yngre børn har tendens til at blive ramt af parasitten oftere. 1) af de blå prikker er klart lavere end gennemsnitsalderen for de sorte stjerner. Med andre ord er alderen af børn med parasitten lavere end dem uden.

så uafhængigheden mellem den uafhængige variabel (parasitstatus) og kovariatet (alder) er klart overtrådt.

Sådan håndteres overtrædelse af antagelserne

disse er dine muligheder:

1. Slip kovariatet fra modellen, så du ikke overtræder ancovas antagelser og kører en envejs ANOVA. Dette synes at være den populære mulighed blandt de fleste kritikere.

2. Behold alligevel både den kovariate og den uafhængige variabel i modellen.

3. Kategoriser kovariatet i lave og høje aldre, kør derefter en 2 Lot 2 ANOVA.

valgmulighed # 3 er ofte anbefalet, men jeg håber, at du snart vil se, hvorfor det i bedste fald er unødvendigt. Vilkårligt opdele en numerisk variabel i kategorier er bare at smide god information væk.

lad os undersøge mulighed #1.

problemet med det vises i grafen–det afspejler ikke nøjagtigt dataene eller forholdet mellem variablerne.

med kovariatet i modellen estimeres forskellen i gennemsnitshøjden for børn med og uden parasitten for børn i samme alder (højden på den røde linje).

Hvis du taber kovariatet, estimeres forskellen i middelhøjde til det samlede gennemsnit for hver gruppe (den lilla linje).

med andre ord vil enhver effekt af alder blive tilføjet til effekten af parasitstatus, og du vil overvurdere effekten af parasitten på den gennemsnitlige forskel i børns højder.

Hvorfor er det så en antagelse?

du spørger sandsynligvis dig selv ” hvorfor i alverden ville dette være en antagelse om ANCOVA, hvis fjernelse af kovariatet fører os til at overdrive forhold?”

for at forstå hvorfor, er vi nødt til at undersøge det problem, som disse antagelser adresserer.

i analysen af kovariansafsnittet i Geoffrey Keppels fremragende bog, Design og analyse: en Forskerhåndbog siger han:

det bruges til at udføre to vigtige justeringer: (1) at forfine estimater af eksperimentel fejl og (2) at justere behandlingseffekter for eventuelle forskelle mellem behandlingsgrupperne, der eksisterede før de eksperimentelle behandlinger blev administreret. Fordi forsøgspersoner tilfældigt blev tildelt behandlingsbetingelserne, ville vi forvente at finde relativt små forskelle mellem behandlingerne på kovariatet og betydeligt større forskelle på kovariatet blandt forsøgspersonerne inden for de forskellige behandlingsbetingelser. Således forventes analysen af kovarians at opnå sine største fordele ved at reducere størrelsen af fejlperioden ; enhver korrektion for allerede eksisterende forskelle produceret en tilfældig tildeling vil være lille ved sammenligning.

et par sider senere siger han,

hovedkriteriet for et kovariat er en væsentlig lineær korrelation med den afhængige variabel, Y. i de fleste tilfælde opnås scorerne på kovariatet før indledningen af den eksperimentelle behandling…. Lejlighedsvis samles scorerne, når eksperimentet er afsluttet. En sådan procedure kan kun forsvares, når det er sikkert, at den eksperimentelle behandling ikke påvirkede kovariatet….Analysen af kovarians er baseret på den antagelse, at kovariatet er uafhængigt af de eksperimentelle behandlinger.

med andre ord handler det om ikke at plette de resultater, der kan trækkes ved eksperimentelt manipulerede behandlinger. Hvis et kovariat var relateret til behandlingen, ville det indikere et problem med tilfældig tildeling, eller det ville indikere, at behandlingerne selv forårsagede de kovariate værdier. Dette er meget vigtige overvejelser i eksperimenter.

Hvis den vigtigste kategoriske uafhængige variabel imidlertid, som i vores parasiteksempel, observeres og ikke manipuleres, er uafhængighedsantagelsen mellem den kovariate og den uafhængige variabel irrelevant.

det er en design antagelse. Det er ikke en model antagelse.

den eneste effekt af antagelsen om den uafhængige variabel og kovariatet er uafhængig er i, hvordan du fortolker resultaterne.

så hvad er den rigtige løsning?

det passende svar er #2-hold kovariatet i analysen, og tolk ikke resultater fra en observationsundersøgelse, som om de var fra et eksperiment.

Hvis du gør det, vil det føre til et mere præcist skøn over det reelle forhold mellem den uafhængige variabel og resultatet. Bare sørg for at du siger, at dette er den gennemsnitlige forskel på en given værdi af kovariatet.

det sidste problem bliver så: hvis din kritiker har forbudt ordet ANCOVA, fordi du ikke har et eksperiment, hvad kalder du det?

nu er det ned til semantik. Det er nøjagtigt at kalde det en generel lineær model, en multipel regression eller (efter min mulighed) en ANCOVA (jeg har aldrig set nogen bøje ved at kalde en analyse en ANOVA, når de to kategoriske IV ‘ er var relaterede).

kritikerne, der bliver hængt op på denne antagelse, er normalt dem, der ønsker et bestemt navn. Generel lineær Model er for tvetydig for dem. Jeg har haft klienter, der måtte kalde det en multipel regression, selvom den vigtigste uafhængige variabel var den kategoriske.

en mulighed er brug “kategorisk forudsigelsesvariabel” i stedet for “uafhængig variabel”, når du beskriver variablen i ANCOVA. Sidstnævnte indebærer manipulation; førstnævnte gør det ikke.

dette er et tilfælde, hvor det er værd at kæmpe for din analyse, men ikke navnet. Pointen med alt dette er at kommunikere resultater nøjagtigt.
bogmærke og del

fortolkning af lineære regressionskoefficienter: En gåtur gennem Output
Lær tilgangen til forståelse af koefficienter i den regression, når vi går gennem output fra en model, der inkluderer numeriske og kategoriske forudsigere og en interaktion.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *