Wanneer veronderstellingen van ANCOVA niet relevant zijn
af en toe, werk ik met een client die vastzit tussen een bepaalde statistische rots en harde plaats.
het gebeurt wanneer ze een analyse van covariantie (ANCOVA) model proberen uit te voeren omdat ze een categorische onafhankelijke variabele en een continue covariatie hebben.
het probleem doet zich voor wanneer een coauteur, Commissielid of beoordelaar volhoudt dat ANCOVA in deze situatie niet geschikt is omdat aan een van de volgende ANCOVA-aannames niet wordt voldaan:
1. De onafhankelijke variabele en de covariabele zijn onafhankelijk van elkaar.
2. Er is geen interactie tussen onafhankelijke variabele en de covariabele.
als je ze opzoekt in een ontwerp van experimenten leerboek, dat meestal is waar je informatie vindt over ANOVA en ANCOVA, zul je inderdaad deze veronderstellingen vinden. Dus de criticus heeft mooie referenties.
echter, dit is een geval waarin het belangrijk is om te stoppen en na te denken over de vraag of de aannames van toepassing zijn op uw situatie, en hoe het omgaan met de aanname de analyse en de conclusies die u kunt trekken zal beïnvloeden.
een voorbeeld
een heel eenvoudig voorbeeld hiervan zou een studie kunnen zijn die het verschil in hoogte onderzoekt van kinderen die wel en geen parasiet hebben. Aangezien een grote bijdrage aan de lengte van kinderen leeftijd is, is dit een belangrijke controlevariabele.
in deze grafiek ziet u de relatie tussen leeftijd X1, op de x-as en hoogte op de y-as op twee verschillende waarden van X2, parasietstatus. X2 = 0 geeft de groep kinderen aan die de parasiet hebben en X2=1 is de groep kinderen die dat niet hebben.
jongere kinderen hebben de neiging vaker last te hebben van de parasiet. Dat wil zeggen, De gemiddelde leeftijd (gemiddelde van X1) van de blauwe stippen is duidelijk lager dan de gemiddelde leeftijd van de zwarte sterren. Met andere woorden, de leeftijden van kinderen met de parasiet zijn lager dan die zonder.
dus de onafhankelijkheid tussen de onafhankelijke variabele (parasietstatus) en de covariabele (leeftijd) wordt duidelijk geschonden.
hoe om te gaan met schending van de aannames
Dit zijn uw opties:
1. Laat de covariant van het model, zodat je niet de veronderstellingen van ANCOVA overtreden en run een one-way ANOVA. Dit lijkt de populaire optie onder de meeste critici.
2. Behoud toch zowel de covariabele als de onafhankelijke variabele in het model.
3. Categoriseer de covariant in lage en hoge leeftijden, voer dan een 2×2 ANOVA.
optie #3 wordt vaak aanbevolen, maar ik hoop dat u snel zult zien waarom het op zijn best onnodig is. Willekeurig splitsen van een numerieke variabele in categorieën is gewoon het weggooien van goede informatie.
laten we optie #1 bekijken.
het probleem met het wordt weergegeven in de grafiek–het geeft niet nauwkeurig de gegevens of de relaties tussen de variabelen weer.
met de covariabele in het model wordt het verschil in de gemiddelde lengte voor kinderen met en zonder de parasiet geschat voor kinderen op dezelfde leeftijd (de hoogte van de rode lijn).
Als u de covariabele laat vallen, wordt het verschil in gemiddelde hoogte geschat op het totale gemiddelde voor elke groep (de paarse lijn).
met andere woorden, elk effect van leeftijd zal worden toegevoegd aan het effect van de parasietstatus, en u zult het effect van de parasiet op het gemiddelde verschil in hoogte van kinderen overschatten.
Waarom is het dan een aanname?
u vraagt zich waarschijnlijk af ” waarom zou dit in hemelsnaam een aanname van ANCOVA zijn als het verwijderen van de covariabele ons leidt tot overstatelijke relaties?”
om te begrijpen waarom, moeten we het probleem onderzoeken dat deze aannames aanpakken.
in de sectie analyse van covariantie van Geoffrey Keppel ’s excellent book, Design and Analysis: A Researcher’ s Handbook, verklaart hij:
Het wordt gebruikt om twee belangrijke aanpassingen uit te voeren: (1) De schattingen van de experimentele fout te verfijnen en (2) de effecten van de behandeling aan te passen op eventuele verschillen tussen de behandelingsgroepen die bestonden voordat de experimentele behandelingen werden toegediend. Omdat proefpersonen willekeurig werden toegewezen aan de behandelingscondities , zouden we verwachten relatief kleine verschillen tussen de behandelingen op de covariabele en aanzienlijk grotere verschillen op de covariabele tussen de proefpersonen binnen de verschillende behandelingscondities te vinden. Daarom wordt verwacht dat de analyse van covariantie zijn grootste voordelen zal bereiken door de grootte van de foutterm te verminderen ; elke correctie voor reeds bestaande verschillen geproduceerd een willekeurige toewijzing zal klein zijn in vergelijking.
enkele pagina ‘ s later stelt hij,
het belangrijkste criterium voor een covariabele is een aanzienlijke lineaire correlatie met de afhankelijke variabele, Y. in de meeste gevallen worden de scores op de covariabele verkregen voordat de experimentele behandeling wordt gestart…. Af en toe worden de scores verzameld nadat het experiment is voltooid. Een dergelijke procedure is alleen verdedigbaar als het zeker is dat de experimentele behandeling de covariante niet beïnvloedde….De analyse van covariantie is gebaseerd op de aanname dat de covariantie onafhankelijk is van de experimentele behandelingen.
met andere woorden, het gaat erom dat de resultaten die kunnen worden getrokken door experimenteel gemanipuleerde behandelingen niet worden aangetast. Als een covariabele was gerelateerd aan de behandeling, zou het een probleem met willekeurige toewijzing, of het zou erop wijzen dat de behandelingen zelf de covariabele waarden veroorzaakt. Dit zijn zeer belangrijke overwegingen in experimenten.
Als echter, zoals in ons parasietvoorbeeld, de belangrijkste categorische onafhankelijke variabele wordt waargenomen en niet wordt gemanipuleerd, is de onafhankelijkheidshypothese tussen de covariante en de onafhankelijke variabele irrelevant.
Het is een ontwerpaanname. Het is geen modelhypothese.
het enige effect van de aanname dat de onafhankelijke variabele en de covariante onafhankelijk zijn, is hoe je de resultaten interpreteert.
Wat is de juiste oplossing?
de juiste respons is # 2-Houd de covariant in de analyse en interpreteer de resultaten van een observationele studie niet alsof ze van een experiment waren.
Dit zal leiden tot een nauwkeuriger schatting van de werkelijke relatie tussen de onafhankelijke variabele en de uitkomst. Zorg ervoor dat je zegt dat dit het gemiddelde verschil is op elke gegeven waarde van de covariant.
Het Laatste probleem wordt dan: als je criticus het woord ANCOVA heeft verbannen omdat je geen experiment hebt, hoe noem je het dan?
nu is het aan semantiek. Het is juist om het een algemeen lineair model te noemen, een meervoudige regressie, of (in mijn optie), een ANCOVA (ik heb nog nooit iemand zien aarzelen om een analyse een ANOVA te noemen wanneer de twee categorische IV ‘ s gerelateerd waren).
de critici die op deze aanname blijven hangen zijn meestal degenen die een specifieke naam willen. Algemeen lineair Model is te dubbelzinnig voor hen. Ik heb cliënten gehad die het een meervoudige regressie moesten noemen, ook al was de belangrijkste onafhankelijke variabele de categorische.
een optie is “categorical predictor variable” te gebruiken in plaats van “independent variable” bij het beschrijven van de variabele in de ANCOVA. Het laatste impliceert manipulatie; het eerste niet.
Dit is een geval waarin het de moeite waard is om te vechten voor je analyse, maar niet voor de naam. Het doel van dit alles is het nauwkeurig communiceren van resultaten.