Kun Ancovan oletuksilla ei ole merkitystä
aina silloin tällöin, työskentelen asiakkaan kanssa, joka on juuttunut tietyn tilastollisen kiven ja kovan paikan väliin.
se tapahtuu, kun he yrittävät suorittaa kovarianssin (ANCOVA) mallin analyysia, koska heillä on kategorinen itsenäinen muuttuja ja jatkuva kovariaatti.
ongelma syntyy, kun joku taustavaikuttaja, komitean jäsen tai arvostelija väittää ANCOVAN olevan tässä tilanteessa epäasiallinen, koska jokin seuraavista ANCOVAN oletuksista ei täyty:
1. Riippumaton muuttuja ja kovariaatti ovat toisistaan riippumattomia.
2. Itsenäisen muuttujan ja kovariaatin välillä ei ole vuorovaikutusta.
jos niitä etsii mistä tahansa kokeiden oppikirjasta, josta yleensä löytyy tietoa ANOVASTA ja ANCOVASTA, nämä olettamukset todellakin löytyvät. Kriitikolla on siis kivat suositukset.
tässä on kuitenkin tärkeää pysähtyä miettimään, pätevätkö oletukset omaan tilanteeseen ja miten oletuksen käsittely vaikuttaa analyysiin ja johtopäätöksiin, joita voi tehdä.
esimerkki
hyvin yksinkertainen esimerkki tästä voisi olla tutkimus, jossa tarkastellaan loista sairastavien ja sitä sairastamattomien lasten korkeuseroja. Koska suuri tekijä lasten pituuteen on ikä, tämä on tärkeä kontrollimuuttuja.
tässä kuvaajassa näet X-akselilla olevan iän X1 ja Y-akselilla olevan korkeuden suhteen kahdella eri arvolla X2, loinen tila. X2=0 tarkoittaa ryhmää lapsia, joilla on loinen ja X2=1 on ryhmä lapsia, joilla ei ole.
nuoremmat lapset sairastuvat loiseen useammin. Toisin sanoen sinisten pisteiden keski-ikä (X1: n keskiarvo) on selvästi pienempi kuin mustien tähtien keski-ikä. Toisin sanoen lasten iät, joilla on loinen, ovat alhaisemmat kuin ilman.
näin ollen riippumattoman muuttujan (loisen status) ja kovariaatin (Ikä) välinen riippumattomuus on selvästi rikottu.
miten menetellä oletusten rikkomisen kanssa
nämä ovat sinun vaihtoehtosi:
1. Pudota kovariaatti mallista, jotta et riko ANCOVAN oletuksia ja aja yksisuuntainen ANOVA. Tämä näyttää olevan suosittu vaihtoehto useimpien kriitikoiden keskuudessa.
2. Säilytä mallissa joka tapauksessa sekä kovariaatti että itsenäinen muuttuja.
3. Luokittele kovariaatti matalaan ja korkeaan ikään ja suorita sitten 2×2 ANOVA.
vaihtoehtoa #3 kannatetaan usein, mutta toivottavasti huomaatte pian, miksi se on parhaimmillaan tarpeeton. Numeerisen muuttujan mielivaltainen jakaminen kategorioihin on vain hyvän tiedon heittämistä pois.
tarkastellaan vaihtoehtoa #1.
sen ongelma näkyy kuvaajassa–se ei kuvaa tarkasti tietoa tai muuttujien välisiä suhteita.
mallin kovariaatilla arvioidaan loisen kanssa ja ilman sitä olevien lasten keskipituuden ero samanikäisillä lapsilla (punaisen viivan korkeus).
Jos pudotat kovariaatin, keskimääräisen korkeuden ero arvioidaan kunkin ryhmän kokonaiskeskiarvoksi (violetti viiva).
toisin sanoen mikä tahansa iän vaikutus lisätään loisen statuksen vaikutukseen ja liioitellaan loisen vaikutusta lasten korkeuserojen keskiarvoon.
miksi se sitten on oletus?
kysyt todennäköisesti itseltäsi ”miksi ihmeessä tämä olisi ancovan oletus, jos kovariaatin poistaminen saa meidät liioittelemaan suhteita?”
ymmärtääksemme miksi, meidän täytyy tutkia ongelmaa, jota nämä oletukset käsittelevät.
Geoffrey Keppelin excellent book, Design and Analysis: a Researcher ’s Handbook-teoksen kovarianssiosiossa hän toteaa:
sitä käytetään kahden tärkeän oikaisun aikaansaamiseen: (1) tarkentaa kokeellisten virheiden estimaatteja ja (2) mukauttaa hoidon vaikutuksia hoitoryhmien välisten erojen huomioon ottamiseksi, jotka olivat olemassa ennen kokeellisten hoitojen antamista. Koska koehenkilöt satunnaistettiin hoito-olosuhteisiin, odottaisimme löytävämme suhteellisen pieniä eroja kovariaatin hoitojen välillä ja huomattavasti suurempia eroja koehenkilöiden kesken eri hoito-olosuhteissa. Näin kovarianssin analyysin odotetaan saavuttavan suurimmat hyötynsä pienentämällä virhetermin kokoa ; kaikki korjaaminen ennestään erot tuotettu satunnainen toimeksianto on pieni verrattuna.
muutamaa sivua myöhemmin hän toteaa,
kovariaatin tärkein kriteeri on huomattava lineaarinen korrelaatio riippuvaisen muuttujan, Y: n kanssa. Joskus pisteet kerätään kokeilun päätyttyä. Tällainen menettely on puolustettavissa vain, jos on varmaa, että kokeellinen hoito ei vaikuttanut kovariaattiin….Kovarianssin analyysi perustuu oletukseen, että kovarianssi on riippumaton kokeellisista hoidoista.
toisin sanoen kyse on siitä, ettei kokeellisesti manipuloiduilla hoidoilla saatavia tuloksia tahrata. Jos kovariaatti liittyisi hoitoon, se viittaisi satunnaiseen tehtävään, tai se viittaisi siihen, että hoidot itse aiheuttivat kovariaattiarvot. Nämä ovat erittäin tärkeitä näkökohtia kokeissa.
Jos kuitenkin, kuten parasiittiesimerkissämme, havaitaan pääluokallinen riippumaton muuttuja eikä manipuloida, on kovariaatin ja riippumattoman muuttujan välinen riippumattomuusoletus epäolennainen.
se on suunnittelun oletus. Se ei ole mallioletus.
riippumattoman muuttujan ja kovariaatin oletuksen ainoa vaikutus on siinä, miten tuloksia tulkitaan.
joten mikä on sopiva ratkaisu?
sopiva vaste on #2–pidä kovariaatti analyysissä, äläkä tulkitse havaintotutkimuksen tuloksia ikään kuin ne olisivat kokeesta.
näin tekemällä saadaan tarkempi arvio riippumattoman muuttujan ja lopputuloksen todellisesta suhteesta. Varmista vain, että sanot, että tämä on keskimääräinen ero missä tahansa kovariaatin arvossa.
viimeinen numero tulee sitten: jos kriitikko on kieltänyt ANCOVA-sanan, koska sinulla ei ole koetta, miksi kutsut sitä?
nyt on kyse semantiikasta. Se on tarkka kutsua sitä yleinen lineaarinen malli, useita regressio, tai (minun vaihtoehto), ANCOVA (en ole koskaan nähnyt kenenkään balk kutsumassa analyysi ANOVA, kun kaksi kategorista IVs liittyvät).
tähän olettamukseen ripustautuvat kriitikot ovat yleensä juuri niitä, jotka haluavat tietyn nimen. Yleinen lineaarinen malli on heille liian epäselvä. Minulla on ollut asiakkaita, jotka ovat joutuneet kutsumaan sitä moninkertaiseksi regressioksi, vaikka tärkein riippumaton muuttuja oli kategorinen.
yksi vaihtoehto on käyttää ancovan muuttujan kuvaamisessa ”kategorista predikaattorimuuttujaa” ”riippumattoman muuttujan” sijaan. Jälkimmäinen tarkoittaa manipulointia, edellinen ei.
Tämä on tapaus, jossa analyysistä kannattaa taistella, mutta ei nimestä. Kaiken tämän tarkoitus on välittää tulokset tarkasti.