Articles

Când ipotezele ANCOVA sunt irelevante

Din când în când, lucrez cu un client care este blocat între o anumită piatră statistică și un loc dur.

se întâmplă atunci când încearcă să ruleze un model de analiză a covarianței (ANCOVA), deoarece au o variabilă independentă categorică și o covariantă continuă.

problema apare atunci când un coautor, membru al comitetului sau recenzent insistă că ANCOVA este inadecvată în această situație, deoarece una dintre următoarele ipoteze ANCOVA nu este îndeplinită:

1. Variabila independentă și covariata sunt independente una de cealaltă.

2. Nu există nicio interacțiune între variabila independentă și covariate.

dacă le căutați în orice manual de proiectare a experimentelor, care este de obicei locul în care veți găsi informații despre ANOVA și ANCOVA, veți găsi într-adevăr aceste ipoteze. Deci criticul are referințe frumoase.cu toate acestea, acesta este un caz în care este important să vă opriți și să vă gândiți dacă ipotezele se aplică situației dvs. și modul în care abordarea presupunerii va afecta analiza și concluziile pe care le puteți trage. dacă ipotezele se aplică situației dvs. și modul în care abordarea presupunerii va afecta analiza și concluziile pe care le puteți trage.

un exemplu

un exemplu foarte simplu în acest sens ar putea fi un studiu care examinează diferența de înălțime a copiilor care au și nu au un parazit. Deoarece un contribuitor mare la înălțimea copiilor este vârsta, aceasta este o variabilă importantă de control.

în acest grafic, vedeți relația dintre vârsta X1, pe axa x și înălțimea pe axa y la două valori diferite ale x2, starea parazitului. X2 = 0 indică grupul de copii care au parazitul și X2=1 este grupul de copii care nu au.

asociere fără interacțiune

copiii mai mici tind să fie afectați de parazit mai des. Adică vârsta medie (media X1) a punctelor albastre este clar mai mică decât vârsta medie a stelelor negre. Cu alte cuvinte, vârstele copiilor cu parazit sunt mai mici decât cele fără.

deci, independența dintre variabila independentă (statutul parazitului) și covariatul (vârsta) este în mod clar încălcată.

cum să se ocupe cu încălcarea ipotezelor

acestea sunt opțiunile:

1. Aruncați covariatul din model, astfel încât să nu încălcați ipotezele ANCOVA și să rulați un ANOVA unidirecțional. Aceasta pare a fi opțiunea populară printre majoritatea criticilor.

2. Păstrați atât variabila covariabilă, cât și variabila independentă în model oricum.

3. Clasificați covariatul în vârste mici și mari, apoi executați un 2 2 ANOVA.

Opțiunea #3 este adesea susținută, dar sper că veți vedea în curând de ce nu este necesară, în cel mai bun caz. Împărțirea arbitrară a unei variabile numerice în categorii este doar aruncarea informațiilor bune.

să examinăm opțiunea #1.

problema cu aceasta este prezentată în grafic–nu reflectă cu exactitate datele sau relațiile dintre variabile.

cu covariatul din model, diferența de înălțime medie pentru copiii cu și fără parazit este estimată pentru copiii de aceeași vârstă (înălțimea liniei roșii).

dacă renunțați la covariat, diferența de înălțime medie este estimată la media generală pentru fiecare grup (linia purpurie).

cu alte cuvinte, orice efect al vârstei va fi adăugat efectului stării parazitului și veți supraestima efectul parazitului asupra diferenței medii de înălțime a copiilor.

de ce este o presupunere, atunci?

probabil vă întrebați „De ce pe pământ ar fi aceasta o presupunere a ANCOVA dacă eliminarea covariatului ne conduce la supraevaluarea relațiilor?”

pentru a înțelege de ce, trebuie să investigăm problema pe care această ipoteză o abordează.

în secțiunea Analiza covarianței din cartea excelentă a lui Geoffrey Keppel, Design and Analysis: a Researcher ‘ s Handbook, el afirmă:

este folosit pentru a realiza două ajustări importante: (1) pentru a rafina estimările erorii experimentale și (2) pentru a ajusta efectele tratamentului pentru orice diferențe între grupurile de tratament care existau înainte de administrarea tratamentelor experimentale. Deoarece subiecții au fost repartizați aleatoriu la condițiile de tratament, ne-am aștepta să găsim diferențe relativ mici între tratamentele pe covariat și diferențe considerabil mai mari pe covariat între subiecți în diferitele condiții de tratament. Astfel, se așteaptă ca analiza covarianței să obțină cele mai mari beneficii prin reducerea dimensiunii termenului de eroare ; orice corecție pentru diferențele preexistente a produs o atribuire aleatorie va fi mică prin comparație.

câteva pagini mai târziu el afirmă,

criteriul principal pentru o covariabilă este o corelație liniară substanțială cu variabila dependentă, Y. În majoritatea cazurilor, scorurile pe covariabilă sunt obținute înainte de inițierea tratamentului experimental…. Ocazional, scorurile sunt adunate după finalizarea experimentului. O astfel de procedură este apărabilă numai atunci când este sigur că tratamentul experimental nu a influențat covariatul….Analiza covarianței se bazează pe presupunerea că covariatul este independent de tratamentele experimentale.

cu alte cuvinte, este vorba despre a nu păta rezultatele care pot fi extrase prin tratamente manipulate experimental. Dacă un covariat ar fi legat de tratament, ar indica o problemă cu atribuirea aleatorie sau ar indica faptul că tratamentele în sine au cauzat valorile covariate. Acestea sunt considerații foarte importante în experimente.

dacă totuși, ca în exemplul nostru parazit, principala variabilă independentă categorică este observată și nu manipulată, presupunerea de Independență dintre covariat și variabila independentă este irelevantă.

este o presupunere de proiectare. Nu este o presupunere model.

singurul efect al presupunerii variabilei independente și a covariatului de a fi independent este în modul în care interpretați rezultatele.

deci, care este soluția potrivită?

răspunsul adecvat este #2–Păstrați covariatul în analiză și nu interpretați rezultatele dintr-un studiu observațional ca și cum ar fi dintr-un experiment.

Acest lucru va duce la o estimare mai exactă a relației reale dintre variabila independentă și rezultat. Doar asigurați-vă că spuneți că aceasta este diferența medie la orice valoare dată a covariatului.

ultimul număr devine apoi: dacă criticul tău a interzis cuvântul ANCOVA pentru că nu ai un experiment, cum îl numești?

acum este vorba de semantică. Este corect să-l numim un model liniar general, o regresie multiplă sau (în opțiunea mea), o ANCOVA (nu am văzut niciodată pe nimeni să se abată de la a numi o analiză ANOVA atunci când cele două IV-uri categorice erau legate).

criticii care se agață de această presupunere sunt de obicei cei care doresc un nume specific. Modelul liniar general este prea ambiguu pentru ei. Am avut clienți care au trebuit să o numească regresie multiplă, chiar dacă principala variabilă independentă a fost cea categorică.

o opțiune este utilizarea „variabilei predictoare categorice” în loc de „variabilă independentă” atunci când descrie variabila din ANCOVA. Acesta din urmă implică manipulare; primul nu.

acesta este un caz în care merită să lupți pentru analiza ta, dar nu și pentru nume. Punctul de toate acestea este comunicarea rezultatelor cu exactitate.
semn de carte și cota

interpretarea coeficienților de regresie liniară: A Walk Through Output
aflați abordarea pentru înțelegerea coeficienților în acea regresie pe măsură ce parcurgem ieșirea unui model care include predictori numerici și categorici și o interacțiune.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *