Articles

Quando le ipotesi di ANCOVA sono irrilevanti

Ogni tanto, lavoro con un cliente che è bloccato tra una particolare roccia statistica e un luogo difficile.

Succede quando stanno cercando di eseguire un’analisi del modello di covarianza (ANCOVA) perché hanno una variabile indipendente categoriale e una covariata continua.

Il problema sorge quando un coautore, un membro del comitato o un revisore insiste sul fatto che ANCOVA è inappropriato in questa situazione perché una delle seguenti ipotesi ANCOVA non è soddisfatta:

1. La variabile indipendente e la covariata sono indipendenti l’una dall’altra.

2. Non c’è interazione tra la variabile indipendente e la covariata.

Se li cerchi in qualsiasi libro di testo di design of experiments, che di solito è dove troverai informazioni su ANOVA e ANCOVA, troverai davvero queste ipotesi. Quindi il critico ha dei bei riferimenti.

Tuttavia, questo è un caso in cui è importante fermarsi e pensare se le ipotesi si applicano alla tua situazione e in che modo trattare l’ipotesi influenzerà l’analisi e le conclusioni che puoi trarre. se le ipotesi si applicano alla tua situazione e come trattare l'ipotesi influenzerà l'analisi e le conclusioni che puoi trarre.

Un esempio

Un esempio molto semplice di questo potrebbe essere uno studio che esamina la differenza di altezza dei bambini che fanno e non hanno un parassita. Poiché un grande contributo all’altezza dei bambini è l’età, questa è un’importante variabile di controllo.

In questo grafico, si vede la relazione tra età X1, sull’asse x e altezza sull’asse y a due diversi valori di X2, stato parassita. X2 = 0 indica il gruppo di bambini che hanno il parassita e X2=1 è il gruppo di bambini che non lo fanno.

Associazione senza interazione

I bambini più piccoli tendono ad essere afflitti dal parassita più spesso. Cioè, l’età media (media di X1) dei punti blu è chiaramente inferiore all’età media delle stelle nere. In altre parole, le età dei bambini con il parassita sono inferiori a quelle senza.

Quindi l’indipendenza tra la variabile indipendente (stato parassita) e la covariata (età) è chiaramente violata.

Come affrontare la violazione delle ipotesi

Queste sono le tue opzioni:

1. Rilascia la covariata dal modello in modo da non violare le ipotesi di ANCOVA ed eseguire un ANOVA a senso unico. Questa sembra essere l’opzione popolare tra la maggior parte dei critici.

2. Mantenere comunque sia la covariata che la variabile indipendente nel modello.

3. Categorizza la covariata in età bassa e alta, quindi esegui un ANOVA 2×2.

L’opzione # 3 è spesso sostenuta, ma spero che presto capirai perché non è necessaria, nella migliore delle ipotesi. Suddividere arbitrariamente una variabile numerica in categorie significa semplicemente buttare via buone informazioni.

Esaminiamo l’opzione #1.

Il problema con esso è mostrato nel grafico–non riflette accuratamente i dati o le relazioni tra le variabili.

Con la covariata nel modello, la differenza nell’altezza media per i bambini con e senza il parassita è stimata per i bambini della stessa età (l’altezza della linea rossa).

Se si rilascia la covariata, la differenza di altezza media viene stimata alla media complessiva per ciascun gruppo (la linea viola).

In altre parole, qualsiasi effetto dell’età verrà aggiunto all’effetto dello stato del parassita e sopravvaluterai l’effetto del parassita sulla differenza media nelle altezze dei bambini.

Perché è un’ipotesi, allora?

Probabilmente ti stai chiedendo ” perché mai questa sarebbe un’ipotesi di ANCOVA se rimuovere la covariata ci porta a sovrastimare le relazioni?”

Per capire perché, dobbiamo indagare sul problema che questa ipotesi sta affrontando.

Nella sezione analysis of covariance dell’eccellente libro di Geoffrey Keppel, Design and Analysis: A Researcher’s Handbook, afferma:

È usato per realizzare due importanti aggiustamenti: (1) per affinare le stime di errore sperimentale e (2) per regolare gli effetti del trattamento per eventuali differenze tra i gruppi di trattamento che esistevano prima che i trattamenti sperimentali sono stati somministrati. Poiché i soggetti sono stati assegnati in modo casuale alle condizioni di trattamento, ci aspetteremmo di trovare differenze relativamente piccole tra i trattamenti sulla covariata e differenze considerevolmente più grandi sulla covariata tra i soggetti all’interno delle diverse condizioni di trattamento. Pertanto l’analisi della covarianza dovrebbe raggiungere i suoi maggiori benefici riducendo la dimensione del termine di errore ; qualsiasi correzione per differenze preesistenti ha prodotto un’assegnazione casuale sarà piccola al confronto.

Un paio di pagine più avanti, egli afferma,

Il criterio principale per una covariata è una sostanziale correlazione lineare con la variabile dipendente Y. Nella maggior parte dei casi, i punteggi sulla covariata sono ottenuti prima dell’inizio del trattamento sperimentale…. Occasionalmente i punteggi vengono raccolti dopo il completamento dell’esperimento. Tale procedura è difendibile solo quando è certo che il trattamento sperimentale non ha influenzato la covariata….L’analisi della covarianza si basa sul presupposto che la covariata sia indipendente dai trattamenti sperimentali.

In altre parole, si tratta di non contaminare i risultati che possono essere disegnati da trattamenti manipolati sperimentalmente. Se una covariata fosse correlata al trattamento, indicherebbe un problema con l’assegnazione casuale o indicherebbe che i trattamenti stessi hanno causato i valori covariati. Queste sono considerazioni molto importanti negli esperimenti.

Se tuttavia, come nel nostro esempio parassita, la variabile indipendente categoriale principale viene osservata e non manipolata, l’assunzione di indipendenza tra la covariata e la variabile indipendente è irrilevante.

È un’ipotesi di progettazione. Non è un’ipotesi modello.

L’unico effetto dell’assunzione della variabile indipendente e della covariata indipendente è nel modo in cui si interpretano i risultati.

Quindi qual è la soluzione appropriata?

La risposta appropriata è #2–mantenere la covariata nell’analisi e non interpretare i risultati di uno studio osservazionale come se fossero di un esperimento.

In questo modo si otterrà una stima più accurata della relazione reale tra la variabile indipendente e il risultato. Assicurati solo di dire che questa è la differenza media in un dato valore della covariata.

L’ultimo numero diventa quindi: Se il tuo critico ha vietato la parola ANCOVA perché non hai un esperimento, come la chiami?

Ora tocca alla semantica. È preciso chiamarlo un modello lineare generale, una regressione multipla o (nella mia opzione), un ANCOVA (non ho mai visto nessuno esitato a chiamare un’analisi ANOVA quando i due IV categorici erano correlati).

I critici che vengono appesi a questa ipotesi sono di solito quelli che vogliono un nome specifico. Il modello lineare generale è troppo ambiguo per loro. Ho avuto clienti che hanno dovuto chiamarlo regressione multipla, anche se la variabile indipendente principale era quella categorica.

Un’opzione è usare “variabile predittiva categoriale” invece di “variabile indipendente” quando si descrive la variabile nell’ANCOVA. Quest’ultimo implica la manipolazione; il primo no.

Questo è un caso in cui vale la pena combattere per la tua analisi, ma non il nome. Il punto di tutto questo è comunicare i risultati in modo accurato.
Bookmark and Share

Interpretazione Coefficienti di Regressione Lineare: A Walk Through Output
Impara l’approccio per comprendere i coefficienti in quella regressione mentre camminiamo attraverso l’output di un modello che include predittori numerici e categorici e un’interazione.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *