Articles

Lorsque les hypothèses d’ANCOVA ne sont pas pertinentes

De temps en temps, je travaille avec un client coincé entre un rocher statistique particulier et un endroit difficile.

Cela se produit lorsqu’ils essaient d’exécuter un modèle d’analyse de covariance (ANCOVA) car ils ont une variable indépendante catégorielle et une covariable continue.

Le problème se pose lorsqu’un coauteur, un membre du comité ou un examinateur insiste sur le fait que l’ANCOVA est inappropriée dans cette situation car l’une des hypothèses ANCOVA suivantes n’est pas remplie :

1. La variable indépendante et la covariable sont indépendantes l’une de l’autre.

2. Il n’y a pas d’interaction entre la variable indépendante et la covariable.

Si vous les recherchez dans n’importe quel manuel de conception d’expériences, qui est généralement l’endroit où vous trouverez des informations sur ANOVA et ANCOVA, vous trouverez en effet ces hypothèses. Le critique a donc de belles références.

Cependant, il s’agit d’un cas où il est important de s’arrêter et de réfléchir à la question de savoir si les hypothèses s’appliquent à votre situation, et comment le traitement de l’hypothèse affectera l’analyse et les conclusions que vous pouvez tirer. si les hypothèses s'appliquent à votre situation et comment traiter l'hypothèse affectera l'analyse et les conclusions que vous pouvez tirer.

Un exemple

Un exemple très simple de ceci pourrait être une étude qui examine la différence de hauteur des enfants qui ont ou non un parasite. Étant donné que l’âge est un facteur important de la taille des enfants, il s’agit d’une variable de contrôle importante.

Dans ce graphique, vous voyez la relation entre l’âge X1, sur l’axe des abscisses et la hauteur sur l’axe des ordonnées à deux valeurs différentes de X2, statut du parasite. X2 = 0 indique le groupe d’enfants qui ont le parasite et X2 = 1 est le groupe d’enfants qui n’en ont pas.

Association sans interaction

Les enfants plus jeunes ont tendance à être plus souvent atteints du parasite. Autrement dit, l’âge moyen (moyenne de X1) des points bleus est clairement inférieur à l’âge moyen des étoiles noires. En d’autres termes, les âges des enfants atteints du parasite sont inférieurs à ceux qui n’en ont pas.

Ainsi, l’indépendance entre la variable indépendante (statut du parasite) et la covariable (âge) est clairement violée.

Comment gérer la violation des hypothèses

Voici vos options:

1. Supprimez la covariable du modèle afin de ne pas violer les hypothèses d’ANCOVA et exécutez une ANOVA à sens unique. Cela semble être l’option populaire parmi la plupart des critiques.

2. Conservez de toute façon la covariable et la variable indépendante dans le modèle.

3. Classez la covariable en âges bas et élevés, puis exécutez une ANOVA 2×2.

L’option #3 est souvent préconisée, mais j’espère que vous comprendrez bientôt pourquoi elle n’est pas nécessaire, au mieux. Diviser arbitrairement une variable numérique en catégories ne fait que jeter de bonnes informations.

Examinons l’option #1.

Le problème est montré dans le graphique – il ne reflète pas avec précision les données ou les relations entre les variables.

Avec la covariable du modèle, la différence de taille moyenne pour les enfants avec et sans le parasite est estimée pour les enfants du même âge (la hauteur de la ligne rouge).

Si vous supprimez la covariable, la différence de hauteur moyenne est estimée à la moyenne globale de chaque groupe (la ligne violette).

En d’autres termes, tout effet de l’âge sera ajouté à l’effet du statut du parasite, et vous exagérerez l’effet du parasite sur la différence moyenne de hauteur des enfants.

Pourquoi est-ce une hypothèse, alors?

Vous vous demandez probablement « pourquoi diable serait-ce une hypothèse d’ANCOVA si la suppression de la covariable nous conduit à surestimer les relations?”

Pour comprendre pourquoi, nous devons étudier le problème auquel ces hypothèses répondent.

Dans la section Analyse de la covariance de l’excellent livre de Geoffrey Keppel, Design and Analysis:A Researcher’s Handbook, il déclare:

Il est utilisé pour effectuer deux ajustements importants: (1) affiner les estimations des erreurs expérimentales et (2) ajuster les effets du traitement pour tenir compte des différences entre les groupes de traitement qui existaient avant l’administration des traitements expérimentaux. Étant donné que les sujets ont été assignés au hasard aux conditions de traitement, nous nous attendrions à trouver des différences relativement faibles entre les traitements sur la covariable et des différences considérablement plus importantes sur la covariable entre les sujets dans les différentes conditions de traitement. Ainsi, l’analyse de la covariance devrait obtenir ses plus grands avantages en réduisant la taille du terme d’erreur ; toute correction pour des différences préexistantes résultant d’une affectation aléatoire sera faible par comparaison.

Quelques pages plus loin, il déclare,

Le critère principal d’une covariable est une corrélation linéaire substantielle avec la variable dépendante, Y. Dans la plupart des cas, les scores sur la covariable sont obtenus avant l’initiation du traitement expérimental…. De temps en temps, les scores sont rassemblés une fois l’expérience terminée. Une telle procédure n’est défendable que lorsqu’il est certain que le traitement expérimental n’a pas influencé la covariable….L’analyse de la covariance repose sur l’hypothèse que la covariable est indépendante des traitements expérimentaux.

En d’autres termes, il s’agit de ne pas entacher les résultats qui peuvent être tirés par des traitements manipulés expérimentalement. Si une covariable était liée au traitement, cela indiquerait un problème d’attribution aléatoire, ou cela indiquerait que les traitements eux-mêmes sont à l’origine des valeurs de covariable. Ce sont des considérations très importantes dans les expériences.

Si cependant, comme dans notre exemple de parasite, la variable indépendante catégorielle principale est observée et non manipulée, l’hypothèse d’indépendance entre la covariable et la variable indépendante n’est pas pertinente.

C’est une hypothèse de conception. Ce n’est pas une hypothèse modèle.

Le seul effet de l’hypothèse que la variable indépendante et la covariable sont indépendantes est dans la façon dont vous interprétez les résultats.

Alors quelle est la solution appropriée?

La réponse appropriée est #2 – gardez la covariable dans l’analyse et n’interprétez pas les résultats d’une étude observationnelle comme s’ils provenaient d’une expérience.

Cela conduira à une estimation plus précise de la relation réelle entre la variable indépendante et le résultat. Assurez-vous simplement que vous dites qu’il s’agit de la différence moyenne à une valeur donnée de la covariable.

Le dernier problème devient alors: Si votre critique a banni le mot ANCOVA parce que vous n’avez pas d’expérience, comment l’appelez-vous?

Maintenant, c’est à la sémantique. Il est exact de l’appeler un modèle linéaire général, une régression multiple ou (dans mon option), une ANCOVA (je n’ai jamais vu quelqu’un rechigner à appeler une analyse une ANOVA lorsque les deux IV catégoriques étaient liées).

Les critiques qui s’accrochent à cette hypothèse sont généralement ceux qui veulent un nom spécifique. Le modèle linéaire général est trop ambigu pour eux. J’ai eu des clients qui ont dû appeler cela une régression multiple, même si la principale variable indépendante était la variable catégorielle.

Une option consiste à utiliser « variable prédictive catégorielle” au lieu de « variable indépendante” lors de la description de la variable dans l’ANCOVA. Ce dernier implique une manipulation; le premier ne le fait pas.

C’est un cas où cela vaut la peine de se battre pour votre analyse, mais pas le nom. Le but de tout cela est de communiquer les résultats avec précision.
Signet et partage

Interprétation des Coefficients de Régression Linéaire: Une promenade à travers la sortie
Apprenez l’approche pour comprendre les coefficients de cette régression en parcourant la sortie d’un modèle qui inclut des prédicteurs numériques et catégoriels et une interaction.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *