Cuando las suposiciones de ANCOVA son Irrelevantes
De vez en cuando, trabajo con un cliente que está atrapado entre una roca estadística particular y un lugar difícil.
Sucede cuando intentan ejecutar un modelo de análisis de covarianza (ANCOVA) porque tienen una variable independiente categórica y una covariable continua.
El problema surge cuando un coautor, miembro del comité o revisor insiste en que ANCOVA es inapropiado en esta situación porque no se cumple una de las siguientes suposiciones de ANCOVA:
1. La variable independiente y la covariable son independientes entre sí.
2. No hay interacción entre la variable independiente y la covariable.
Si los busca en cualquier libro de texto de diseño de experimentos, que generalmente es donde encontrará información sobre ANOVA y ANCOVA, de hecho encontrará estas suposiciones. Así que el crítico tiene buenas referencias.
Sin embargo, este es un caso en el que es importante detenerse y pensar si las suposiciones se aplican a su situación, y cómo lidiar con las suposiciones afectará el análisis y las conclusiones que puede sacar.
Un ejemplo
Un ejemplo muy simple de esto podría ser un estudio que examine la diferencia de altura de los niños que tienen y no tienen un parásito. Dado que la edad es un factor que contribuye en gran medida a la estatura de los niños, esta es una variable de control importante.
En este gráfico, se ve la relación entre la edad X1, en el eje x y la altura en el eje y en dos valores diferentes de X2, estado del parásito. X2 = 0 indica el grupo de niños que tienen el parásito y X2=1 es el grupo de niños que no lo tienen.
Los niños más pequeños tienden a padecer el parásito con más frecuencia. Es decir, la edad media (media de X1) de los puntos azules es claramente inferior a la edad media de las estrellas negras. En otras palabras, las edades de los niños con el parásito son más bajas que las de los que no lo tienen.
Por lo tanto, la independencia entre la variable independiente (estado del parásito) y la covariable (edad) se viola claramente.
Cómo Lidiar con la Violación de los Supuestos
Estas son sus opciones:
1. Suelta la covariable del modelo para que no violes las suposiciones de ANCOVA y ejecuta una ANOVA unidireccional. Esta parece ser la opción popular entre la mayoría de los críticos.
2. Conserve tanto la covariable como la variable independiente en el modelo de todos modos.
3. Categorice la covariable en edades bajas y altas, luego ejecute un ANOVA de 2×2.
A menudo se defiende la opción #3, pero espero que pronto vea por qué es innecesaria, en el mejor de los casos. Dividir arbitrariamente una variable numérica en categorías es simplemente tirar buena información.
Examinemos la opción # 1.
El problema se muestra en el gráfico: no refleja con precisión los datos o las relaciones entre las variables.
Con la covariable en el modelo, la diferencia en la altura media para niños con y sin el parásito se estima para niños de la misma edad (la altura de la línea roja).
Si se elimina la covariable, la diferencia en la altura media se estima en la media general para cada grupo (la línea púrpura).
En otras palabras, cualquier efecto de la edad se agregará al efecto del estado del parásito, y exagerará el efecto del parásito en la diferencia de medias en las alturas de los niños.
¿Por qué es una suposición, entonces?
Probablemente te estés preguntando «¿por qué diablos sería esto una suposición de ANCOVA si eliminar la covariable nos lleva a sobreestatizar las relaciones?»
Para entender por qué, necesitamos investigar el problema que estas suposiciones están abordando.
En la sección análisis de covarianza del excelente libro de Geoffrey Keppel, Design and Analysis: A Researcher’s Handbook, afirma:
Se utiliza para realizar dos ajustes importantes: (1) refinar las estimaciones del error experimental y (2) ajustar los efectos del tratamiento para cualquier diferencia entre los grupos de tratamiento que existiera antes de la administración de los tratamientos experimentales. Debido a que los sujetos se asignaron aleatoriamente a las condiciones de tratamiento , esperaríamos encontrar diferencias relativamente pequeñas entre los tratamientos en la covariable y diferencias considerablemente mayores en la covariable entre los sujetos dentro de las diferentes condiciones de tratamiento. Por lo tanto, se espera que el análisis de covarianza logre sus mayores beneficios al reducir el tamaño del término de error ; cualquier corrección de diferencias preexistentes producida por una asignación aleatoria será pequeña en comparación.
Unas páginas más tarde afirma,
El criterio principal para una covariable es una correlación lineal sustancial con la variable dependiente, Y. En la mayoría de los casos, las puntuaciones de la covariable se obtienen antes del inicio del tratamiento experimental…. Ocasionalmente, las puntuaciones se recopilan después de que se completa el experimento. Tal procedimiento es defendible solo cuando se tiene la certeza de que el tratamiento experimental no influyó en la covariable….El análisis de la covarianza se basa en el supuesto de que la covariable es independiente de los tratamientos experimentales.
En otras palabras, se trata de no contaminar los resultados que se pueden obtener mediante tratamientos manipulados experimentalmente. Si una covariable estaba relacionada con el tratamiento, indicaría un problema con la asignación aleatoria, o indicaría que los propios tratamientos causaron los valores de la covariable. Estas son consideraciones muy importantes en los experimentos.
Sin embargo, si, como en nuestro ejemplo de parásito, la variable independiente categórica principal se observa y no se manipula, el supuesto de independencia entre la covariable y la variable independiente es irrelevante.
Es una suposición de diseño. No es una suposición modelo.
El único efecto de la suposición de que la variable independiente y la covariable son independientes es en cómo se interpretan los resultados.
Entonces, ¿cuál es la solución adecuada?
La respuesta apropiada es #2: mantenga la covariable en el análisis y no interprete los resultados de un estudio observacional como si fueran de un experimento.
Hacerlo llevará a una estimación más precisa de la relación real entre la variable independiente y el resultado. Solo asegúrese de que está diciendo que esta es la diferencia de media en cualquier valor dado de la covariable.
El último número se convierte en: Si tu crítico ha prohibido la palabra ANCOVA porque no tienes un experimento, ¿cómo lo llamas?
Ahora todo se reduce a la semántica. Es preciso llamarlo un modelo lineal general, una regresión múltiple o (en mi opción), un ANCOVA (Nunca he visto a nadie negarse a llamar ANOVA a un análisis cuando las dos vías intravenosas categóricas estaban relacionadas).
Los críticos que se cuelgan de esta suposición son generalmente los que quieren un nombre específico. El Modelo lineal General es demasiado ambiguo para ellos. He tenido clientes que tuvieron que llamarlo regresión múltiple, a pesar de que la variable independiente principal era la categórica.
Una opción es usar » variable predictora categórica «en lugar de» variable independiente » al describir la variable en ANCOVA. Lo último implica manipulación; lo primero no.
Este es un caso en el que vale la pena luchar por tu análisis, pero no por el nombre. El objetivo de todo esto es comunicar los resultados con precisión.