Quando suposições de ANCOVA são irrelevantes
de vez em quando, eu trabalho com um cliente que está preso entre uma determinada rocha estatística e um lugar difícil.
isso acontece quando eles estão tentando executar uma análise da covariância (ANCOVA) modelo porque eles têm uma variável categórica independente e uma covariada contínua.o problema surge quando um co-autor, membro do comité ou revisor insiste que ANCOVA é inapropriado nesta situação porque uma das seguintes suposições ANCOVA não são cumpridas:
1. A variável independente e a covariada são independentes uma da outra.
2. Não existe interacção entre a variável independente e a covariada.
Se você olhar para eles em qualquer projeto de livro de experimentos, que é geralmente onde você vai encontrar informações sobre ANOVA e ANCOVA, você realmente vai encontrar essas suposições. Então o crítico tem boas referências.
no entanto, este é um caso em que é importante parar e pensar se as suposições se aplicam à sua situação, e como lidar com a suposição afetará a análise e as conclusões que você pode tirar.
um exemplo
um exemplo muito simples disto pode ser um estudo que examina a diferença de altura das crianças que têm e não têm um parasita. Uma vez que um grande contribuinte para a altura das crianças é a idade, esta é uma importante variável de controle.
neste gráfico, você vê a relação entre a idade X1, no eixo x e a altura no eixo y com dois valores diferentes de x2, estado do parasita. X2=0 indica o grupo de crianças que têm o parasita e X2 = 1 é o grupo de crianças que não têm.
crianças mais novas tendem a ser afectadas pelo parasita com mais frequência. Ou seja, a Idade Média (Média de X1) dos pontos azuis é claramente menor do que a Idade Média das estrelas negras. Por outras palavras, as idades das crianças com o parasita são mais baixas do que as que não têm.assim, a independência entre a variável independente (estado parasita) e o covariato (idade) é claramente violada.
Como lidar com a violação dos pressupostos
estas são as suas opções:
1. Larga a covariação do modelo para não violares as suposições de ANCOVA e gerires uma ANOVA de Sentido Único. Esta parece ser a opção popular entre a maioria dos críticos.2. Mantenha tanto a covariada quanto a variável independente no modelo de qualquer maneira.3. Categorizar o covariato em idades baixas e altas, em seguida, executar uma ANOVA 2×2.
A Opção #3 é muitas vezes defendida, mas espero que em breve veja porque é desnecessária, na melhor das hipóteses. Dividir arbitrariamente uma variável numérica em categorias é apenas deitar fora boa informação.
vamos examinar a opção #1.
O problema com ele é mostrado no gráfico–ele não reflete com precisão os dados ou as relações entre as variáveis.com o covariato no modelo, estima-se a diferença na altura média para crianças com e sem o parasita para crianças com a mesma idade (altura da linha vermelha).se largar o covariato, a diferença na altura média é estimada na média global para cada grupo (a linha roxa).
por outras palavras, qualquer efeito da idade será adicionado ao efeito do Estado do parasita, e irá sobrestimar o efeito do parasita na diferença média nas alturas das crianças.por que é uma suposição, então?
você provavelmente está se perguntando ” Por que isso seria uma suposição de ANCOVA se remover o covariato nos leva a relações exageradas?”
para entender por que, precisamos investigar o problema que estas suposições estão abordando.
Na análise de covariância seção de Geoffrey Keppel do livro excelente, Design e Análise de Um Pesquisador do Manual, ele afirma:
é utilizada para realizar dois importantes ajustes: (1) aperfeiçoar as estimativas de erro experimental e (2) ajustar os efeitos do tratamento para quaisquer diferenças entre os grupos de tratamento existentes antes da administração dos tratamentos experimentais. Como os sujeitos foram distribuídos aleatoriamente para as condições de tratamento , esperaríamos encontrar diferenças relativamente pequenas entre os tratamentos na covariada e diferenças consideravelmente maiores na covariação entre os sujeitos dentro das diferentes condições de tratamento. Assim, espera-se que a análise da covariância alcance os seus maiores benefícios reduzindo a dimensão do termo de erro ; qualquer correção para diferenças pré-existentes produziu uma atribuição aleatória será pequena por comparação.
algumas páginas adiante ele afirma,
O principal critério para a covariável é uma substancial correlação linear com a variável dependente Y. Na maioria dos casos, as pontuações a covariável são obtidas antes do início do tratamento experimental…. Ocasionalmente, as pontuações são recolhidas após a conclusão da experiência. Tal procedimento só é defensável quando é certo que o tratamento experimental não influenciou o covariado … A análise da covariância baseia-se no pressuposto de que o covariato é independente dos tratamentos experimentais.
em outras palavras, trata-se de não manchar os resultados que podem ser desenhados por tratamentos manipulados experimentalmente. Se um covariato estivesse relacionado com o tratamento, indicaria um problema com a atribuição aleatória, ou indicaria que os próprios tratamentos causaram os valores covariados. Estas são considerações muito importantes nas experiências.se no entanto, como no nosso exemplo de parasita, a principal variável independente categórica é observada e não manipulada, a hipótese de independência entre a covariada e a variável independente é irrelevante.é uma suposição de design. Não é uma suposição modelo.
O único efeito da suposição da variável independente e da covariação ser independente é a forma como você interpreta os resultados.qual é então a solução adequada?
a resposta apropriada é #2-Mantenha a covariação na análise, e não interprete os resultados de um estudo observacional como se fossem de um experimento.ao fazê-lo, será feita uma estimativa mais precisa da relação real entre a variável independente e o resultado. Certifica-te que estás a dizer que esta é a diferença média a qualquer valor dado do covariato.
A última questão torna-se então: se o seu crítico baniu a palavra ANCOVA porque você não tem uma experiência, como você a chama?agora é só semântica. É preciso chamá-lo um modelo linear geral, uma regressão múltipla, ou (na minha opção), uma ANCOVA (eu nunca vi ninguém balk em chamar uma análise uma ANOVA quando os dois IVS categóricos estavam relacionados).
os críticos que ficam pendurados nesta suposição são geralmente aqueles que querem um nome específico. O modelo Linear geral é demasiado ambíguo para eles. Tive clientes que tiveram de lhe chamar regressão múltipla, apesar de a principal variável independente ser a categórica.
uma opção é usar “variável predictor categórica” em vez de “variável independente” ao descrever a variável em ANCOVA. O segundo implica manipulação; o primeiro não.este é um caso em que vale a pena lutar pela sua análise, mas não pelo nome. O objectivo de tudo isto é comunicar os resultados com precisão.