Articles

Estadístico Kappa para medir la concordancia más allá del azar en las evaluaciones de respuesta libre

Derivación del kappa de respuesta libre

Para dos evaluadores, el estadístico kappa habitual es (Po-Pe)/(1-Pe), donde Po es la proporción de calificaciones concordantes observadas y Pe es la proporción esperada de calificaciones concordantes debido únicamente al azar. Cuando la clasificación es dicotómica, los datos se pueden resumir en una tabla de 2 × 2. Denotemos por a el número de hallazgos calificados como negativos por ambos evaluadores, b y c el número de hallazgos calificados como positivos por un evaluador pero negativos por el otro, y d el número de hallazgos calificados como positivos por ambos evaluadores. Por lo tanto, hay pares concordantes de calificaciones a + d y pares discordantes b + c entre N pares de observaciones. Suponiendo que las observaciones son mutuamente independientes, el Po se estima por (a + d) /N y el Pe por / N2. Luego, la estadística kappa (en este caso, kappa de Cohen) viene dada por:

K K=\frac{2\left( ad – bc\right)}{\left( b+ c\right) N+2\left( ad – bc\right)} $ $
(1)

Cuando los pacientes pueden contribuir con más de una observación, los datos se agrupan. Yang et al propusieron un estadístico kappa obtenido a partir de la fórmula habitual (Po-Pe)/(1-Pe) donde Po es una media ponderada de las proporciones de concordancia sobre grupos (pacientes) y Pe se obtiene a partir de medias ponderadas de proporciones marginales de las calificaciones de cada evaluador. Con este enfoque, el kappa para datos agrupados tiene la misma estimación que cuando se ignora el agrupamiento. Por lo tanto, la tabla básica de 2 × 2 también es adecuada para estimar la concordancia de los datos agrupados.

Para las evaluaciones de respuesta libre, cada evaluador informa solo hallazgos positivos y se desconoce el número a. Sería un error reemplazar a por 0, como si los evaluadores no hubieran acordado ninguna observación negativa; tanto el acuerdo observado como el kappa se subestimarían. También sería incorrecto simplemente reemplazar a por el número de pacientes sin ningún resultado positivo, porque existen varios sitios potenciales de lesión en cada paciente. Por lo general, se puede suponer que a es alta en los exámenes por imágenes, porque cada salida muestra un gran número de estructuras o subestructuras anatómicas o funcionales, cada una potencialmente positiva o negativa. Por lo tanto, el número de hallazgos positivos en un paciente dado suele ser pequeño en comparación con el número potencial de anomalías que podrían ocurrir.

Proponemos aquí una estadística kappa que describe el kappa de Cohen como un acercamiento al infinito. La derivada parcial del estadístico kappa definido en la Ec. (1) con respecto a a es:

\\frac {\partial\widehat{K}} {\partial a}=\frac{2\left( b+ c\right)\left( b+ d\right)\left( c+ d\right)} {{\left}^2} This

Esta derivada parcial es positiva, por lo tanto, la estadística kappa aumenta monótonamente con a. Además, esta derivada tiene un límite nulo cuando a se acerca al infinito, lo que implica que la estadística tiene un límite finito a medida que se acerca al infinito. A este límite lo llamamos kappa de respuesta libre (KFR). Por Eq. (1), KFR es el cociente de dos funciones, f (a) = 2 (ad-bc) y g (a) = (b + c)(a + b + c + d) + 2 (ad-bc), ambos de los cuales enfoque infinito como los enfoques de infinito, de modo que su relación es indeterminado. Por la regla de L’Hôpital, KFR es igual al límite del cociente de las derivadas parciales de f (a) y g (a) como los enfoques de infinito, que resulta ser

$$ {K}_{FR}=\frac{2 d}{b+ c+2 d} $$
(2)

Propiedades de respuesta libre kappa

KFRhas varias propiedades interesantes. No depende de a, sino solo de las observaciones positivas b, c y d. Por lo tanto, la incertidumbre sobre a no excluye la estimación de la concordancia más allá del azar si el número de hallazgos negativos puede considerarse muy grande.

Al interpretar KFR, es útil considerar el número de calificaciones realizadas por cada evaluador individualmente. El primer evaluador hizo observaciones positivas c + d,y el segundo evaluador hizo observaciones positivas b + d. Por lo tanto, el denominador b + c + 2d es el número total de observaciones individuales positivas realizadas por los 2 evaluadores, 2d es el número de observaciones positivas realizadas por cualquiera de los evaluadores que fueron confirmadas por el otro, y b + c es el número de observaciones positivas realizadas por cualquiera de los evaluadores que no fueron confirmadas por el otro. KFR es, por lo tanto, la proporción de observaciones individuales positivas confirmadas entre todas las observaciones individuales positivas. Un estadístico KFR de 0,5 significa que la mitad de los resultados positivos fueron confirmados por el otro evaluador, que puede considerarse promedio, mientras que 0.8 podría considerarse muy bueno. Esto está en línea con las directrices de interpretación publicadas para kappa de Cohen .

Cuando los datos están agrupados, el KFR se puede obtener directamente colapsando las tablas de 2 × 2 de todos los clústeres en una sola tabla de 2 × 2 y aplicando la Ec. (2). El KFR agrupado es un promedio ponderado de las estadísticas kappa de respuesta libre individuales de pacientes con al menos una observación positiva (cada paciente está indexado por k):

$ $ {K}_{FR}={\displaystyle \sum_k}{v}_k\frac{2{d}_k}{b_k+{c}_k+2{d}_k}

donde cada peso vk representa la proporción de calificaciones positivas en el paciente k entre todas las calificaciones positivas:

$ $ {v}_k=\frac{b_k+{c}_k+2{d}_k}{b+ c+2 d}

De ello se desprende que los pacientes sin lesiones detectadas no contribuyen a la estimación de KFR; su peso es cero. Por lo tanto, no es necesario tener en cuenta la agrupación a nivel de paciente para calcular la RFCE, y los pacientes sin hallazgos positivos pueden ser ignorados.

Cabe destacar que la ecuación para KFR corresponde a la proporción de concordancia específica (positiva) descrita por Fleiss . Mientras que la ecuación es idéntica, el propósito y la interpretación son diferentes. Para Fleiss, el acuerdo positivo específico (y también el acuerdo negativo específico) es una estadística complementaria que mejora la interpretación del acuerdo general. La omisión de observaciones de doble negativa es una decisión a priori. Es importante destacar que Fleiss está interesado en el acuerdo observado, no en el acuerdo corregido por el azar. Por último, Fleiss no aborda el contexto de la respuesta libre.

Varianza del kappa de respuesta libre

Debido a que KFR está unido por 0 y 1, primero normalizamos el estimador tomando el logit de KFR, es decir, ln (KFR/(1-KFR)). La varianza del logit estimado (KFR), obtenida por el método delta (Apéndice 1) es:

$ $ V a r\left( logit\left({K}_{FR}\right)\right)=\frac{\left( b+ c+ d\right)}{\left( b+ c\right) d} $ $
(3)

Por lo tanto, se puede obtener un intervalo de confianza para logit (KFR), y los límites de confianza inferior y superior se vuelven a transformar a la escala original.

Un enfoque alternativo es hacer uso de la relación directa entre KFR y la proporción de pares congruentes de observaciones entre todas las observaciones disponibles, p = d/(b + c + d). Se muestra fácilmente que KFR = 2p / (1 + p). Por lo tanto, se puede obtener un intervalo de confianza del 95% para p, utilizando cualquier método disponible para proporciones binomiales, incluidos los métodos exactos, y los límites de confianza se pueden volver a transformar a la escala KFR.

Hemos simulado el rendimiento de tres métodos de intervalo de confianza para observaciones independientes a valores KFR de 0,3, 0,5, 0,7 y 0.9, y para tamaños de muestra (N = b + c + d) de 20, 50, 100 y 200. Para cada condición se generaron 50.000 muestras aleatorias a partir de una distribución binomial con parámetros N y p, donde p se definió por KFR/(2-KFR), que es la inversa de la ecuación KFR = 2p/(1 + p). Para cada muestra se calculó un intervalo de confianza del 95% utilizando la Ec. (3) para el logit de KFR, y también utilizando 2 métodos para el parámetro binomial p que son apropiados para muestras pequeñas en las que los métodos de estimación asintótica pueden dar resultados incorrectos: el método Agresti-Coull y el método Clopper-Pearson . Para cada situación, reportamos el valor simulado medio de KFR, la proporción de intervalos de confianza que incluyen el valor verdadero y la anchura media de los intervalos de confianza.

los tres métodos realizados (Tabla 1). Intervalos de confianza basados en la Ec. (3) tenía una cobertura reducida (0,932) cuando el tamaño de la muestra y el KFR eran pequeños. Esto se debe a que en este caso el 2% de las muestras eran degeneradas (d = 0 o d = N), y la Ec. (3)no se pudo aplicar (si hubiéramos excluido estas muestras, la cobertura habría sido de 0,951). El método Clopper-Pearson produjo los niveles más altos de cobertura, pero esto fue a expensas de intervalos de confianza innecesariamente amplios. Los intervalos de confianza fueron más estrechos para la Ec. (3) y para el método Agresti-Coull.

Tabla 1 Simulaciones de la cobertura y el ancho medio de intervalos de confianza del 95% para el kappa de respuesta libre en tamaños de muestra seleccionados (20, 50, 100, 200) y valores de kappa (0.3, 0.5, 0.7, 0.9), usando tres métodos: método delta (Ec. 3), Límites de confianza Agresti-Coull y límites de confianza Clopper-Pearson

Cabe destacar que los valores medios de KFR observados fueron ligeramente inferiores a los valores de los parámetros, especialmente en tamaños de muestra bajos. Esto se debe a que simulamos con un parámetro fijo p, y KFR = 2p / (1 + p) es una función cóncava. Por la desigualdad de Jensen, la expectativa de una función cóncava de p (es decir, la KFR media observada) será entonces menor que la función de la expectativa de p (es decir, la KFR que corresponde al parámetro p).

Para ser válidos, estos métodos de estimación requieren que las observaciones sean mutuamente independientes. Esto puede aplicarse en algunas circunstancias: por ejemplo, si se aplica una prueba de detección emparejada a una población grande, y solo aquellos con al menos un resultado positivo son remitidos para una investigación adicional. Sin embargo, para la mayoría de los procedimientos de diagnóstico por imágenes, los datos se agrupan naturalmente dentro de los pacientes. Entonces la varianza asintótica propuesta de KFR estaría sesgada. En presencia de agrupación, se puede utilizar un procedimiento de arranque para obtener un intervalo de confianza (véase el Apéndice 2).

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *