Statistique Kappa pour mesurer l’accord au-delà du hasard dans les évaluations en réponse libre
Dérivation du kappa en réponse libre
Pour deux évaluateurs, la statistique kappa habituelle est (Po-Pe) / (1-Pe) où Po est la proportion de notations concordantes observées et Pe est la proportion attendue de notations concordantes dues au hasard seul. Lorsque la notation est dichotomique, les données peuvent être résumées dans un tableau 2 × 2. Désignons par a le nombre de résultats jugés négatifs par les deux évaluateurs, b et c le nombre de résultats jugés positifs par un évaluateur mais négatifs par l’autre, et d le nombre de résultats jugés positifs par les deux évaluateurs. Il existe donc des paires de notations a+d concordantes et des paires discordantes b+c parmi N paires d’observations. En supposant que les observations sont mutuellement indépendantes, Po est estimé par (a + d)/N et Pe par/N2. Ensuite, la statistique kappa (dans ce cas, le kappa de Cohen) est donnée par:
Lorsque les patients peuvent contribuer à plus d’une observation, les données sont regroupées. Yang et al ont proposé une statistique kappa obtenue à partir de la formule habituelle (Po-Pe) / (1-Pe) où Po est une moyenne pondérée des proportions d’accord sur les clusters (patients) et Pe est obtenue à partir de moyennes pondérées des proportions marginales des notes de chaque évaluateur. Avec cette approche, le kappa pour les données en cluster a la même estimation que lorsque le clustering est ignoré. Par conséquent, le tableau de base 2 × 2 est également approprié pour l’estimation de l’accord pour les données groupées.
Pour les évaluations en réponse libre, chaque évaluateur ne rapporte que des résultats positifs et le nombre a est inconnu. Il serait erroné de remplacer a par 0, comme si les évaluateurs ne s’étaient mis d’accord sur aucune observation négative; l’accord observé et le kappa seraient sous-estimés. Il serait également incorrect de simplement remplacer a par le nombre de patients sans résultat positif, car plusieurs sites de lésion potentiels existent chez chaque patient. Typiquement, on peut supposer que a est élevé dans les examens d’imagerie, car chaque sortie affiche un grand nombre de structures ou de sous-structures anatomiques ou fonctionnelles, chacune potentiellement positive ou négative. Par conséquent, le nombre de résultats positifs chez un patient donné est généralement faible par rapport au nombre potentiel d’anomalies pouvant survenir.
Nous proposons ici une statistique kappa qui décrit le kappa de Cohen comme une approche de l’infini. La dérivée partielle de la statistique kappa définie en Eq. (1) à l’égard d’un SI:
Cette dérivée partielle est positive, donc la statistique kappa augmente de manière monotone avec a. De plus, cette dérivée a une limite nulle lorsque a s’approche de l’infini, ce qui implique que le kappa la statistique a une limite finie lorsqu’elle s’approche de l’infini. Nous appelons cette limite le kappa à réponse libre (KFR). Par Eq. (1), KFR est le rapport de deux fonctions de a, f(a) = 2 (ad-bc) et g (a) = (b + c) (a + b + c + d) + 2 (ad-bc), qui s’approchent toutes deux de l’infini comme a s’approche de l’infini, de sorte que leur rapport est indéterminé. Par la règle de l’Hôpital, KFR est égal à la limite du rapport des dérivées partielles de f(a) et g(a) lorsque a s’approche de l’infini, ce qui s’avère être
Propriétés de la réponse libre kappa
KFRH possède plusieurs propriétés intéressantes . Cela ne dépend pas de a, mais seulement des observations positives b, c et d. Par conséquent, l’incertitude au sujet de a n’empêche pas l’estimation de l’accord au-delà du hasard si le nombre de constatations négatives peut être considéré comme très important.
Lors de l’interprétation de KFR, il est utile de considérer le nombre d’évaluations effectuées par chaque évaluateur individuellement. Le premier évaluateur a fait des observations positives c + d, et le deuxième évaluateur a fait des observations positives b + d. Par conséquent, le dénominateur b + c + 2d est le nombre total d’observations individuelles positives faites par les 2 évaluateurs, 2d est le nombre d’observations positives faites par l’un des évaluateurs qui ont été confirmées par l’autre, et b + c est le nombre d’observations positives faites par l’un des évaluateurs qui n’ont pas été confirmées par l’autre. KFR est donc la proportion d’observations individuelles positives confirmées parmi toutes les observations individuelles positives. Une statistique KFR de 0,5 signifie que la moitié des résultats positifs ont été confirmés par l’autre évaluateur, ce qui peut être considéré comme moyen, alors que 0.8 peut être considéré comme très bon. Ceci est conforme aux directives d’interprétation publiées pour le kappa de Cohen.
Lorsque les données sont groupées, KFR peut être obtenu directement en réduisant les tables 2 × 2 de tous les clusters en une seule table 2 × 2 et en appliquant Eq. (2). Le KFR regroupé est une moyenne pondérée des statistiques individuelles de kappa à réponse libre de patients avec au moins une observation positive (chaque patient est indexé par k):
où chaque poids vk représente la proportion d’évaluations positives chez le patient k parmi toutes les évaluations positives :
Il s’ensuit que les patients sans aucune lésion détectée ne contribuent pas à l’estimation du KFR; leur poids est nul. Par conséquent, le regroupement au niveau du patient n’a pas besoin d’être pris en compte pour calculer le KFR, et les patients sans résultat positif peuvent être ignorés.
A noter, l’équation pour KFR correspond à la proportion d’accord spécifique (positif) telle que décrite par Fleiss. Bien que l’équation soit identique, le but et l’interprétation sont différents. Pour Fleiss, l’accord positif spécifique (et également l’accord négatif spécifique) est une statistique complémentaire qui améliore l’interprétation de l’accord global. L’omission de doubles observations négatives est une décision a priori. Fait important, Fleiss s’intéresse à un accord observé, pas à un accord corrigé pour le hasard. Enfin, Fleiss n’aborde pas le contexte de réponse libre.
Variance de la réponse libre kappa
Comme KFR est lié par 0 et 1, nous avons d’abord normalisé l’estimateur en prenant le logit de KFR, c’est-à-dire ln(KFR/(1-KFR)). La variance du logit estimé(KFR), obtenu par la méthode delta (annexe 1) est :
Ainsi, un intervalle de confiance peut être obtenu pour logit (KFR), et les limites de confiance inférieure et supérieure rétrocédées à l’échelle d’origine.
Une autre approche consiste à utiliser la relation directe entre KFR et la proportion de paires d’observations congruentes parmi toutes les observations disponibles, p = d/ (b+c+d). On montre facilement que KFR = 2p/(1+p). Par conséquent, un intervalle de confiance de 95% peut être obtenu pour p, en utilisant n’importe quelle méthode disponible pour les proportions binomiales, y compris les méthodes exactes, et les limites de confiance peuvent ensuite être rétrocédées à l’échelle KFR.
Nous avons simulé les performances de trois méthodes d’intervalle de confiance pour des observations indépendantes à des valeurs KFR de 0,3, 0,5, 0,7 et 0.9, et pour les tailles d’échantillon (N = b + c + d) de 20, 50, 100 et 200. Pour chaque condition, nous avons généré 50’000 échantillons aléatoires à partir d’une distribution binomiale avec des paramètres N et p, où p a été défini par KFR/(2-KFR), qui est l’inverse de l’équation KFR = 2p/(1 + p). Pour chaque échantillon, nous avons calculé un intervalle de confiance de 95% en utilisant Eq. (3) pour le logit de KFR, et également en utilisant 2 méthodes pour le paramètre binomial p qui sont appropriées pour de petits échantillons dans lesquels des méthodes d’estimation asymptotiques peuvent donner des résultats incorrects: la méthode Agresti-Coull et la méthode de Clopper-Pearson. Pour chaque situation, nous rapportons la valeur simulée moyenne de KFR, la proportion d’intervalles de confiance qui incluent la valeur vraie et la largeur moyenne des intervalles de confiance.
Les trois méthodes ont donné de bons résultats (tableau 1). Intervalles de confiance basés sur l’égalisation. (3) avait une couverture réduite (0,932) lorsque la taille de l’échantillon et le KFR étaient tous deux petits. En effet, dans ce cas, 2% des échantillons étaient dégénérés (d = 0 ou d = N), et Eq. (3) ne pouvait pas être appliqué (si nous avions exclu ces échantillons, la couverture aurait été de 0,951). La méthode de Clopper-Pearson a produit les niveaux de couverture les plus élevés, mais cela s’est fait au détriment d’intervalles de confiance inutilement larges. Les intervalles de confiance étaient plus étroits pour l’égalisation. (3) et pour la méthode Agresti-Coull.
Il convient de noter que les valeurs moyennes du KFR observé étaient légèrement inférieures aux valeurs des paramètres, en particulier pour les échantillons de faible taille. En effet, nous avons simulé avec un paramètre fixe p, et KFR = 2p /(1 + p) est une fonction concave. Par l’inégalité de Jensen, l’espérance d’une fonction concave de p (c’est-à-dire la moyenne observée KFR) sera alors inférieure à la fonction de l’espérance de p (c’est-à-dire le KFR qui correspond au paramètre p).
Pour être valides, ces méthodes d’estimation nécessitent que les observations soient mutuellement indépendantes. Cela peut s’appliquer dans certaines circonstances: par exemple, si un test de dépistage jumelé est appliqué à une grande population et que seuls ceux ayant au moins un résultat positif sont référés pour une enquête plus approfondie. Mais pour la plupart des procédures d’imagerie, les données sont naturellement regroupées au sein des patients. Ensuite, la variance asymptotique proposée de KFR serait biaisée. En présence de clustering, une procédure d’amorçage peut être utilisée pour obtenir un intervalle de confiance (voir Annexe 2).