Kappa-Statistik zur Messung der Übereinstimmung jenseits des Zufalls bei Free-Response-Assessments
Ableitung der Free-Response-Kappa
Für zwei Rater ist die übliche Kappa-Statistik (Po-Pe) / (1-Pe) wobei Po der Anteil der beobachteten konkordanten Ratings und Pe der erwartete Anteil der allein durch Zufall bedingten konkordanten Ratings ist. Wenn die Bewertung dichotom ist, können die Daten in einer 2 × 2-Tabelle zusammengefasst werden. Bezeichnen wir mit a die Anzahl der Befunde, die von beiden Bewertern als negativ bewertet werden, b und c die Anzahl der Befunde, die von einem Bewerter als positiv, von dem anderen jedoch als negativ bewertet werden, und d die Anzahl der Befunde, die von beiden Bewertern als positiv bewertet werden. Es gibt daher a + d konkordante Bewertungspaare und b + c diskordante Paare unter N Beobachtungspaaren. Unter der Annahme, dass Beobachtungen voneinander unabhängig sind, wird Po durch (a + d) / N und Pe durch / N2 geschätzt. Dann wird die Kappa-Statistik (in diesem Fall Cohens Kappa) gegeben durch:
Wenn Patienten mehr als eine Beobachtung beitragen können, werden die Daten gruppiert. Schlug eine Kappa-Statistik vor, die aus der üblichen Formel (Po-Pe) / (1-Pe) erhalten wurde, wobei Po ein gewichteter Durchschnitt der Übereinstimmungsanteile über Cluster (Patienten) ist und Pe aus gewichteten Durchschnittswerten der Grenzanteile der Bewertungen jedes Bewerters erhalten wird. Bei diesem Ansatz hat die Kappa für gruppierte Daten dieselbe Schätzung wie bei ignorierter Clusterbildung. Daher ist die grundlegende 2 × 2-Tabelle auch für die Schätzung der Übereinstimmung für Clusterdaten geeignet.
Bei Free-Response-Bewertungen meldet jeder Rater nur positive Ergebnisse und die Zahl a ist unbekannt. Es wäre falsch, a durch 0 zu ersetzen, als hätten sich die Rater nicht auf eine negative Beobachtung geeinigt; Sowohl die beobachtete Übereinstimmung als auch Kappa würden unterschätzt. Es wäre auch falsch, a einfach durch die Anzahl der Patienten ohne positiven Befund zu ersetzen, da bei jedem Patienten mehrere potenzielle Läsionsstellen vorhanden sind. Typischerweise kann a bei bildgebenden Untersuchungen als hoch angenommen werden, da jeder Ausgang eine Vielzahl von anatomischen oder funktionellen Strukturen oder Substrukturen aufweist, die jeweils potentiell positiv oder negativ sind. Daher ist die Anzahl der positiven Befunde bei einem bestimmten Patienten im Vergleich zur potenziellen Anzahl der möglicherweise auftretenden Anomalien normalerweise gering.
Wir schlagen hier eine Kappa-Statistik vor, die Cohens Kappa als relative Unendlichkeit beschreibt. Die partielle Ableitung der Kappa-Statistik definiert in Gl. (1) in Bezug auf a ist:
Diese partielle Ableitung ist positiv, daher steigt die Kappa-Statistik monoton mit a. Darüber hinaus hat diese Ableitung eine Nullgrenze, da a sich der Unendlichkeit nähert, was bedeutet, dass die Kappa- die Statistik hat eine endliche Grenze, da sie sich der Unendlichkeit nähert. Wir nennen diese Grenze die Free-Response-Kappa (KFR). Pro Gl. (1) ist KFR das Verhältnis zweier Funktionen von a, f (a) = 2 (ad-bc) und g (a) = (b + c) (a + b + c + d) + 2 (ad-bc), die sich beide der Unendlichkeit nähern, wenn sich a der Unendlichkeit nähert, so dass ihr Verhältnis unbestimmt ist. Nach der L’Hôpital-Regel entspricht KFR der Grenze des Verhältnisses der partiellen Ableitungen von f (a) und g (a) als a = unendlich, was sich als
Eigenschaften von Kappa mit freier Antwort
KFRhat mehrere interessante Eigenschaften. Es hängt nicht von a ab, sondern nur von den positiven Beobachtungen b, c und d. Daher schließt die Unsicherheit über a die Schätzung der Übereinstimmung über den Zufall hinaus nicht aus, wenn die Anzahl der negativen Befunde als sehr groß angesehen werden kann.
Bei der Interpretation von KFR ist es hilfreich, die Anzahl der Bewertungen jedes Bewerters einzeln zu berücksichtigen. Der erste Rater machte c + d positive Beobachtungen, und der zweite Rater machte b + d positive Beobachtungen. Daher ist der Nenner b + c + 2d die Gesamtzahl der positiven Einzelbeobachtungen der 2 Rater, 2d ist die Anzahl der positiven Beobachtungen beider Rater, die vom anderen bestätigt wurden, und b + c ist die Anzahl der positiven Beobachtungen beider Rater, die vom anderen nicht bestätigt wurden. KFR ist somit der Anteil der bestätigten positiven Einzelbeobachtungen an allen positiven Einzelbeobachtungen. Eine KFR-Statistik von 0,5 bedeutet, dass die Hälfte der positiven Befunde vom anderen Rater bestätigt wurde, was als durchschnittlich angesehen werden kann, während 0.8 kann als sehr gut angesehen werden. Dies entspricht den veröffentlichten Interpretationsrichtlinien für Cohens Kappa .
Wenn die Daten gruppiert sind, kann KFR direkt erhalten werden, indem die 2 × 2-Tabellen aller Cluster in einer einzigen 2 × 2-Tabelle zusammengefasst und Gl angewendet werden. (2). Die gepoolte KFR ist ein gewichteter Durchschnitt der individuellen Kappa-Statistiken mit freiem Ansprechen von Patienten mit mindestens einer positiven Beobachtung (jeder Patient wird durch k indiziert):
wobei jedes Gewicht vk den Anteil der positiven Bewertungen bei Patient k an allen positiven Bewertungen darstellt:
Daraus folgt, dass Patienten ohne erkannte Läsionen nicht zur Schätzung der KFR beitragen; ihr Gewicht ist Null. Daher muss das Clustering auf Patientenebene nicht berücksichtigt werden, um KFR zu berechnen, und Patienten ohne positiven Befund können ignoriert werden.
Bemerkenswert ist, dass die Gleichung für KFR dem Anteil der spezifischen (positiven) Übereinstimmung entspricht, wie von Fleiss beschrieben. Während die Gleichung identisch ist, sind Zweck und Interpretation unterschiedlich. Für Fleiss ist die spezifische positive Vereinbarung (und auch die spezifische negative Vereinbarung) eine ergänzende Statistik, die die Interpretation der Gesamtvereinbarung verbessert. Das Weglassen von doppelt negativen Beobachtungen ist eine a priori Entscheidung. Wichtig ist, dass Fleiss an einer beobachteten Vereinbarung interessiert ist, nicht an einer für den Zufall korrigierten Vereinbarung. Schließlich geht Fleiss nicht auf den Kontext der freien Antwort ein.
Varianz der freien Antwort kappa
Da KFR an 0 und 1 gebunden ist, haben wir zuerst den Schätzer normalisiert, indem wir den Logit von KFR genommen haben, d. h. ln (KFR/(1- KFR)). Die Varianz des geschätzten logit (KFR), erhalten durch die Delta-Methode (Anhang 1) ist:
Somit kann ein Konfidenzintervall für logit (KFR) , und die unteren und oberen Konfidenzgrenzen werden auf die ursprüngliche Skala zurücktransformiert.Ein alternativer Ansatz besteht darin, die direkte Beziehung zwischen KFR und dem Anteil kongruenter Beobachtungspaare unter allen verfügbaren Beobachtungen zu nutzen, p = d/(b + c + d). Es ist leicht zu zeigen, dass KFR = 2p /(1 + p). Daher kann ein 95% -Konfidenzintervall für p erhalten werden, wobei jede verfügbare Methode für Binomialproportionen einschließlich exakter Methoden verwendet wird, und die Konfidenzgrenzen können dann auf die KFR-Skala zurücktransformiert werden.
Wir haben die Leistung von drei Konfidenzintervallmethoden für unabhängige Beobachtungen bei KFR-Werten von 0,3, 0,5, 0,7 und 0 simuliert.9 und für Stichprobengrößen (N = b + c + d) von 20, 50, 100 und 200. Für jede Bedingung generierten wir 50’000 Zufallsstichproben aus einer Binomialverteilung mit den Parametern N und p, wobei p durch KFR / (2-KFR) definiert wurde, was die Umkehrung der Gleichung KFR = 2p /(1 + p) ist. Für jede Probe berechneten wir ein 95% -Konfidenzintervall mit Eq. (3) für das Logit von KFR und auch unter Verwendung von 2 Methoden für den Binomialparameter p, die für kleine Stichproben geeignet sind, bei denen asymptotische Schätzmethoden zu falschen Ergebnissen führen können: die Agresti-Coull-Methode und die Clopper-Pearson-Methode . Für jede Situation berichten wir den mittleren simulierten Wert von KFR, den Anteil der Konfidenzintervalle, die den wahren Wert enthalten, und die mittlere Breite der Konfidenzintervalle.
Alle drei Methoden zeigten eine gute Leistung (Tabelle 1). Konfidenzintervalle basierend auf Gl. (3) hatte eine verringerte Abdeckung (0,932), wenn die Stichprobengröße und die KFR beide klein waren. Dies liegt daran, dass in diesem Fall 2% der Proben degeneriert waren (d = 0 oder d = N) und Gl. (3) konnte nicht angewendet werden (wenn wir diese Proben ausgeschlossen hätten, hätte die Abdeckung 0,951 betragen). Die Clopper-Pearson-Methode erzeugte die höchste Abdeckung, dies ging jedoch zu Lasten unnötig breiter Konfidenzintervalle. Die Konfidenzintervalle waren für Gl. (3) und für das Agresti-Coull-Verfahren.
Bemerkenswert ist, dass die Mittelwerte der beobachteten KFR leicht unter den Parameterwerten lagen, insbesondere bei niedrigen Stichprobengrößen. Dies liegt daran, dass wir mit einem festen Parameter p simuliert haben und KFR = 2p / (1 + p) eine konkave Funktion ist. Durch die Jensen-Ungleichung ist die Erwartung einer konkaven Funktion von p (d. h. der mittleren beobachteten KFR) dann kleiner als die Funktion der Erwartung von p (d. h. der KFR, die dem Parameter p entspricht).
Um gültig zu sein, erfordern diese Schätzmethoden, dass Beobachtungen voneinander unabhängig sind. Dies kann unter bestimmten Umständen zutreffen: z. B. wenn ein gepaarter Screening-Test auf eine große Population angewendet wird und nur diejenigen mit mindestens einem positiven Ergebnis zur weiteren Untersuchung überwiesen werden. Bei den meisten bildgebenden Verfahren sind die Daten jedoch natürlich innerhalb der Patienten gruppiert. Dann wäre die vorgeschlagene asymptotische Varianz von KFR voreingenommen. Bei Vorliegen eines Clusters kann ein Bootstrap-Verfahren verwendet werden, um ein Konfidenzintervall zu erhalten (siehe Anhang 2).