Kappa statistics to measure agreement beyond chance in free-response assessments
Derywation of the free-response kappa
w przypadku dwóch raterów, zwyczajową statystyką kappa jest (Po-Pe)/(1-Pe), gdzie Po jest proporcją obserwowanych ocen zgodnych, a Pe jest oczekiwanym odsetkiem ocen zgodnych ze względu na sam przypadek. Gdy ocena jest dychotomiczna, dane można podsumować w tabeli 2 × 2. Oznaczmy przez a liczbę ustaleń, które są oceniane jako negatywne przez obu raterów, b I c liczbę ustaleń ocenionych jako pozytywne przez jednego Ratera, ale ujemne przez drugiego, a d liczbę ustaleń ocenionych jako pozytywne przez obu raterów. Istnieją zatem pary zbieżne a + d ocen i pary rozbieżne B + c wśród N par obserwacji. Zakładając, że obserwacje są wzajemnie niezależne, Po jest szacowane przez (a + d)/N, A Pe przez /N2. Następnie statystyka kappa (w tym przypadku kappa Cohena) jest dana przez:
kiedy pacjenci mogą wnieść więcej niż jedną obserwację, dane są grupowane. Yang i wsp. zaproponowali statystykę kappa otrzymaną ze zwykłego wzoru (Po-Pe)/(1-Pe), gdzie Po jest średnią ważoną proporcji porozumienia nad klastrami (pacjentami), a Pe otrzymuje się ze średnich ważonych marginalnych proporcji ocen każdego Ratera. Dzięki takiemu podejściu kappa dla danych klastrowych ma takie samo oszacowanie, jak w przypadku ignorowania klastrowania. W związku z tym podstawowa tabela 2 × 2 jest również odpowiednia do oszacowania umowy dla danych grupowych.
w przypadku oceny wolnej odpowiedzi każdy rater zgłasza tylko pozytywne wyniki, a liczba a jest nieznana. Błędem byłoby zastąpienie a przez 0, jakby raterzy nie zgodzili się na żadną negatywną obserwację; zarówno zaobserwowana zgoda, jak i kappa byłyby niedoceniane. Błędnym byłoby również proste zastąpienie a liczbą pacjentów bez żadnych pozytywnych wyników, ponieważ u każdego pacjenta istnieje kilka potencjalnych miejsc zmian. Zazwyczaj można założyć, że A jest wysoki w badaniach obrazowych, ponieważ każdy wynik wyświetla dużą liczbę struktur anatomicznych lub funkcjonalnych lub podstruktur, z których każdy może być pozytywny lub negatywny. Dlatego liczba pozytywnych wyników u danego pacjenta jest zwykle niewielka w porównaniu z potencjalną liczbą nieprawidłowości, które mogą wystąpić.
proponujemy tutaj statystykę kappa, która opisuje kappa Cohena jako a dążącego do nieskończoności. Pochodna cząstkowa statystyki kappa zdefiniowana w równaniu. 1) w odniesieniu do A jest:
ta pochodna cząstkowa jest dodatnia, dlatego statystyka kappa zwiększa się monotonnie o a. ponadto pochodna ta ma granicę zerową, gdy a dąży do nieskończoności, co oznacza, że statystyka Kappa ma skończoną granicę, gdy a dąży do nieskończoności. Nazywamy to ograniczeniem wolnej odpowiedzi kappa (KFR). Na Eq. (1), KFR jest stosunkiem dwóch funkcji a, f (A) = 2 (ad-bc) i g (A) = (b + c) (A + b + c + d) + 2 (ad-bc), z których obie zbliżają się do nieskończoności jako a dąży do nieskończoności, tak że ich stosunek jest nieokreślony. Zgodnie z regułą L ’ Hôpitala, KFR równa się granicy stosunku częściowych pochodnych F (A) i g (A), gdy a dąży do nieskończoności, co okazuje się być
właściwości wolnej odpowiedzi kappa
KFRhas kilka ciekawe właściwości. Nie zależy od a, a jedynie od pozytywnych obserwacji b, c i D. W związku z tym niepewność co do a nie wyklucza oszacowania porozumienia poza przypadkiem, jeżeli liczbę negatywnych wyników można uznać za bardzo dużą.
interpretując KFR, warto wziąć pod uwagę liczbę ocen każdego Ratera indywidualnie. Pierwszy rater dokonał pozytywnych obserwacji c + d, a drugi rater dokonał pozytywnych obserwacji b + D. W związku z tym mianownik b + c + 2D oznacza całkowitą liczbę pozytywnych indywidualnych obserwacji dokonanych przez 2 raterów, 2d oznacza liczbę pozytywnych obserwacji dokonanych przez którąkolwiek z raterów, które zostały potwierdzone przez drugą, a b + c oznacza liczbę pozytywnych obserwacji dokonanych przez którąkolwiek z raterów, które nie zostały potwierdzone przez drugą. KFR jest zatem proporcją potwierdzonych pozytywnych obserwacji indywidualnych wśród wszystkich pozytywnych obserwacji indywidualnych. Statystyka KFR wynosząca 0,5 oznacza, że połowa pozytywnych wyników została potwierdzona przez drugiego Ratera, który można uznać za średni, podczas gdy 0.8 można uznać za bardzo dobre. Jest to zgodne z opublikowanymi wytycznymi interpretacyjnymi dla kappa Cohena .
gdy dane są grupowane, KFR można uzyskać bezpośrednio przez zwinięcie tabel 2 × 2 wszystkich klastrów w jedną tabelę 2 × 2 i zastosowanie korektora. (2). Zbiorczy KFR jest średnią ważoną indywidualnych statystyk kappa wolnej odpowiedzi pacjentów z co najmniej jedną pozytywną obserwacją (każdy pacjent jest indeksowany przez k):
gdzie każda waga vk reprezentuje odsetek pozytywnych ocen u pacjenta k wśród wszystkich pozytywnych ocen:
wynika z tego, że pacjenci bez wykrytych zmian nie przyczyniają się do oszacowania KFR; ich waga wynosi zero. W związku z tym klastrowanie na poziomie pacjenta nie musi być brane pod uwagę przy obliczaniu KFR, a pacjenci bez pozytywnych wyników mogą być ignorowani.
warto zauważyć, że równanie dla KFR odpowiada proporcji konkretnej (dodatniej) umowy opisanej przez Fleissa . Podczas gdy równanie jest identyczne, cel i interpretacja są różne. W przypadku Fleissa konkretna pozytywna umowa (a także konkretna negatywna umowa) jest komplementarną statystyką, która poprawia interpretację ogólnej Umowy. Pominięcie podwójnych negatywnych obserwacji jest decyzją a priori. Co ważne, Fleiss jest zainteresowany obserwowaną umową, a nie umową skorygowaną o przypadek. Wreszcie Fleiss nie odnosi się do kontekstu wolnej odpowiedzi.
wariancja wolnej odpowiedzi
ponieważ KFR jest związany przez 0 i 1, Najpierw znormalizowaliśmy Estymator, przyjmując logit KFR, tj. ln (KFR / (1-KFR)). Zmienność oszacowanego logitu (KFR), uzyskana metodą delta (Dodatek 1) wynosi:
w ten sposób można uzyskać przedział ufności dla logit (KFR), a dolna i górna granica ufności z powrotem-przekształcone do oryginalnej skali.
alternatywnym podejściem jest wykorzystanie bezpośredniego związku między KFR a proporcją przystających par obserwacji wśród wszystkich dostępnych obserwacji, p = d/(b + c + d). Łatwo pokazać, że KFR = 2P / (1 + p). Dlatego można uzyskać 95% przedział ufności dla p, stosując dowolną dostępną metodę dla proporcji dwumianowych, w tym dokładne metody, a granice ufności można następnie przekształcić z powrotem do skali KFR.
symulowaliśmy działanie trzech metod przedziału ufności dla niezależnych obserwacji przy wartościach KFR wynoszących 0,3, 0,5, 0,7 i 0.9, A Dla wielkości próbek (N = B + c + d) 20, 50, 100 i 200. Dla każdego warunku wygenerowaliśmy 50’000 losowych próbek z rozkładu dwumianowego o parametrach N I p, gdzie p zostało zdefiniowane przez KFR/(2-KFR), co jest odwrotnością równania KFR = 2P/(1 + p). Dla każdej próbki obliczyliśmy 95% przedział ufności za pomocą korektora. (3) dla logitu KFR, a także przy użyciu 2 metod dla dwumianu parametru p , które są odpowiednie dla małych próbek, w których asymptotyczne metody estymacji mogą dawać nieprawidłowe wyniki: metoda Agresti-Coulla i metoda Cloppera-Pearsona . Dla każdej sytuacji przedstawiamy średnią symulowaną wartość KFR, proporcję przedziałów ufności, które zawierają wartość rzeczywistą, oraz średnią szerokość przedziałów ufności.
wszystkie trzy metody sprawdziły się dobrze (Tabela 1). Przedziały ufności oparte na Równoważniku. (3) miał zmniejszone pokrycie (0,932), gdy wielkość próby i KFR były małe. Wynika to z faktu, że w tym przypadku 2% próbek było zdegenerowanych (d = 0 lub d = N), A Eq. (3) nie można zastosować (gdybyśmy wyłączyli te próbki, pokrycie wyniosłoby 0,951). Metoda Cloppera-Pearsona przyniosła najwyższy poziom pokrycia, ale było to kosztem niepotrzebnie szerokich przedziałów ufności. Przedziały ufności były węższe dla Eq. (3) oraz dla metody Agresti-Coulla.
warto zauważyć, że średnie wartości obserwowanych KFR były nieco niższe od wartości parametrów, zwłaszcza przy niskich rozmiarach próbki. Dzieje się tak dlatego, że symulowaliśmy ze stałym parametrem p, A KFR = 2P/(1 + p) jest funkcją wklęsłą. Przez nierówność Jensena oczekiwanie funkcji wklęsłej p (tj. średniej obserwowanej KFR) będzie wtedy mniejsze niż funkcja oczekiwania p (tj. KFR odpowiadająca parametrowi p).
aby te metody estymacji wymagały wzajemnej niezależności obserwacji. Może to mieć zastosowanie w pewnych okolicznościach: na przykład, jeśli sparowany test przesiewowy jest stosowany do dużej populacji i tylko te z co najmniej jednym wynikiem pozytywnym są kierowane do dalszego badania. Ale w przypadku większości procedur obrazowania dane są naturalnie grupowane w obrębie pacjentów. Następnie proponowana asymptotyczna wariancja KFR byłaby stronnicza. W przypadku grupowania można zastosować procedurę bootstrap w celu uzyskania przedziału ufności (zob. Dodatek 2).