Kappa-statistik til måling af aftale ud over chance i vurderinger af fri respons
afledning af kappa med fri respons
for to ratere er den sædvanlige kappa-statistik (Po-Pe)/(1-Pe), hvor Po er andelen af observerede konkordante ratings, og Pe er den forventede andel af konkordante ratings på grund af chance alene. Når bedømmelsen er dikotom, data kan opsummeres i en 2 Lot 2 tabel. Lad os betegne med A antallet af fund, der vurderes som negative af begge ratere, b og c antallet af fund, der vurderes som positive af den ene rater, men negative af den anden, og d antallet af fund, der vurderes som positive af begge ratere. Der er derfor A + d konkordante par af ratings og b + c uoverensstemmende par blandt n par observationer. Hvis man antager, at observationer er gensidigt uafhængige, estimeres Po med (A + d)/N og Pe med /N2. Derefter er kappa-statistikken (i dette tilfælde Cohens kappa) givet af:
når patienter kan bidrage med mere end en observation, grupperes data. Yang et al foreslog en kappa-statistik opnået ud fra den sædvanlige formel (Po-Pe)/(1-Pe), hvor Po er et vægtet gennemsnit af andelen af aftale over klynger (patienter), og Pe opnås ud fra vægtede gennemsnit af marginale andele af ratings for hver rater. Med denne tilgang har kappa for klyngede data det samme skøn, som når klyngedannelse ignoreres. Derfor er grundtabellen for 2-T2 også egnet til estimering af enighed for grupperede data.
for gratis responsvurderinger rapporterer hver rater kun positive fund, og tallet A er ukendt. Det ville være forkert at erstatte A med 0, som om raters ikke havde aftalt nogen negativ observation; både den observerede aftale og kappa ville blive undervurderet. Det ville også være forkert at blot erstatte a med antallet af patienter uden noget positivt fund, fordi der findes flere potentielle læsionssteder hos hver patient. Typisk kan A antages at være høj i billeddannelsesundersøgelser, fordi hvert output viser et stort antal anatomiske eller funktionelle strukturer eller understrukturer, hver potentielt positiv eller negativ. Derfor er antallet af positive fund hos en given patient normalt lille sammenlignet med det potentielle antal abnormiteter, der kan forekomme.
Vi foreslår her en kappa statistik, der beskriver Cohens kappa som en nærmer sig uendelig. Det delvise derivat af kappa-statistikken defineret i Ek. (1) med hensyn til A er:
dette partielle derivat er positivt, derfor øges kappa-statistikken monotont med a. desuden har dette derivat en nulgrænse, når en nærmer sig uendelig, hvilket indebærer, at kappa-statistikken har en endelig grænse, når en nærmer sig uendelig. Vi kalder denne grænse den frie respons kappa (KFR). Pr. (1), KFR er forholdet mellem to funktioner af A, f (A) = 2 (ad-bc) og g (A) = (b + c) (A + b + c + d) + 2 (ad-bc), som begge nærmer sig uendelighed som en nærmer sig uendelighed, så deres forhold er ubestemt. Ved L ‘ H-Rule er KFR lig med grænsen for forholdet mellem de partielle derivater af f (A) og g (A) som en nærmer sig uendelighed, hvilket viser sig at være
egenskaber for fri respons kappa
KFRhas flere interessante egenskaber. Det afhænger ikke af a, men kun af de positive observationer b, c og d. Derfor udelukker usikkerheden om a ikke estimering af aftale uden chance, hvis antallet af negative fund kan betragtes som meget stort.
ved fortolkning af KFR er det nyttigt at overveje antallet af vurderinger foretaget af hver rater individuelt. Den første rater lavede c + d positive observationer, og den anden rater lavede B + d positive observationer. Derfor nævneren b + c + 2D er det samlede antal positive individuelle observationer foretaget af de 2 ratere, 2d er antallet af positive observationer foretaget af en af raterne, der blev bekræftet af den anden, og b + c er antallet af positive observationer foretaget af en af raterne, der ikke blev bekræftet af den anden. KFR er således andelen af bekræftede positive individuelle observationer blandt alle positive individuelle observationer. En KFR-statistik på 0,5 betyder, at halvdelen af de positive resultater blev bekræftet af den anden rater, hvilket kan betragtes som gennemsnitligt, mens 0.8 kan betragtes som meget god. Dette er i tråd med offentliggjorte fortolkningsretningslinjer for Cohens kappa .
når dataene er grupperet, kan KFR opnås direkte ved at kollapse 2-kur 2-tabellerne for alle klynger i en enkelt 2-kur 2-tabel og anvende EKV. (2). Den samlede KFR er et vægtet gennemsnit af individuel kappa-statistik med frit respons for patienter med mindst en positiv observation (hver patient er indekseret af k):
hvor hver vægt VK repræsenterer andelen af positive ratings i patient k blandt alle positive ratings:
det følger heraf, at patienter uden detekterede læsioner ikke bidrager til estimatet af KFR; deres vægt er nul. Derfor behøver klyngedannelse på patientniveau ikke tages i betragtning for at beregne KFR, og patienter uden positiv fund kan ignoreres.
Bemærk, ligningen for KFR svarer til andelen af specifik (positiv) aftale som beskrevet af Fleiss . Mens ligningen er identisk, er formålet og fortolkningen forskellige. For Fleiss er specifik positiv aftale (og også specifik negativ aftale) en supplerende statistik, der forbedrer fortolkningen af den samlede aftale. Udeladelsen af dobbelt negative observationer er en a priori beslutning. Det er vigtigt, at Fleiss er interesseret i observeret aftale, ikke i enighed korrigeret for chance. Endelig behandler Fleiss ikke Konteksten med fri respons.
varians af det frie svar kappa
fordi KFR er bundet af 0 og 1, normaliserede vi først estimatoren ved at tage logit af KFR, dvs.ln (KFR / (1-KFR)). Variansen af den estimerede logit (KFR), opnået ved delta-metoden (tillæg 1) er:
således kan der opnås et konfidensinterval for logit (KFR), og de nedre og øvre konfidensgrænser tilbage-omdannet til den oprindelige skala.
en alternativ tilgang er at gøre brug af det direkte forhold mellem KFR og andelen af kongruente par observationer blandt alle tilgængelige observationer, p = d/(b + c + d). Det er let vist, at KFR = 2P / (1 + p). Derfor kan der opnås et 95% konfidensinterval for p ved hjælp af en hvilken som helst tilgængelig metode til binomiale proportioner inklusive nøjagtige metoder, og konfidensgrænserne kan derefter transformeres tilbage til KFR-skalaen.
Vi har simuleret udførelsen af tre konfidensintervalmetoder til uafhængige observationer ved KFR-værdier på 0,3, 0,5, 0,7 og 0.9, og for stikprøvestørrelser (N = b + c + d) på 20, 50, 100 og 200. For hver betingelse genererede vi 50 ‘ 000 tilfældige prøver fra en binomialfordeling med parametre N og p, hvor p blev defineret af KFR/(2-KFR), som er den inverse af ligningen KFR = 2p/(1 + p). For hver prøve beregnede vi et 95% konfidensinterval ved hjælp af EKV. (3) til logit af KFR og også ved anvendelse af 2 metoder til binomialparameteren p, der er egnede til små prøver , hvor asymptotiske estimeringsmetoder kan give forkerte resultater: Agresti-Coull-metoden og Clopper-Pearson-metoden . For hver situation rapporterer vi den gennemsnitlige simulerede værdi af KFR, andelen af konfidensintervaller, der inkluderer den sande værdi, og den gennemsnitlige bredde af konfidensintervaller.
alle tre metoder fungerede godt (tabel 1). Konfidensintervaller baseret på EKV. (3) havde en sænket dækning (0,932), da stikprøvestørrelsen og KFR begge var små. Dette skyldes, at 2% af prøverne i dette tilfælde var degenererede (d = 0 eller d = N) og EKV. (3) kunne ikke anvendes (hvis vi havde udelukket disse prøver dækningen ville have været 0.951). Clopper-Pearson-metoden producerede de højeste dækningsniveauer, men dette var på bekostning af unødigt brede konfidensintervaller. Konfidensintervaller var snævrere for EKV. (3) og for Agresti-Coull-metoden.
Bemærk, at middelværdierne for observeret KFR var lidt under parameterværdierne, især ved lave prøvestørrelser. Dette skyldes, at vi simulerede med en fast parameter p, og KFR = 2p/(1 + p) er en konkav funktion. Ved Jensens ulighed vil forventningen om en konkav funktion af p (dvs.den gennemsnitlige observerede KFR) være så mindre end funktionen af forventningen om p (dvs. KFR, der svarer til parameteren p).
for at være gyldig kræver disse estimeringsmetoder, at observationer er gensidigt uafhængige. Dette kan gælde under visse omstændigheder: f.eks. hvis en parret screeningstest anvendes på en stor population, og kun dem med mindst et positivt resultat henvises til yderligere undersøgelse. Men for de fleste billedbehandlingsprocedurer er data naturligt grupperet inden for patienter. Derefter ville den foreslåede asymptotiske varians af KFR være partisk. Ved tilstedeværelse af klyngedannelse kan en bootstrap-procedure anvendes til at opnå et konfidensinterval (se tillæg 2).