Kappa-statistik för att mäta överenskommelse bortom chans i utvärderingar med fri respons
härledning av fritt svar kappa
för två bedömare är den vanliga kappa-statistiken (Po-Pe)/(1-Pe) där Po är andelen observerade överensstämmande betyg och Pe är den förväntade andelen överensstämmande betyg på grund av chans ensam. När betygsättningen är dikotom kan data sammanfattas i en 2-Tabell 2-tabell. Låt oss beteckna med A antalet fynd som är klassade som negativa av båda bedömarna, b och c antalet resultat bedömda som positiva av en bedömare men negativa av den andra, och d antalet resultat bedömda som positiva av båda bedömarna. Det finns därför A + d concordant par av betyg och b + c discordant par bland N par av observationer. Förutsatt att observationerna är ömsesidigt oberoende uppskattas Po med (a + d)/n och Pe med /N2. Därefter ges kappa-statistiken (i detta fall Cohens kappa) av:
När patienter kan bidra med mer än en observation grupperas data. Yang et al föreslog en kappa-statistik erhållen från den vanliga formeln(Po-Pe)/(1-Pe) där Po är ett vägt genomsnitt av proportionerna av överenskommelse över kluster (patienter) och Pe erhålls från viktade medelvärden av marginella proportioner av betyg för varje rater. Med detta tillvägagångssätt har kappa för grupperade data samma uppskattning som när kluster ignoreras. Därför är den grundläggande 2-tabellen 2-2-tabellen också lämplig för uppskattning av överenskommelse om grupperade uppgifter.
för gratis svarsbedömningar rapporterar varje rater endast positiva resultat och antalet A är okänt. Det skulle vara fel att ersätta a med 0, som om bedömarna inte hade kommit överens om någon negativ observation; både det observerade avtalet och kappa skulle underskattas. Det skulle också vara felaktigt att helt enkelt ersätta a med antalet patienter utan något positivt resultat, eftersom flera potentiella lesionsställen finns i varje patient. Vanligtvis kan a antas vara hög i bildundersökningar, eftersom varje utgång visar ett stort antal anatomiska eller funktionella strukturer eller understrukturer, var och en potentiellt positiv eller negativ. Därför är antalet positiva fynd hos en given patient vanligtvis liten i jämförelse med det potentiella antalet avvikelser som kan uppstå.
Vi föreslår här en kappa-statistik som beskriver Cohens kappa som en tillvägagångssätt oändlighet. Det partiella derivatet av kappa-statistiken definierad i Eq. (1) med avseende på A är:
detta partiella derivat är positivt, därför ökar kappa-statistiken monotont med A. dessutom har detta derivat en nollgräns när en närmar sig oändlighet, vilket innebär att kappa-statistiken har en ändlig gräns som närmar sig oändligheten. Vi kallar denna gräns för fri respons kappa (KFR). Per Eq. (1), KFR är förhållandet mellan två funktioner av A, f (A) = 2 (ad-bc) och g (a) = (b + c) (a + b + c + d) + 2 (ad-bc), som båda närmar sig oändligheten som närmar sig oändligheten, så att deras förhållande är obestämt. Enligt L ’ H-regeln är KFR lika med gränsen för förhållandet mellan de partiella derivaten av f (A) och g (A) som ett tillvägagångssätt oändlighet, vilket visar sig vara
egenskaper för fritt svar kappa
kfrhar flera intressanta egenskaper. Det beror inte på a, utan bara på de positiva observationerna b, c och d. Därför utesluter osäkerheten om a inte uppskattningen av överenskommelse bortom slumpen om antalet negativa resultat kan anses vara mycket stort.
vid tolkning av KFR är det bra att överväga antalet betyg som görs av varje rater individuellt. Den första bedömaren gjorde c + d positiva observationer, och den andra bedömaren gjorde b + d positiva observationer. Därför är nämnaren b + c + 2D det totala antalet positiva individuella observationer gjorda av 2-bedömarna, 2d är antalet positiva observationer gjorda av antingen rater som bekräftades av den andra, och b + c är antalet positiva observationer gjorda av antingen rater som inte bekräftades av den andra. KFR är således andelen bekräftade positiva individuella observationer bland alla positiva individuella observationer. En KFR-statistik på 0,5 innebär att hälften av de positiva resultaten bekräftades av den andra bedömaren, vilket kan anses vara genomsnittligt, medan 0.8 kan anses vara mycket bra. Detta är i linje med publicerade tolkningsriktlinjer för Cohens kappa .
När data är grupperade kan KFR erhållas direkt genom att kollapsa tabellerna 2 2 2 i alla kluster i en enda tabell 2 2 2 och tillämpa Eq. (2). Den poolade KFR är ett vägt genomsnitt av individuell fri responsstatistik kappa för patienter med minst en positiv observation (varje patient indexeras av k):
där varje vikt VK representerar andelen positiva betyg i patient k bland alla positiva betyg:
det följer att patienter utan några upptäckta lesioner inte bidrar till uppskattningen av KFR; deras vikt är noll. Därför behöver kluster på patientnivå inte beaktas för att beräkna KFR, och patienter utan positivt resultat kan ignoreras.
Observera att ekvationen för KFR motsvarar andelen specifik (positiv) överenskommelse som beskrivs av Fleiss . Medan ekvationen är identisk är syftet och tolkningen olika. För Fleiss är specifikt positivt avtal (och även specifikt negativt avtal) en kompletterande statistik som förbättrar tolkningen av det övergripande avtalet. Utelämnandet av dubbla negativa observationer är ett a priori-beslut. Viktigt är att Fleiss är intresserad av observerad överenskommelse, inte i överenskommelse korrigerad för slumpen. Slutligen tar Fleiss inte upp det fria svaret.
varians av fritt svar kappa
eftersom KFR är bunden av 0 och 1 normaliserade vi först uppskattaren genom att ta logit av KFR, dvs ln (KFR/(1 – KFR)). Variansen för den uppskattade logit (KFR), erhållen med delta-metoden (bilaga 1) är:
således kan ett konfidensintervall erhållas för logit (KFR), och de nedre och övre konfidensgränser tillbaka-omvandlas till den ursprungliga skalan.
ett alternativt tillvägagångssätt är att använda det direkta förhållandet mellan KFR och andelen kongruenta observationspar bland alla tillgängliga observationer, p = d/(b + c + d). Det är lätt att visa att KFR = 2P/(1 + p). Därför kan ett 95% konfidensintervall erhållas för p, med vilken som helst tillgänglig metod för binomiala proportioner inklusive exakta metoder, och konfidensgränserna kan sedan omvandlas tillbaka till KFR-skalan.
Vi har simulerat prestanda för tre konfidensintervallmetoder för oberoende observationer vid KFR-värden på 0,3, 0,5, 0,7 och 0.9, och för provstorlekar (N = b + c + d) på 20, 50, 100 och 200. För varje tillstånd genererade vi 50 ’ 000 slumpmässiga prover från en binomialfördelning med parametrar N och p, där p definierades av KFR/(2-KFR), vilket är inversen av ekvationen KFR = 2p/(1 + p). För varje prov beräknade vi ett 95% konfidensintervall med Eq. (3) för logit av KFR, och även med användning av 2 metoder för binomialparametern p som är lämpliga för små prover där asymptotiska uppskattningsmetoder kan ge felaktiga resultat: Agresti-Coull-metoden och Clopper-Pearson-metoden . För varje situation rapporterar vi det genomsnittliga simulerade värdet för KFR, andelen konfidensintervall som inkluderar det verkliga värdet och medelbredden för konfidensintervallen.
alla tre metoderna fungerade bra (Tabell 1). Konfidensintervall baserat på Eq. (3) hade en sänkt täckning (0,932) när provstorleken och KFR var båda små. Detta beror på att i detta fall var 2% av proverna degenererade (d = 0 eller d = N) och Eq. (3) kunde inte tillämpas (om vi hade uteslutit dessa prover skulle täckningen ha varit 0,951). Clopper-Pearson-metoden gav de högsta täckningsnivåerna, men detta var på bekostnad av onödigt stora konfidensintervall. Konfidensintervall var smalare för Eq. (3) och för Agresti-Coull-metoden.
Observera att medelvärdena för observerad KFR var något under parametervärdena, särskilt vid låga provstorlekar. Detta beror på att vi simulerade med en fast parameter p, och KFR = 2p/(1 + p) är en konkav funktion. Genom Jensens ojämlikhet kommer förväntan på en konkav funktion av p (dvs. den genomsnittliga observerade KFR) då att vara mindre än funktionen av förväntan på p (dvs. KFR som motsvarar parametern p).
för att vara giltig kräver dessa uppskattningsmetoder att observationer är ömsesidigt oberoende. Detta kan gälla under vissa omständigheter: t.ex. om ett parat screeningtest tillämpas på en stor population, och endast de med minst ett positivt resultat hänvisas till ytterligare undersökning. Men för de flesta avbildningsförfaranden är data naturligt grupperade inom patienter. Då skulle den föreslagna asymptotiska variansen av KFR vara partisk. I närvaro av kluster kan en bootstrap-procedur användas för att få ett konfidensintervall (Se bilaga 2).