Kappa statistikk for å måle avtale utover sjanse i free-response assessments
Avledning av free-response kappa
for to raters, den vanlige kappa statistikk er(Po-Pe)/(1-Pe)der Po er andelen av observerte concordant karakterer og Pe er den forventede andelen av concordant karakterer på grunn av sjanse alene. Når vurderingen er dikotom, kan data oppsummeres i en 2 × 2 tabell. La oss betegne med a antall funn som er vurdert som negative av begge raters, b og c antall funn vurdert som positive av en rater, men negativ av den andre, og d antall funn vurdert som positive av begge raters. Det er derfor a + d konkordante par av karakterer og b + c uharmoniske par blant n par observasjoner. Forutsatt at observasjoner er gjensidig uavhengige, estimeres Po med (a + d) / N og Pe med / N2. Deretter er kappa-statistikken (I Dette tilfellet Cohens kappa) gitt av:
når pasienter kan bidra med mer enn en observasjon, blir data gruppert. Yang et al foreslått en kappa statistikk innhentet fra den vanlige formelen (Po-Pe) / (1-Pe)Der Po er et vektet gjennomsnitt av andelene av avtalen over klynger (pasienter) og Pe er oppnådd fra vektet gjennomsnitt av marginale andeler av rangeringer av hver rater. Med denne tilnærmingen har kappa for grupperte data det samme estimatet som når clustering ignoreres. Derfor er den grunnleggende tabellen med 2 × 2 også egnet for estimering av avtale for grupperte data.
hver rater rapporterer kun positive funn, og tallet a er ukjent. Det ville være galt å erstatte a med 0, som om raters ikke hadde blitt enige om noen negativ observasjon; både den observerte avtalen og kappa ville bli undervurdert. Det ville også være feil å bare erstatte a med antall pasienter uten noe positivt funn, fordi flere potensielle lesjonssteder eksisterer i hver pasient. Vanligvis kan a antas å være høy i avbildningsundersøkelser, fordi hver utgang viser et stort antall anatomiske eller funksjonelle strukturer eller understrukturer, hver potensielt positiv eller negativ. Derfor er antallet positive funn hos en gitt pasient vanligvis lite sammenlignet med det potensielle antallet abnormiteter som kan oppstå.
vi foreslår her en kappa-statistikk som beskriver Cohens kappa som en nærmer seg uendelig. Det partielle derivatet av kappa-statistikken definert i Eq. (1) med hensyn til a er:
dette partielle derivatet er positivt, derfor øker kappa-statistikken monotont med a. Videre har dette derivatet en nullgrense som en nærmer seg uendelig, noe som innebærer at kappa-statistikken har en endelig grense som nærmer seg uendelig. Vi kaller denne grensen fri respons kappa (KFR). Per Eq. (1), KFR er forholdet mellom to funksjoner av a, f (a) = 2 (ad-bc) og g (a) = (b + c) (a + b + c + d) + 2 (ad-bc), som begge nærmer seg uendelig som en nærmer seg uendelig, slik at deres forhold er ubestemt. VED L’ô regel er KFR lik grensen for forholdet mellom partielle derivater av f (a) og g (a) som en nærmer seg uendelig, som viser seg å være
Egenskaper for fri respons kappa
Kfrhar flere interessante Egenskaper. Det er ikke avhengig av a, men bare på de positive observasjonene b, c og d. Usikkerheten om a utelukker derfor ikke estimering av avtale utover sjanse dersom antall negative funn kan betraktes som svært store.
når du tolker KFR, er det nyttig å vurdere antall vurderinger som hver rater har gjort individuelt. Den første rater gjort c + d positive observasjoner, og den andre rater gjort b + d positive observasjoner. Derfor er nevneren b + c + 2d det totale antall positive individuelle observasjoner gjort av 2 raters, 2d er antall positive observasjoner gjort av enten rater som ble bekreftet av den andre, og b + c er antall positive observasjoner gjort av enten rater som ikke ble bekreftet av den andre. KFR er dermed andelen bekreftede positive enkeltobservasjoner blant alle positive enkeltobservasjoner. EN kfr-statistikk på 0,5 betyr at halvparten av de positive funnene ble bekreftet av den andre rater, som kan betraktes som gjennomsnittlig, mens 0.8 kan betraktes som veldig bra. Dette er i tråd med publiserte fortolkningsretningslinjer For Cohens kappa .
NÅR dataene er gruppert, KAN KFR oppnås direkte ved å kollapse de 2 × 2 tabellene i alle klynger i en enkelt 2 × 2 tabell og bruke Eq. (2). Den samlede KFR er et vektet gjennomsnitt av individuell fri respons kappa-statistikk over pasienter med minst en positiv observasjon (hver pasient er indeksert med k):
hvor hver vekt vk representerer andelen positive karakterer i pasient k blant alle positive karakterer:
det følger at pasienter uten detekterte lesjoner ikke bidrar til estimatet av kfr; deres vekt er null. Derfor er det ikke nødvendig å ta hensyn til gruppering på pasientnivå for å beregne KFR, og pasienter uten positive funn kan ignoreres.
av notatet tilsvarer ligningen FOR KFR andelen av spesifikk (positiv) avtale som beskrevet Av Fleiss . Mens ligningen er identisk, er formålet og tolkningen forskjellig. For Fleiss er spesifikk positiv avtale (og også spesifikk negativ avtale) en komplementær statistikk som forbedrer tolkningen av overordnet avtale. Utelatelsen av doble negative observasjoner er en forutgående beslutning. Viktig er At Fleiss er interessert i observert avtale, ikke i avtale korrigert for sjanse. Endelig adresserer Fleiss ikke free-response-konteksten.
Varians av fri respons kappa
FORDI KFR er bundet av 0 og 1, normaliserte vi først estimatoren ved å ta logit AV KFR, dvs. ln(KFR/(1 – KFR)). Variansen av estimert logit (KFR), oppnådd ved delta-metoden (Vedlegg 1) er:
dermed kan et konfidensintervall oppnås FOR logit (kfr), OG DE NEDRE og øvre konfidensgrenser tilbake-forvandlet til den opprinnelige skalaen.
en alternativ tilnærming er å gjøre bruk av DET direkte forholdet MELLOM KFR og andelen kongruente par observasjoner blant alle tilgjengelige observasjoner, p = d / (b + c + d). DET er lett vist AT KFR = 2P / (1 + p). Derfor kan et 95% konfidensintervall oppnås for p, ved hjelp av en hvilken som helst tilgjengelig metode for binomiale proporsjoner, inkludert eksakte metoder, og konfidensgrensene kan deretter omformes tilbake til KFR-skalaen.Vi har simulert resultatene av tre konfidensintervallmetoder for uavhengige observasjoner ved KFR-verdier på 0,3, 0,5, 0,7 og 0.9, og for prøvestørrelser (N = b + c + d) på 20, 50, 100 og 200. For hver tilstand genererte vi 50’000 tilfeldige prøver fra en binomialfordeling Med parametere N og p, hvor p ble definert AV KFR/(2-KFR), som er den inverse av ligningen KFR = 2P/(1 + p). For hver prøve beregnet vi et 95% konfidensintervall ved Bruk Av Eq. (3) for logit AV KFR, og også ved hjelp av 2 metoder for binomialparameteren p som passer for små prøver der asymptotiske estimeringsmetoder kan gi feil resultater: Agresti-Coull-metoden og Clopper-Pearson-metoden . FOR hver situasjon rapporterer vi gjennomsnittlig simulert verdi AV KFR, andelen konfidensintervaller som inkluderer den sanne verdien, og gjennomsnittlig bredde på konfidensintervallene.
alle tre metodene fungerte bra (Tabell 1). Konfidensintervaller basert På Eq. (3) hadde en senket dekning (0.932) når utvalgsstørrelsen og KFR var begge små. Dette skyldes at i dette tilfellet var 2% av prøvene degenererte (d = 0 eller d = N) og Eq. (3) kunne ikke brukes (hvis vi hadde utelukket disse prøvene, ville dekningen vært 0.951). Clopper-Pearson-metoden ga de høyeste nivåene av dekning, men dette var på bekostning av unødvendig store konfidensintervaller. Konfidensintervallene var smalere for Eq. (3) Og For Agresti-Coull-metoden.
I notatet var middelverdiene for observert KFR litt under parameterverdiene, spesielt ved lave prøvestørrelser. Dette skyldes at vi simulerte med en fast parameter p, OG KFR = 2P / (1 + p) er en konkav funksjon. Ved jensens ulikhet vil forventningen om en konkav funksjon av p (dvs. den gjennomsnittlige observerte KFR) da være mindre enn funksjonen av forventningen til p (dvs.KFR som tilsvarer parameteren p).
for å være gyldige krever disse estimeringsmetodene at observasjoner er gjensidig uavhengige. Dette kan gjelde i noen tilfeller: f. eks. hvis en parret screeningtest brukes på en stor befolkning, og bare de med minst ett positivt resultat blir henvist til videre undersøkelse. Men for de fleste bildebehandlingsprosedyrer er data naturlig gruppert hos pasienter. Da ville den foreslåtte asymptotiske variansen AV KFR være partisk. I nærvær av clustering kan en bootstrap-prosedyre brukes til å oppnå et konfidensintervall (se Vedlegg 2).