Articles

Kappa-statistiek om Overeenkomst voorbij toeval te meten in beoordelingen van vrije respons

afleiding van de vrije respons kappa

voor twee raters is de gebruikelijke Kappa-statistiek (Po-Pe)/(1-Pe) waarbij Po het aandeel van waargenomen Concordante ratings is en Pe het verwachte aandeel van Concordante ratings alleen door toeval. Wanneer de rating dichotoom is, kunnen de gegevens worden samengevat in een 2 × 2 tabel. Laten we met a het aantal bevindingen aangeven dat door beide raters als negatief wordt beoordeeld, b en c het aantal bevindingen dat door de ene rater als positief wordt beoordeeld, maar door de andere als negatief wordt beoordeeld, en d het aantal bevindingen dat door beide raters als positief wordt beoordeeld. Er zijn daarom A + d Concordante paren van ratings en B + c discordante paren onder N paren van waarnemingen. Ervan uitgaande dat de waarnemingen onderling onafhankelijk zijn, wordt Po geschat met (a + d)/N en Pe met /N2. Vervolgens wordt de kappa-statistiek (in dit geval de Kappa van Cohen) gegeven door:

$$ K=\frac{2 \ left( ad – BC\right)}{\left( b+ c\right) N+2\left (ad – bc\right)} $$
(1)

wanneer patiënten meer dan één waarneming kunnen bijdragen, worden gegevens geclusterd. Yang et al stelden een kappa-statistiek voor die wordt verkregen uit de gebruikelijke formule (Po-Pe)/(1-Pe) waarbij Po een gewogen gemiddelde is van de verhoudingen van overeenstemming over clusters (patiënten) en Pe wordt verkregen uit gewogen gemiddelden van marginale verhoudingen van ratings van elke rater. Met deze aanpak, de kappa voor geclusterde gegevens heeft dezelfde schatting als wanneer clustering wordt genegeerd. Daarom is de basistabel van 2 × 2 ook geschikt voor de schatting van overeenstemming voor geclusterde gegevens.

voor free-response assessments rapporteert elke rater alleen positieve bevindingen en is het getal a onbekend. Het zou verkeerd zijn om a te vervangen door 0, alsof de raters het niet eens waren over een negatieve opmerking; zowel de waargenomen overeenkomst als kappa zouden worden onderschat. Het zou ook onjuist zijn om a gewoon te vervangen door het aantal patiënten zonder enige positieve bevinding, omdat er verschillende potentiële laesieplaatsen bestaan in elke patiënt. Typisch, a kan worden verondersteld hoog in beeldvormingsonderzoeken te zijn, omdat elke output een groot aantal anatomische of functionele structuren of substructuren toont, elk potentieel positief of negatief. Daarom is het aantal positieve bevindingen bij een bepaalde patiënt meestal klein in vergelijking met het potentiële aantal afwijkingen dat kan optreden.

We stellen hier een kappa-statistiek voor die Cohen ‘ s kappa beschrijft als een benadering van oneindigheid. De partiële afgeleide van de in Eq gedefinieerde Kappa-statistiek. (1) met betrekking tot A is:

$$ \frac{\partial \widehat{K}}{\partial a}=\frac{2\left( b+ c\right)\left( b+ d\right)\left( c+ D\right)}{{\left}^2} $$

deze partiële afgeleide is positief, daarom neemt de kappa-statistiek eentonig toe met a. Bovendien heeft deze afgeleide een nullimiet als a oneindig nadert, wat impliceert dat de kappa statistiek heeft een eindige limiet als a nadert oneindigheid. We noemen deze limiet de vrije reactie kappa (KFR). Per Eq. (1), KFR is de verhouding van twee functies van a, f (A) = 2 (ad-bc) en g (A) = (b + c) (A + b + c + d) + 2 (ad-bc), die beide oneindig benaderen als a oneindig nadert, zodat hun verhouding onbepaald is. Volgens de l ‘ Hôpital-regel is KFR gelijk aan de limiet van de ratio van de partiële derivaten van f (a) en g (a) als a oneindig nadert, wat

$$ {K}_{FR}=\frac{2 d}{b+ c+2 d} $$
(2)

eigenschappen van vrije respons kappa

KFRhas verscheidene interessante eigenschappen. Het hangt niet af van a, maar alleen van de positieve waarnemingen b, c en d. Daarom sluit de onzekerheid over a niet uit dat een schatting van een overeenkomst buiten toeval kan worden gemaakt indien het aantal negatieve bevindingen als zeer groot kan worden beschouwd.

bij het interpreteren van KFR is het nuttig om rekening te houden met het aantal ratings dat door elke rater afzonderlijk wordt gemaakt. De eerste rater deed c + d positieve observaties, en de tweede rater deed B + d positieve observaties. Daarom is de noemer b + c + 2d het totale aantal positieve individuele waarnemingen van de twee raters, 2d is het aantal positieve waarnemingen van een rater die door de andere zijn bevestigd, en b + c is het aantal positieve waarnemingen van een rater die niet door de andere zijn bevestigd. KFR is dus het aandeel van bevestigde positieve individuele waarnemingen onder alle positieve individuele waarnemingen. Een KFR-statistiek van 0,5 betekent dat de helft van de positieve bevindingen werd bevestigd door de andere rater, die als gemiddeld kan worden beschouwd, terwijl 0.8 kan worden beschouwd als zeer goed. Dit is in overeenstemming met gepubliceerde interpretatierichtlijnen voor Cohen ‘ s kappa .

wanneer de gegevens geclusterd zijn, kan KFR direct worden verkregen door de 2 × 2 tabellen van alle clusters samen te voegen in één enkele 2 × 2 tabel en Eq toe te passen. (2). De gepoolde KFR is een gewogen gemiddelde van individuele vrije-respons Kappa-statistieken van patiënten met ten minste één positieve waarneming (elke patiënt wordt geïndexeerd door k):

$$ {K}_{FR}={\displaystyle \sum_k}{v}_k\frac{2{d}_k}{b_k+{c}_k+2{d}_k} $$

waarbij elk gewicht vk het aandeel van positieve ratings in patiënt k vertegenwoordigt tussen alle positieve ratings:

$$ {v}_k=\frac{b_k+{C}_k+2{D}_k}{B+ C+2 d} $$

hieruit volgt dat patiënten zonder gedetecteerde laesies niet bijdragen aan de schatting van kfr; hun gewicht is nul. Daarom hoeft er geen rekening te worden gehouden met patiëntenniveau clustering om KFR te berekenen, en patiënten zonder positieve bevinding kunnen worden genegeerd.

opmerking: de vergelijking voor KFR komt overeen met het aandeel van specifieke (positieve) overeenkomst zoals beschreven door Fleiss . Hoewel de vergelijking identiek is, zijn het doel en de interpretatie verschillend. Voor Fleiss is specifieke positieve overeenkomst (en ook specifieke negatieve overeenkomst) een aanvullende statistiek die de interpretatie van algemene overeenkomst verbetert. Het weglaten van dubbele negatieve opmerkingen is een a priori besluit. Belangrijk is dat Fleiss geà nteresseerd is in waargenomen overeenstemming, niet in overeenstemming gecorrigeerd voor toeval. Tot slot gaat Fleiss niet in op de context van de vrije reactie.

variantie van de vrije respons kappa

omdat KFR gebonden is aan 0 en 1, normaliseerden we eerst de schatter door de logit van KFR te nemen, d.w.z. ln (KFR / (1 – KFR)). De variantie van de geschatte logit (KFR), verkregen door de deltamethode (Appendix 1) is:

$$ V A R\left( logit\left({K}_{FR}\right)\right)=\frac{\left( b+ c+ d\right)}{\left( b+ c\right) d} $$
(3)

Zo kan een betrouwbaarheidsinterval worden verkregen voor logit (KFR), en de onderste en bovenste betrouwbaarheidsgrenzen terug-getransformeerd naar de oorspronkelijke schaal.

een alternatieve benadering is om gebruik te maken van de directe relatie tussen KFR en de verhouding van congruente paren van waarnemingen tussen alle beschikbare waarnemingen, p = d/(b + c + d). Het is gemakkelijk aan te tonen dat KFR = 2p/(1 + p). Daarom kan een 95% betrouwbaarheidsinterval worden verkregen voor p, met behulp van elke beschikbare methode voor binomiale verhoudingen, inclusief exacte methoden, en de betrouwbaarheidsgrenzen kunnen vervolgens worden getransformeerd naar de KFR-schaal.

we hebben de prestaties van drie betrouwbaarheidsintervalmethoden voor onafhankelijke waarnemingen gesimuleerd bij KFR-waarden van 0,3, 0,5, 0,7 en 0.9, en voor steekproefgrootten (N = b + c + d) van 20, 50, 100 en 200. Voor elke conditie hebben we 50.000 willekeurige monsters gegenereerd uit een binomiale verdeling met parameters N en p, waarbij p werd gedefinieerd door KFR / (2-KFR), wat de inverse is van de vergelijking KFR = 2p/(1 + p). Voor elk monster berekenden we een 95% betrouwbaarheidsinterval met behulp van Eq. (3) voor de logit van KFR, en ook met behulp van 2 methoden voor de binomiale parameter p die geschikt zijn voor kleine monsters waarin asymptotische schattingsmethoden onjuiste resultaten kunnen opleveren: de Agresti-Coull-methode en de Clopper-Pearson-methode . Voor elke situatie rapporteren we de gemiddelde gesimuleerde waarde van KFR, het percentage betrouwbaarheidsintervallen waarin de werkelijke waarde is opgenomen, en de gemiddelde breedte van de betrouwbaarheidsintervallen.

alle drie de methoden presteerden goed (Tabel 1). Betrouwbaarheidsintervallen gebaseerd op Eq. (3) had een verminderde dekking (0,932) toen de steekproefgrootte en KFR beide klein waren. Dit komt omdat in dit geval 2% van de monsters gedegenereerd waren (d = 0 of d = N), en Eq. (3) kon niet worden toegepast (als we deze monsters hadden uitgesloten zou de dekking 0,951 zijn geweest). De Clopper-Pearson-methode leverde de hoogste dekking op, maar dit ging ten koste van onnodig brede betrouwbaarheidsintervallen. Betrouwbaarheidsintervallen waren smaller voor Eq. (3) en voor de Agresti-Coull-methode.

Tabel 1 simulaties van de dekking en gemiddelde breedte van 95% betrouwbaarheidsintervallen voor de vrije respons kappa bij geselecteerde monstergroottes (20, 50, 100, 200) en waarden van kappa (0.3, 0.5, 0.7, 0.9), met behulp van drie methoden: delta methode (Eq. 3), Agresti-Coll betrouwbaarheidsgrenzen en Clopper-Pearson betrouwbaarheidsgrenzen

van note, De gemiddelde waarden van de waargenomen KFR lagen iets onder de parameterwaarden, vooral bij lage steekproefgrootten. Dit komt omdat we gesimuleerd met een vaste parameter p, en KFR = 2p/(1 + p) is een concave functie. Door de ongelijkheid van Jensen zal de verwachting van een concave functie van p (dat wil zeggen, Het gemiddelde waargenomen KFR) dan kleiner zijn dan de functie van de verwachting van p (dat wil zeggen, de KFR die overeenkomt met de parameter p).

om geldig te zijn, moeten de waarnemingen bij deze schattingsmethoden onderling onafhankelijk zijn. Dit kan in sommige omstandigheden van toepassing zijn: bijvoorbeeld als een gepaarde screeningtest wordt toegepast op een grote populatie, en alleen die met ten minste één positief resultaat worden doorverwezen voor verder onderzoek. Maar voor de meeste beeldvormingsprocedures zijn de gegevens natuurlijk geclusterd binnen patiënten. Dan zou de voorgestelde asymptotische variantie van KFR bevooroordeeld zijn. In aanwezigheid van clustering kan een bootstrap procedure worden gebruikt om een betrouwbaarheidsinterval te verkrijgen (zie Bijlage 2).

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *