Articles

Kappa statistika měření dohody za šanci ve free-hodnocení odpovědi

Odvození zdarma-reakce kappa

Pro dva hodnotitele, obvykle kappa statistika (Po-Pe)/(1-Pe), kde Po je podíl pozorovaných shodné hodnocení a Pe je očekávaná podíl souhlasících hodnocení vzhledem k šanci sám. Pokud je hodnocení dichotomické, lze data shrnout do tabulky 2 × 2. Označme a počtem nálezů, které jsou hodnoceny jako negativní oběma hodnotiteli, b A c počet nálezů hodnocených jako pozitivní jedním hodnotitelem, ale negativním druhým, a d počet nálezů hodnocených jako pozitivní oběma hodnotiteli. Mezi n páry pozorování proto existují shodné páry hodnocení a + d a nesouhlasné páry b + c. Za předpokladu, že pozorování jsou vzájemně nezávislá, po se odhaduje na (A + d) /N A Pe Na / N2. Poté je statistika kappa (v tomto případě Cohenova kappa) dána:

$$ K=\frac{2\left( ad – bc\right)}{\left( b+ c\right) N+2\left( ad – bc\right)} $$
(1)

jestliže se u pacientů může přispět více než jedno pozorování, údaje jsou v clusteru. Yang et al navrhla kappa statistika získaných od obvyklého vzorce (Po-Pe)/(1-Pe), kde Po je vážený průměr poměru dohodou přes clustery (pacientů) a Pe se získává z vážené průměry mezní rozměry z hodnocení každého hodnotitele. S tímto přístupem má kappa pro seskupená data stejný odhad, jako když je clustering ignorován. Proto je pro odhad shody u seskupených dat vhodná i základní tabulka 2 × 2.

pro hodnocení volné odpovědi uvádí každý hodnotitel pouze pozitivní nálezy a číslo a není známo. Bylo by špatné nahradit a číslem 0, jako by se hodnotitelé nedohodli na žádném negativním pozorování; jak pozorovaná dohoda, tak kappa by byly podceňovány. Bylo by také nesprávné jednoduše nahradit a počtem pacientů bez pozitivního nálezu, protože u každého pacienta existuje několik potenciálních lézí. Typicky, lze předpokládat, že bude vysoká v zobrazovací vyšetření, protože každý výstup zobrazuje velké množství anatomické nebo funkční struktury či podstruktury, každý potenciálně pozitivní nebo negativní. Proto je počet pozitivních nálezů u daného pacienta obvykle malý ve srovnání s potenciálním počtem abnormalit, které se mohou vyskytnout.

zde navrhujeme Kappa statistiku, která popisuje Cohenovu Kappu jako blížící se nekonečnu. Parciální derivace statistiky kappa definované v Eq. (1) s ohledem na is:

$$ \frac{\partial \widehat{K}}{\partial a}=\frac{2\left( b+ c\right)\left( b+ d\right)\left( c+ d\right)}{{\left}^2} $$

Tato parciální derivace je kladná, proto kappa statistika monotónně zvyšuje s. Navíc tento derivát je null limita a nekonečno, což znamená, že kappa statistika má konečný limita a nekonečno. Tento limit nazýváme Kappa s volnou odezvou (KFR). Za Eq. (1), KFR je poměr dvě funkce, f (a) = 2 (ad-bc) a g (a) = (b + c)(a + b + c + d) + 2 (ad-bc), z nichž oba přístup nekonečno jako blížící se nekonečnu, tak, že jejich poměr je neurčitý. Podle L ‚ hôpital pravidlo, KFR se rovná mezní poměr parciálních derivací f (a) g (a) jako k nekonečnu, což se ukázalo být

$$ {K}_{FR}=\frac{2 d}{b+ c+2 d} $$
(2)

Vlastnosti volného reakci kappa

KFRhas několik zajímavých vlastností. Nezávisí na a, ale pouze na pozitivních pozorováních b, c A d. Nejistota ohledně a proto nevylučuje odhad dohody nad náhodu, pokud lze počet negativních nálezů považovat za velmi velký.

při interpretaci KFR je užitečné zvážit počty hodnocení jednotlivých hodnotitelů individuálně. První hodnotitel provedl c + d pozitivní pozorování a druhý hodnotitel provedl B + d pozitivní pozorování. Proto jmenovatel b + c + 2d je celkový počet pozitivních jednotlivé připomínky od 2 hodnotitelů, 2d je číslo kladné připomínky buď rater, které byly potvrzeny jiné, a b + c je počet pozitivních připomínky buď rater, že nebyla potvrzena jinými. KFR je tedy podíl potvrzených pozitivních individuálních pozorování mezi všemi pozitivními individuálními pozorováními. Statistika KFR 0.5 znamená, že polovina pozitivních nálezů byla potvrzena druhým hodnotitelem, což lze považovat za průměrné, zatímco 0.8 lze považovat za velmi dobré. To je v souladu se zveřejněnými interpretačními pokyny pro Cohenovu Kappu .

když jsou data seskupena, lze KFR získat přímo zhroucením tabulek 2 × 2 všech shluků do jedné tabulky 2 × 2 a použitím Eq. (2). Sdružená KFR je vážený průměr individuálních statistik Kappa s volnou odpovědí u pacientů s alespoň jedním pozitivním pozorováním (každý pacient je indexován k):

$$ {K}_{FR}={\displaystyle \sum_k}{v}_k\frac{2{d}_k}{b_k+{c}_k+2{d}_k} $$

kde každá váha vk představuje podíl pozitivních hodnocení u pacienta k mezi všemi pozitivní hodnocení:

$$ {v}_k=\frac{b_k+{c}_k+2{d}_k}{b+ c+2 d} $$

z toho vyplývá, že u pacientů bez detekovaných lézí nepřispívají k odhadu KFR; jejich hmotnost je nulová. Proto není nutné pro výpočet KFR brát v úvahu shlukování na úrovni pacienta a pacienti bez pozitivního nálezu mohou být ignorováni.

za zmínku stojí, že rovnice pro KFR odpovídá poměru specifické (pozitivní) dohody, jak popisuje Fleiss . Zatímco rovnice je identická, účel a interpretace jsou odlišné. Pro Fleisse je konkrétní pozitivní dohoda (a také konkrétní negativní dohoda) doplňkovou statistikou, která zlepšuje výklad celkové dohody. Vynechání dvojitých negativních pozorování je a priori rozhodnutí. Důležité je, že Fleissová má zájem na dodržení dohody, nikoliv na dohodě o náhodě. A konečně, Fleiss neřeší kontext volné reakce.

Rozptyl zdarma-reakce kappa

Protože KFR je vázán 0 a 1, jsme první normalizovaný odhad tím, že logit KFR, tj. ln (KFR/(1 – KFR)). Rozptyl odhadované logit (KFR), získané pomocí delta metody (Příloha 1) je:

$$ V a r\left( logit\left({K}_{FR}\right)\right)=\frac{\left( b+ c+ d\right)}{\left( b+ c\right)} $$
(3)

Tedy interval spolehlivosti lze získat pro logit (KFR), a dolní a horní důvěru kroky zpět-transformovány do původního rozsahu.

alternativním přístupem je využití přímého vztahu mezi KFR a podílem shodných párů pozorování mezi všemi dostupnými pozorováními, p = d / (b + c + d). Je snadno prokázáno, že KFR = 2p/(1 + p). Proto lze pro p získat 95% interval spolehlivosti pomocí jakékoli dostupné metody pro binomické proporce včetně přesných metod a meze spolehlivosti mohou být poté zpětně transformovány na stupnici KFR.

simulovali jsme výkon tří metod intervalu spolehlivosti pro nezávislá pozorování při hodnotách KFR 0,3, 0,5, 0,7 a 0.9 a pro velikosti vzorků (N = b + c + d) 20, 50, 100 a 200. Pro každý stav jsme vytvořili 50’000 náhodných vzorků z binomického rozdělení s parametry N a p, kde p bylo definováno KFR/(2-KFR), která je inverzní rovnice KFR = 2p/(1 + p). Pro každý vzorek jsme vypočítali 95% interval spolehlivosti pomocí Eq. (3) pro logit KFR, a také s použitím 2 metod pro binomické rozdělení parametru p, které jsou vhodné pro malé vzorky, v nichž asymptotické metody odhadu může přinést nesprávné výsledky: Agresti-Coull metoda , a Clopper-Pearson . Pro každou situaci uvádíme střední simulovanou hodnotu KFR, poměr intervalů spolehlivosti, které zahrnují skutečnou hodnotu, a střední šířka intervalů spolehlivosti.

všechny tři metody fungovaly dobře (Tabulka 1). Intervaly spolehlivosti založené na Eq. (3) měl snížené pokrytí (0,932), když velikost vzorku a KFR byly malé. Je to proto, že v tomto případě byly 2% vzorků degenerovány (d = 0 nebo d = N) A Eq. (3) nelze použít (pokud bychom tyto vzorky vyloučili, pokrytí by bylo 0, 951). Metoda Clopper-Pearson vytvořila nejvyšší úroveň pokrytí, ale to bylo na úkor zbytečně širokých intervalů spolehlivosti. Intervaly spolehlivosti byly pro Eq užší. (3) a pro Agresti-Coullovu metodu.

Tabulka 1 Simulace pokrytí a tím šířce 95% intervaly spolehlivosti pro free-reakce kappa na vybrané velikosti vzorků (20, 50, 100, 200) a hodnoty kappa (0.3, 0.5, 0.7, 0.9), pomocí tří metod: delta metodou (Eq. 3), Agresti-Coull spolehlivosti, a Clopper-Pearsonův interval spolehlivosti

všimněte si, průměrné hodnoty pozorovaných KFR byly mírně pod hodnoty parametrů, a to zejména při nízkých objemech vzorků. Je to proto, že jsme simulovali s pevným parametrem p a KFR = 2p / (1 + p) je konkávní funkce. Podle jensenovy nerovnosti bude očekávání konkávní funkce p (tj. střední pozorovaná KFR) menší než funkce očekávání p (tj. KFR, která odpovídá parametru p).

aby byly tyto metody odhadu platné, vyžadují, aby pozorování byla vzájemně nezávislá. To může platit za určitých okolností: např. pokud je párový screeningový test aplikován na velkou populaci a pouze ti, kteří mají alespoň jeden pozitivní výsledek, jsou předáni k dalšímu vyšetřování. Ale pro většinu zobrazovacích postupů jsou data přirozeně seskupena u pacientů. Pak by navrhovaná asymptotická rozptyl KFR byla zkreslená. V případě shlukování lze k získání intervalu spolehlivosti použít bootstrapovou proceduru (viz dodatek 2).

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *