Articles

Statistica Kappa pentru a măsura acordul dincolo de șansă în evaluările cu răspuns liber

derivarea răspunsului liber kappa

pentru doi evaluatori, statistica kappa obișnuită este (Po-pe)/(1-Pe) unde Po este proporția ratingurilor concordante observate și Pe este proporția așteptată a ratingurilor concordante datorate doar întâmplării. În cazul în care evaluarea este dihotomică, datele pot fi rezumate într-un tabel 2 inkt 2. Să notăm cu a Numărul de constatări care sunt evaluate ca negative de ambii evaluatori, b și c numărul de constatări evaluate ca pozitive de un evaluator, dar negative de celălalt și d numărul de constatări evaluate ca pozitive de ambii evaluatori. Prin urmare, există A + D perechi concordante de evaluări și B + C perechi discordante între n perechi de observații. Presupunând că observațiile sunt reciproc independente, Po este estimat de (a + d)/N și Pe de /N2. Apoi, statistica kappa (în acest caz, kappa lui Cohen) este dată de:

$$ K=\frac{2\stânga( ad – bc\dreapta)}{\stânga( b+ C\dreapta) N+2\stânga( ad – bc\dreapta)} $$
(1)

când pacienții pot contribui cu mai multe observații, datele sunt grupate. Yang și colab au propus o statistică kappa obținută din formula obișnuită(Po-pe)/(1-Pe) unde Po este o medie ponderată a proporțiilor de acord asupra clusterelor (pacienți) și Pe este obținută din mediile ponderate ale proporțiilor marginale ale ratingurilor fiecărui evaluator. Cu această abordare, kappa pentru datele grupate are aceeași estimare ca atunci când gruparea este ignorată. Prin urmare, tabelul de bază 2 x,2 este, de asemenea, adecvat pentru estimarea acordului pentru datele grupate.

pentru evaluările cu răspuns liber, fiecare evaluator raportează Doar rezultate pozitive, iar numărul a este necunoscut. Ar fi greșit să înlocuiți a cu 0, ca și cum evaluatorii nu ar fi fost de acord cu nicio observație negativă; atât acordul observat, cât și kappa ar fi subestimate. De asemenea, ar fi incorect să înlocuiți pur și simplu a cu numărul de pacienți fără nicio constatare pozitivă, deoarece există mai multe locuri potențiale de leziune la fiecare pacient. De obicei, se poate presupune că a este ridicat în examinările imagistice, deoarece fiecare ieșire afișează un număr mare de structuri sau substructuri anatomice sau funcționale, fiecare potențial pozitiv sau negativ. Prin urmare, numărul de rezultate pozitive la un anumit pacient este de obicei mic în comparație cu numărul potențial de anomalii care ar putea apărea.

propunem aici o statistică kappa care descrie kappa lui Cohen ca o abordare a infinitului. Derivata parțială a statisticii kappa definită în Eq. (1) în ceea ce privește A este:

$$ \frac{\partial \widehat{K}}{\partial a}=\frac{2\left( B+ C\right)\left( B+ D\right)\left( C+ D\right)}{{\left}^2} $$

această derivată parțială este pozitivă, prin urmare statistica kappa crește monoton cu a. mai mult, această derivată are o limită nulă pe măsură ce se apropie de infinit, ceea ce implică statistica Kappa are o limită finită pe măsură ce se apropie de infinit. Numim această limită kappa cu răspuns liber (KFR). Pe Eq. (1), KFR este raportul dintre două funcții ale lui a, f (a) = 2 (ad-bc) și g (A) = (b + c) (A + b + c + d) + 2 (ad-bc), ambele abordând infinitul ca o abordare a infinitului, astfel încât raportul lor este nedeterminat. Prin regula l ‘ h, KFR este egală cu limita raportului dintre derivatele parțiale ale f (a) și g (A) pe măsură ce se apropie de infinit, care se dovedește a fi

$$ {k}_{FR}=\frac{2 d}{b+ C+2 d} $$
(2)

proprietățile kappa cu răspuns liber

Kfrhare mai multe proprietăți interesante. Nu depinde de a, ci doar de observațiile pozitive b, c și d. Prin urmare, incertitudinea cu privire la a nu exclude estimarea acordului dincolo de șansă dacă numărul constatărilor negative poate fi considerat foarte mare.

la interpretarea KFR, este util să se ia în considerare numărul de evaluări efectuate de fiecare evaluator individual. Primul evaluator a făcut observații pozitive c + d, iar al doilea evaluator a făcut observații pozitive b + D. Prin urmare, numitorul b + c + 2d este numărul total de observații individuale pozitive făcute de cei 2 evaluatori, 2d este numărul de observații pozitive făcute de oricare dintre evaluatori care au fost confirmate de celălalt, iar b + c este numărul de observații pozitive făcute de oricare dintre evaluatori care nu au fost confirmate de celălalt. KFR este astfel proporția observațiilor individuale pozitive confirmate între toate observațiile individuale pozitive. O statistică KFR de 0,5 înseamnă că jumătate din rezultatele pozitive au fost confirmate de celălalt evaluator, care poate fi considerat mediu, în timp ce 0.8 ar putea fi considerat foarte bun. Acest lucru este în conformitate cu orientările de interpretare publicate pentru kappa lui Cohen .

atunci când datele sunt grupate, KFR poate fi obținut direct prin colapsul celor 2 tabele 2 din toate clusterele într-un singur tabel 2 din 2 și aplicarea Eq. (2). KFR cumulat este o medie ponderată a statisticilor individuale kappa cu răspuns liber ale pacienților cu cel puțin o observație pozitivă (fiecare pacient este indexat de k):

$$ {k}_{FR}={\displaystyle \sum_k}{v}_k\frac{2{d}_k}{b_k+{c}_k+2{D}_k} $$

unde fiecare greutate vk reprezintă proporția evaluărilor pozitive la pacientul k dintre toate evaluările pozitive:

$$ {v}_k=\frac{b_k+{c}_k+2{d}_K}{B+ C+2 d} $$

rezultă că pacienții fără leziuni detectate nu contribuie la estimarea KFR; greutatea lor este zero. Prin urmare, gruparea la nivel de pacient nu trebuie luată în considerare pentru a calcula KFR, iar pacienții fără constatare pozitivă pot fi ignorați.

de notat, ecuația pentru KFR corespunde proporției de acord specific (pozitiv) descrisă de Fleiss . În timp ce ecuația este identică, scopul și interpretarea sunt diferite. Pentru Fleiss, acordul pozitiv specific (și, de asemenea, acordul negativ specific) este o statistică complementară care îmbunătățește interpretarea acordului global. Omiterea observațiilor duble negative este o decizie a priori. Important, Fleiss este interesat de acord observate, nu în acord corectate pentru șansă. În cele din urmă, Fleiss nu abordează contextul de răspuns liber.

varianța răspunsului liber kappa

deoarece KFR este legat de 0 și 1, am normalizat mai întâi Estimatorul luând logitul KFR, adică ln (KFR / (1-KFR)). Varianța logitului estimat (KFR), obținut prin metoda delta (apendicele 1) este:

$$ v a r\left( logit\left({K}_{FR}\right)\right)=\frac{\left( b+ C+ D\right)}{\left( b+ C\right) d} $$
(3)

astfel se poate obține un interval de încredere pentru logit (KFR), iar limitele inferioare și superioare de încredere înapoi-transformat la scara originală.

o abordare alternativă este utilizarea relației directe dintre KFR și proporția perechilor congruente de observații dintre toate observațiile disponibile, p = d / (b + c + d). Este ușor de arătat că KFR = 2P / (1 + p). Prin urmare, un interval de încredere de 95% poate fi obținut pentru p, folosind orice metodă disponibilă pentru proporții binomiale, inclusiv metode exacte, iar limitele de încredere pot fi apoi transformate înapoi la scara KFR.

am simulat performanța a trei metode de interval de încredere pentru observații independente la valori KFR de 0,3, 0,5, 0,7 și 0.9, și pentru dimensiunile eșantionului (N = b + c + d) de 20, 50, 100 și 200. Pentru fiecare condiție am generat 50.000 de eșantioane aleatorii dintr-o distribuție binomială cu parametrii N și p, unde p a fost definit de KFR/(2-KFR), care este inversul ecuației KFR = 2p/(1 + p). Pentru fiecare eșantion am calculat un interval de încredere de 95% folosind Eq. (3) pentru logitul KFR și, de asemenea , folosind 2 metode pentru parametrul binomial p care sunt adecvate pentru eșantioane mici în care metodele de estimare asimptotică pot da rezultate incorecte: metoda Agresti-Coull și metoda Clopper-Pearson . Pentru fiecare situație raportăm valoarea medie simulată a KFR, proporția intervalelor de încredere care includ valoarea adevărată și lățimea medie a intervalelor de încredere.

toate cele trei metode au funcționat bine (tabelul 1). Intervale de încredere bazate pe Eq. (3) a avut o acoperire redusă (0,932) atunci când dimensiunea eșantionului și KFR au fost ambele mici. Acest lucru se datorează faptului că în acest caz 2% din probe au fost degenerate (d = 0 sau d = N) și Eq. (3) nu a putut fi aplicat (dacă am fi exclus aceste probe, acoperirea ar fi fost de 0,951). Metoda Clopper-Pearson a produs cele mai înalte niveluri de acoperire, dar acest lucru a fost în detrimentul intervalelor de încredere inutile. Intervalele de încredere au fost mai restrânse pentru Eq. (3) și pentru metoda Agresti-Coull.

Tabelul 1 simulări ale acoperirii și lățimii medii a intervalelor de încredere de 95% pentru kappa cu răspuns liber la dimensiunile eșantionului selectat (20 ,50, 100, 200) și valorile kappa (0.3, 0.5, 0.7, 0.9), folosind trei metode: metoda delta (Eq. 3), limitele de încredere Agresti-Coull și limitele de încredere Clopper-Pearson

De notat, valorile medii ale KFR observate au fost ușor sub valorile parametrilor, în special la dimensiuni mici ale eșantionului. Acest lucru se datorează faptului că am simulat cu un parametru fix p, iar KFR = 2p/(1 + p) este o funcție concavă. Prin inegalitatea lui Jensen, așteptarea unei funcții concave a lui p (adică media observată KFR) va fi atunci mai mică decât funcția așteptării lui p (adică KFR care corespunde parametrului p).

pentru a fi valide, aceste metode de estimare necesită ca observațiile să fie reciproc independente. Acest lucru se poate aplica în anumite circumstanțe: de exemplu, dacă un test de screening asociat este aplicat unei populații mari și numai cei cu cel puțin un rezultat pozitiv sunt trimiși pentru investigații suplimentare. Dar pentru majoritatea procedurilor imagistice, datele sunt grupate în mod natural în cadrul pacienților. Apoi varianța asimptotică propusă a KFR ar fi părtinitoare. În prezența grupării, se poate utiliza o procedură bootstrap pentru a obține un interval de încredere (a se vedea apendicele 2).

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *