statistica Kappa per misurare accordo di là di caso in free-risposta valutazioni
Derivazione di risposta kappa
Per due valutatori, la solita statistica kappa è (Po-Pe)/(1-Pe), dove Po è la proporzione osservata concordanti valutazioni e Pe, è prevista percentuale di valutazioni concordanti dovuto solo al caso. Quando la valutazione è dicotomica, i dati possono essere riassunti in una tabella 2 × 2. Indichiamo con a il numero di risultati che sono valutati come negativi da entrambi i valutatori, b e c il numero di risultati valutato come positivo da un rater ma negativo dall ” altro, e d il numero di risultati valutato come positivo da entrambi i valutatori. Ci sono quindi coppie concordanti a + d di valutazioni e coppie discordanti b + c tra N coppie di osservazioni. Supponendo che le osservazioni siano reciprocamente indipendenti, Po è stimato da (a + d)/N e Pe da /N2. Quindi, la statistica kappa (in questo caso, la kappa di Cohen) è data da:
Quando i pazienti possono contribuire a più di un’osservazione, i dati vengono raggruppati. Yang et al hanno proposto una statistica kappa ottenuta dalla formula usuale (Po-Pe) / (1-Pe) dove Po è una media ponderata delle proporzioni di accordo su cluster (pazienti) e Pe è ottenuta da medie ponderate di proporzioni marginali di rating di ciascun rater. Con questo approccio, il kappa per i dati in cluster ha la stessa stima di quando il clustering viene ignorato. Pertanto la tabella 2 × 2 di base è anche appropriata per la stima dell’accordo per i dati raggruppati.
Per le valutazioni a risposta libera, ogni rater riporta solo risultati positivi e il numero a è sconosciuto. Sarebbe sbagliato sostituire a con 0, come se i valutatori non avessero concordato alcuna osservazione negativa; sia l’accordo osservato che kappa sarebbero sottostimati. Sarebbe anche scorretto sostituire semplicemente a per il numero di pazienti senza alcun risultato positivo, perché esistono diversi siti di lesione potenziali in ciascun paziente. In genere, si può presumere che a sia elevato negli esami di imaging, poiché ogni output visualizza un gran numero di strutture o sottostrutture anatomiche o funzionali, ciascuna potenzialmente positiva o negativa. Pertanto, il numero di risultati positivi in un dato paziente è solitamente piccolo rispetto al numero potenziale di anomalie che potrebbero verificarsi.
Proponiamo qui una statistica kappa che descrive la kappa di Cohen come un approccio all’infinito. La derivata parziale della statistica kappa definita in Eq. (1) per quanto riguarda a è:
Questo parziale derivata è positiva, quindi la statistica kappa aumenta in modo monotono con un. Inoltre questa derivata è un null limite come una che tende a infinito, il che implica che la statistica kappa ha un limite finito come una che tende a infinito. Chiamiamo questo limite la risposta libera kappa (KFR). Per Eq. (1), KFR è il rapporto di due funzioni di a, f (a) = 2 (ad-bc) e g (a) = (b + c) (a + b + c + d) + 2 (ad-bc), entrambi i quali si avvicinano all’infinito come si avvicina all’infinito, in modo che il loro rapporto sia indeterminato. Dalla regola di l’Hôpital, KFR è uguale al limite del rapporto delle derivate parziali di f (a) e g (a) come una che tende a infinito, che risulta essere
Proprietà di free-risposta kappa
KFRhas diverse proprietà interessanti. Non dipende da a, ma solo dalle osservazioni positive b, c e d. Pertanto, l’incertezza su a non preclude la stima dell’accordo al di là del caso se il numero di risultati negativi può essere considerato molto grande.
Quando si interpreta KFR, è utile considerare il numero di valutazioni fatte da ciascun rater individualmente. Il primo rater fatto c + d osservazioni positive, e il secondo rater fatto b + d osservazioni positive. Pertanto il denominatore b + c + 2d è il numero totale di osservazioni individuali positive fatte dai 2 valutatori, 2d è il numero di osservazioni positive fatte da entrambi i rater che sono state confermate dall’altro, e b + c è il numero di osservazioni positive fatte da entrambi i rater che non sono state confermate dall’altro. KFR è quindi la proporzione di osservazioni individuali positive confermate tra tutte le osservazioni individuali positive. Una statistica KFR di 0,5 significa che metà dei risultati positivi sono stati confermati dall’altro rater, che può essere considerato medio, mentre 0.8 potrebbe essere considerato molto buono. Questo è in linea con le linee guida di interpretazione pubblicate per kappa di Cohen .
Quando i dati sono raggruppati, KFR può essere ottenuto direttamente comprimendo le tabelle 2 × 2 di tutti i cluster in una singola tabella 2 × 2 e applicando Eq. (2). La KFR aggregata è una media ponderata delle statistiche individuali della kappa a risposta libera di pazienti con almeno un’osservazione positiva (ogni paziente è indicizzato da k):
in cui ogni peso vk rappresenta la percentuale di valutazioni positive del paziente, la k tra tutte le valutazioni positive:
Ne consegue che i pazienti senza lesioni riscontrate non contribuiscono alla stima di KFR; il loro peso è pari a zero. Pertanto il clustering a livello di paziente non deve essere preso in considerazione per calcolare KFR e i pazienti senza risultati positivi possono essere ignorati.
Da notare, l’equazione per KFR corrisponde alla proporzione di accordo specifico (positivo) come descritto da Fleiss . Mentre l’equazione è identica, lo scopo e l’interpretazione sono diversi. Per Fleiss, l’accordo positivo specifico (e anche l’accordo negativo specifico) è una statistica complementare che migliora l’interpretazione dell’accordo globale. L’omissione di doppie osservazioni negative è una decisione a priori. È importante sottolineare che Fleiss è interessato all’accordo osservato, non all’accordo corretto per caso. Infine, Fleiss non affronta il contesto di risposta libera.
Varianza della risposta libera kappa
Poiché KFR è legato da 0 e 1, abbiamo prima normalizzato lo stimatore prendendo il logit di KFR, cioè ln (KFR / (1-KFR)). La varianza della stima logit (KFR), ottenuti con il metodo delta (Appendice 1) è:
Così un intervallo di confidenza può essere ottenuto per logit (KFR), e inferiore e superiore, la fiducia dei limiti di back-trasformata nella scala originale.
Un approccio alternativo consiste nell’utilizzare la relazione diretta tra KFR e la proporzione di coppie congruenti di osservazioni tra tutte le osservazioni disponibili, p = d/(b + c + d). È facilmente dimostrato che KFR = 2p / (1 + p). Pertanto è possibile ottenere un intervallo di confidenza del 95% per p, utilizzando qualsiasi metodo disponibile per le proporzioni binomiali inclusi i metodi esatti, e i limiti di confidenza possono essere quindi trasformati nuovamente nella scala KFR.
Abbiamo simulato le prestazioni di tre metodi di intervallo di confidenza per osservazioni indipendenti a valori KFR di 0.3, 0.5, 0.7 e 0.9, e per le dimensioni del campione (N = b + c + d) di 20, 50, 100 e 200. Per ogni condizione abbiamo generato 50 ‘ 000 campioni casuali da una distribuzione binomiale con i parametri N e p, dove p è stato definito da KFR/(2-KFR), che è l’inverso dell’equazione KFR = 2p / (1 + p). Per ogni campione abbiamo calcolato un intervallo di confidenza del 95% usando Eq. (3) per il logit di KFR, e anche usando 2 metodi per il parametro binomiale p che sono appropriati per piccoli campioni in cui i metodi di stima asintotica possono produrre risultati errati: il metodo Agresti-Coull e il metodo Clopper-Pearson . Per ogni situazione riportiamo il valore medio simulato di KFR, la proporzione di intervalli di confidenza che includono il valore vero e la larghezza media degli intervalli di confidenza.
Tutti e tre i metodi hanno funzionato bene (Tabella 1). Intervalli di confidenza basati su Eq. (3) aveva una copertura ridotta (0,932) quando la dimensione del campione e KFR erano entrambi piccoli. Questo perché in questo caso il 2% dei campioni era degenerato (d = 0 o d = N) e Eq. (3) non poteva essere applicato (se avessimo escluso questi campioni la copertura sarebbe stata 0,951). Il metodo Clopper-Pearson ha prodotto i più alti livelli di copertura, ma questo è stato a scapito di intervalli di confidenza inutilmente ampi. Gli intervalli di confidenza erano più stretti per l’Eq. (3) e per il metodo Agresti-Coull.
Da notare che i valori medi del KFR osservato erano leggermente inferiori ai valori dei parametri, specialmente a basse dimensioni del campione. Questo perché abbiamo simulato con un parametro fisso p, e KFR = 2p / (1 + p) è una funzione concava. Con la disuguaglianza di Jensen, l’aspettativa di una funzione concava di p (cioè, la media osservata KFR) sarà quindi inferiore alla funzione dell’aspettativa di p (cioè, il KFR che corrisponde al parametro p).
Per essere validi, questi metodi di stima richiedono che le osservazioni siano reciprocamente indipendenti. Ciò può essere applicato in alcune circostanze: ad esempio, se un test di screening associato viene applicato a una vasta popolazione e solo quelli con almeno un risultato positivo vengono indirizzati per ulteriori indagini. Ma per la maggior parte delle procedure di imaging i dati sono naturalmente raggruppati all’interno dei pazienti. Quindi la varianza asintotica proposta di KFR sarebbe di parte. In presenza di clustering, una procedura di bootstrap può essere utilizzata per ottenere un intervallo di confidenza (vedi Appendice 2).