Punteggio Propensione di Analisi
Panoramica |
Software |
Descrizione |
Siti |
Letture |
Corsi |
Descrizione
PS è una probabilità. In realtà, è una probabilità condizionale di essere esposti dato un insieme di covariate, Pr(E+|covariate). Possiamo calcolare un PS per ogni soggetto in uno studio osservazionale indipendentemente dalla sua esposizione effettiva.
Una volta che abbiamo un PS per ogni soggetto, torniamo al mondo reale di esposti e non esposti. Possiamo abbinare soggetti esposti con soggetti non esposti con lo stesso (o molto simili) PS. Pertanto, la probabilità di essere esposti è la stessa della probabilità di essere non esposti. L’esposizione è ” casuale.”
Descrizione
L’analisi del punteggio di propensione (PSA) è nata come un modo per ottenere la scambiabilità tra gruppi esposti e non esposti negli studi osservazionali senza fare affidamento sulla costruzione di modelli tradizionali. La scambiabilità è fondamentale per la nostra inferenza causale.
Negli studi sperimentali (ad esempio studi di controllo randomizzati), la probabilità di essere esposti è 0,5. Pertanto, anche la probabilità di non essere esposta è 0,5. La probabilità di essere esposti o non esposti è la stessa. Pertanto, lo stato di esposizione effettivo di un soggetto è casuale.
Questa uguale probabilità di esposizione ci fa sentire più a nostro agio affermando che i gruppi esposti e non esposti sono simili su tutti i fattori tranne la loro esposizione. Pertanto, diciamo che abbiamo possibilità di scambio tra gruppi.
Una delle maggiori sfide con gli studi osservazionali è che la probabilità di essere nel gruppo esposto o non esposto non è casuale.
Ci sono diverse occasioni in cui uno studio sperimentale non è fattibile o etico. Ma vorremmo ancora la scambiabilità dei gruppi raggiunta dalla randomizzazione. Il PSA ci aiuta a imitare uno studio sperimentale utilizzando i dati di uno studio osservazionale.
Condurre PSA
5 Passi brevemente descritti per PSA
1. Decidere l’insieme di covariate che si desidera includere.
2. Usa la regressione logistica per ottenere un PS per ogni soggetto.
3. Abbinare soggetti esposti e non esposti sul PS.
4. Controllare il saldo delle covariate nei gruppi esposti e non esposti dopo la corrispondenza su PS.
5. Calcola la stima degli effetti e gli errori standard con questa popolazione di corrispondenza.
1. Decidere l’insieme di covariate che si desidera includere.
Questo è il passo fondamentale per il PSA. Usiamo queste covariate per prevedere la nostra probabilità di esposizione. Vogliamo includere tutti i predittori dell’esposizione e nessuno degli effetti dell’esposizione. Non consideriamo il risultato nel decidere le nostre covariate. Possiamo includere confondenti e variabili di interazione. Se siamo in dubbio della covariata, la includiamo nel nostro insieme di covariate (a meno che non pensiamo che sia un effetto dell’esposizione).
2. Usa la regressione logistica per ottenere un PS per ogni soggetto.
Usiamo le covariate per prevedere la probabilità di essere esposti (che è il PS). Più covariate vere usiamo, migliore è la nostra previsione della probabilità di essere esposti. Calcoliamo un PS per tutti i soggetti, esposti e non esposti.
Utilizzando numeri e lettere greche:
ln(PS/(1-PS))= β0+ß1X1+…+ßpXp
PS= (exp(β0+ß1X1+…+ßpXp)) / (1+exp(β0 +ß1X1 +…+ßpXp))
3. Abbinare soggetti esposti e non esposti sul PS.
Vogliamo abbinare i soggetti esposti e non esposti sulla loro probabilità di essere esposti (loro PS). Se non riusciamo a trovare una corrispondenza adeguata, allora quel soggetto viene scartato. Scartare un soggetto può introdurre pregiudizi nella nostra analisi.
Esistono diversi metodi per la corrispondenza. Il più comune è il vicino più vicino all’interno delle pinze. Il prossimo più vicino sarebbe il soggetto non esposto che ha un PS più vicino al PS per il nostro soggetto esposto.
Potremmo non essere in grado di trovare una corrispondenza esatta, quindi diciamo che accetteremo un punteggio PS entro determinati limiti di calibro. Abbiamo impostato un valore apriori per le pinze. Questo valore varia in genere da + / -0.01 a +/-0.05. Sotto 0.01, possiamo ottenere molta variabilità all’interno della stima perché abbiamo difficoltà a trovare corrispondenze e questo ci porta a scartare quei soggetti (corrispondenza incompleta). Se superiamo 0,05, potremmo essere meno sicuri che i nostri esposti e non esposti siano veramente scambiabili (corrispondenza inesatta). In genere, 0.01 viene scelto per un cutoff.
Il rapporto tra soggetti esposti e soggetti non esposti è variabile. La corrispondenza 1: 1 può essere eseguita, ma spesso la corrispondenza con la sostituzione viene eseguita invece per consentire corrispondenze migliori. La corrispondenza con la sostituzione consente al soggetto non esposto che è stato abbinato a un soggetto esposto di essere restituito al pool di soggetti non esposti disponibili per la corrispondenza.
C’è un compromesso in bias e precisione tra la corrispondenza con la sostituzione e senza (1:1). La corrispondenza con la sostituzione consente una riduzione della polarizzazione a causa di una migliore corrispondenza tra i soggetti. La corrispondenza senza sostituzione ha una precisione migliore perché vengono utilizzati più soggetti.
4. Controllare il saldo delle covariate nei gruppi esposti e non esposti dopo la corrispondenza su PS.
Una sovrapposizione sostanziale nelle covariate tra i gruppi esposti e non esposti deve esistere per noi per fare inferenze causali dai nostri dati. Questo è vero in tutti i modelli, ma in PSA diventa visivamente molto evidente. Se non ci sono sovrapposizioni nelle covariate (cioè se non abbiamo sovrapposizioni di punteggi di propensione), allora tutte le inferenze sarebbero rese fuori supporto dei dati (e quindi le conclusioni sarebbero dipendenti dal modello).
Possiamo usare un paio di strumenti per valutare il nostro equilibrio di covariate. In primo luogo, possiamo creare un istogramma del PS per i gruppi esposti e non esposti. In secondo luogo, possiamo valutare la differenza standardizzata. In terzo luogo, possiamo valutare la riduzione del bias.
Standardized difference = (100 * (mean(x exposed)-(mean(x unexposed)))/(sqrt ((SD^2exposed+ SD^2unexposed)/2))
Più del 10% di differenza è considerato male. Le nostre covariate sono distribuite in modo troppo diverso tra gruppi esposti e non esposti per farci sentire a nostro agio assumendo la scambiabilità tra gruppi.
Bias reduction= 1-(|standardized difference matched|/|standardized difference unmatched|)
Vorremmo vedere una sostanziale riduzione del bias dall’analisi non abbinata a quella abbinata. Quali mezzi sostanziali dipende da te.
5. Calcola la stima degli effetti e gli errori standard con questa popolazione corrispondente.
Stima dell’effetto medio del trattamento del trattato (ATT)=somma(y esposto – y non esposto)/# di coppie abbinate
Gli errori standard possono essere calcolati utilizzando metodi di ricampionamento bootstrap.
Le coppie corrispondenti risultanti possono anche essere analizzate utilizzando metodi statistici standard, ad esempio Kaplan-Meier, Cox proportional hazards models. È possibile includere PS nel modello di analisi finale come misura continua o creare quartili e stratificare.
Qualche altra nota sul PSA
Il PSA può essere utilizzato per esposizioni dicotomiche o continue.
Poiché il PSA può affrontare solo le covariate misurate, l’implementazione completa dovrebbe includere l’analisi di sensibilità per valutare le covariate non osservate.
PSA può essere utilizzato in SAS, R, e Stata. Questi sono componenti aggiuntivi che sono disponibili per il download.
Anche se il PSA è stato tradizionalmente utilizzato in epidemiologia e biomedicina, è stato utilizzato anche in test educativi (Rubin è uno dei fondatori) ed ecologia (EPA ha un sito web su PSA!).
I punti di forza e le limitazioni del PSA
I punti di forza
Possono includere termini di interazione nel calcolo del PSA.
PSA utilizza un punteggio invece di più covariate nella stima dell’effetto. Ciò consente a un investigatore di utilizzare dozzine di covariate, che di solito non è possibile nei modelli multivariabili tradizionali a causa dei limitati gradi di libertà e delle cellule di conteggio zero derivanti da stratificazioni di covariate multiple.
Può essere utilizzato per variabili dicotomiche e continue (variabili continue ha un sacco di ricerca in corso).
I pazienti inclusi in questo studio possono essere un campione più rappresentativo di pazienti “reali” di quanto fornirebbe un RCT.
Dal momento che non usiamo alcuna informazione sul risultato quando si calcola il PS, nessuna analisi basata sul PS bias stima dell’effetto.
Evitiamo l’inferenza off-support.
Ci affidiamo meno ai valori p e ad altre ipotesi specifiche del modello.
Non abbiamo bisogno di conoscere le cause del risultato per creare scambiabilità.
Limitazioni
La limitazione più grave è che il PSA controlla solo le covariate misurate.
La sovrapposizione dei gruppi deve essere sostanziale (per consentire una corrispondenza appropriata).
La corrispondenza sulle covariate osservate può aprire percorsi backdoor in covariate non osservate e esacerbare i pregiudizi nascosti.
PSA funziona meglio in grandi campioni per ottenere un buon equilibrio di covariate.
Se abbiamo dati mancanti, otteniamo un PS mancante.
Non tiene conto del clustering (problematico per la ricerca a livello di quartiere).
Letture
Libri di testo& Capitoli
Oakes JM e Johnson PJ. 2006. Propensity score matching per l’epidemiologia sociale nei metodi in Epidemiologia sociale (eds. I nostri servizi sono sempre disponibili.
Semplice e chiara introduzione al PSA con esempio lavorato da epidemiologia sociale.
Hirano K e Imbens GW. 2005. The propensity score with continuous treatments in Applied Bayesian Modeling and Causal Inference from Incomplete-Data Perspectives: An Essential Journey with Donald Rubin’s Statistical Family (eds. A Gelman e XL Meng), John Wiley & Sons, Ltd, Chichester, UK.
Discussione sull’utilizzo del PSA per trattamenti continui.
Articoli metodologici
Rosenbaum PR e Rubin DB. 1983. Il ruolo centrale del punteggio di propensione negli studi osservazionali per gli effetti causali. Biometrika, 70 (1); 41-55.
Articolo Germinal su PSA.
Rosenbaum PR e Rubin DB. 1985. Il pregiudizio dovuto alla corrispondenza incompleta. Biometrika, 41 (1); 103-116.
Discussione del pregiudizio dovuto alla corrispondenza incompleta dei soggetti in PSA.
D’Agostino RB. 1998. Metodi di punteggio di propensione per la riduzione del bias nel confronto di un trattamento con un gruppo di controllo non randomizzato. Statista Med, 17; 2265-2281.
Un’ulteriore discussione del PSA con esempi di lavoro. Include calcoli di differenze standardizzate e riduzione del bias.
Joffe MM e Rosenbaum PR. 1999. Commento invitato: Punteggi di propensione. Am J Epidemiol, 150 (4); 327-333.
Discussione degli usi e delle limitazioni del PSA. Include anche la discussione del PSA negli studi caso-coorte.
Articoli di applicazione
Kumar S e Vollmer S. 2012. L’accesso a servizi igienico-sanitari migliori riduce la diarrea nell’India rurale. Salute Econ. DOI: 10.1002 / hec.2809
Si applica PSA ai servizi igienico-sanitari e diarrea nei bambini in India rurale. Un sacco di spiegazioni su come PSA è stato condotto nel documento. Buon esempio.
Suh HS, Hay JW, Johnson KA, e il medico, JN. 2012. Efficacia comparativa della terapia di combinazione statina più fibrato e statina in monoterapia in pazienti con diabete di tipo 2: uso del punteggio di propensione e metodi variabili strumentali per adattarsi al bias di selezione del trattamento.Farmacoepidemiolo e sicurezza dei farmaci. DOI: 10.1002 / pds.3261
Applica il PSA alle terapie per il diabete di tipo 2. Confronta anche il PSA con variabili strumentali.
Rubin DB. 2001. Utilizzando i punteggi di propensione per aiutare a progettare studi osservazionali: Applicazione al contenzioso sul tabacco. Salute Serv Outcomes Res Method, 2; 169-188.
Applicazione più avanzata di PSA da parte di uno dei creatori di PSA.
Landrum MB e Ayanian JZ. 2001. Effetto causale delle cure specialistiche ambulatoriali sulla mortalità a seguito di infarto miocardico: Un confronto tra propensione socre e analisi variabile strumentale. Salute Serv Risultati Res Metodo, 2; 221-245.
Un buon chiaro esempio di PSA applicato alla mortalità dopo infarto miocardico. Confronto con i metodi IV.
Bingenheimer JB, Brennan RT, e Earls FJ. 2005. Esposizione alla violenza da arma da fuoco e comportamento violento grave. Scienza, 308; 1323-1326.
Interessante esempio di PSA applicato all’esposizione alla violenza delle armi da fuoco e al successivo comportamento violento grave.
Siti Web
Implementazione software statistico
Software per l’implementazione di metodi di corrispondenza e punteggi di propensione:
Per SAS macro:
http://ndc.mayo.edu/mayo/research/biostat/sasmacros.cfmgmatch: Corrispondenza computerizzata dei casi ai controlli utilizzando l’algoritmo di corrispondenza greedy con un numero fisso di controlli per caso.
vmatch: corrispondenza computerizzata dei casi ai controlli utilizzando la corrispondenza ottimale variabile.
Documentazione SAS:
Per il programma R:
Slides da Thomas Love 2003 ASA presentazione:
Risorse (dispense, bibliografia annotata) da Thomas Love:
Spiegazione ed esempio da ecology of PSA:
Corsi
Un workshop online sulla corrispondenza del punteggio di propensione è disponibile tramite EPIC