Una breve introduzione alla Survival Analysis e Kaplan Meier Estimator

Questo articolo è stato pubblicato come parte del Data Science Blogathon.

Introduzione

Survival Analysis

Molti di noi hanno sempre una domanda nella mente su quanto tempo ci vorrà perché un evento accada. Come il fallimento di un sistema meccanico, il corpo umano sempre colpiti da qualsiasi tipo di malattia, quanto tempo ci vorrà per curare le malattie., Allora quanti sopravviveranno a uno specifico dopo aver fatto una diagnosi medica, a quale velocità uno morirà o fallirà? È possibile prendere in considerazione le molteplici cause di morte o fallimento essere preso in una visione più ampia? Per rispondere a tutte queste domande studiamo l’analisi di sopravvivenza.

L’analisi di sopravvivenza è un ramo importante delle statistiche che viene preso in considerazione per rispondere a tutte queste domande.

Lo studio di analisi di sopravvivenza deve definire un lasso di tempo in cui questo studio viene effettuato., Come in molti casi, è possibile che il periodo di tempo specificato per l’evento sia lo stesso l’uno dell’altro. L’analisi di sopravvivenza prevede la modellazione dei dati time to event. Quindi, abbiamo bisogno di definire il contesto dell’analisi di sopravvivenza nello studio come il tempo come “Evento” nel contesto dell’analisi di sopravvivenza.

Ci sono diversi modi in cui eseguiamo l’analisi di sopravvivenza. Viene eseguito in diversi modi come quando definiamo un gruppo. Alcuni di questi sono curve di Kaplan Meier, modelli di regressione di Cox, Funzione di pericolo, funzione di sopravvivenza, ecc.,

Quando l’analisi di sopravvivenza è fatto per confrontare l’analisi di sopravvivenza di due gruppi diversi. Lì eseguiamo il test di Log-Rank.

Quando l’analisi di sopravvivenza piace descrivere le variabili categoriali e quantitative sulla sopravvivenza ci piace fare la regressione dei rischi proporzionali di Cox, modelli di sopravvivenza parametrici, ecc.

Nell’analisi di sopravvivenza, dobbiamo definire determinati termini prima di procedere come l’Evento, il tempo, la censura, la funzione di sopravvivenza, ecc.,

l’Evento, quando si parla, è l’attività che sta accadendo o sta per accadere nell’analisi di sopravvivenza di studio come la Morte di una Persona da una particolare malattia, tempo di curare da un medico diagnosticare, tempo per ottenere, curata da vaccini, il tempo di insorgenza di insufficienza delle macchine dell’officina di produzione, il tempo di insorgenza di malattie, etc.

Tempo

in survival analysis case study è il tempo dall’inizio dell’osservazione dell’analisi di sopravvivenza sull’argomento fino al momento in cui si verificherà l’evento., Come nel caso della macchina meccanica ad un guasto abbiamo bisogno di conoscere il

(a) tempo di un evento in cui la macchina si avvia
(b) quando la macchina si guasta
(c) perdita di macchina o l’arresto della macchina dallo studio di analisi di sopravvivenza.

Censura/Osservazione censurata

Questa terminologia è definita come se l’argomento su cui stiamo facendo lo studio dell’analisi di sopravvivenza non venga influenzato dall’evento definito di studio, quindi vengono descritti come censurati. Il soggetto censurato potrebbe anche non avere un evento dopo la fine dell’osservazione dell’analisi di sopravvivenza., Il soggetto è chiamato censurato nel senso che nulla è stato osservato fuori dal soggetto dopo il momento della censura.

Osservazione censura sono anche di 3 tipi –

1. Censurato a destra

La censura a destra viene utilizzata in molti problemi. Succede quando non siamo certi di cosa sia successo alle persone dopo un certo punto nel tempo.

Si verifica quando il tempo dell’evento vero è maggiore del tempo censurato quando c< t. Ciò accade se alcune persone non possono essere seguite per tutto il tempo perché sono morte o sono state perse per seguire o ritirate dallo studio.,

2. Left Censored

La censura a sinistra è quando non siamo sicuri di cosa sia successo alle persone prima di un certo punto nel tempo. La censura a sinistra è l’opposto, che si verifica quando il tempo dell’evento vero è inferiore al tempo censurato quando c> t.

3. Intervallo Censurato

L’intervallo censurato è quando sappiamo che qualcosa è successo in un intervallo (non prima dell’ora di inizio e non dopo la fine dello studio) ma non sappiamo esattamente quando nell’intervallo è successo.,

La censura dell’intervallo è una concatenazione della censura sinistra e destra quando è noto che il tempo si è verificato tra due punti

Funzione di sopravvivenza S (t): Questa è una funzione di probabilità che dipende dal tempo dello studio. Il soggetto sopravvive più del tempo t. La funzione Survivor dà la probabilità che la variabile casuale T superi il tempo specificato t.

Qui, discuteremo lo Stimatore di Kaplan Meier.

Kaplan Meier Estimator

Kaplan Meier Estimator viene utilizzato per stimare la funzione di sopravvivenza per i dati di vita., È una tecnica di statistica non parametrica. È anche noto come stimatore del limite di prodotto e il concetto sta nella stima del tempo di sopravvivenza per un certo periodo di come un importante evento di prova medica, un certo momento di morte, guasto della macchina o qualsiasi evento significativo importante.

Ci sono molti esempi come

1. Guasto delle parti della macchina dopo diverse ore di funzionamento.

2. Quanto tempo ci vorrà per il vaccino COVID 19 per curare il paziente.

3. Quanto tempo è necessario per ottenere una cura da una diagnosi medica ecc.

4., Per stimare quanti dipendenti lasceranno l’azienda in un determinato periodo di tempo.

5. Quanti pazienti verranno curati dal cancro ai polmoni

Per stimare la sopravvivenza di Kaplan Meier dobbiamo prima stimare la funzione di sopravvivenza S (t) è la probabilità del tempo dell’evento t

Dove (d) sono il numero di eventi di morte al momento (t) e (n) è il numero di soggetti a rischio di morte appena prima del tempo (t).

Ipotesi di sopravvivenza di Kaplan Meier

Nei casi reali, non abbiamo un’idea della vera funzione del tasso di sopravvivenza., Quindi in Kaplan Meier Estimator stimiamo e approssimiamo la vera funzione di sopravvivenza dai dati dello studio. Ci sono 3 ipotesi di sopravvivenza di Kaplan Meier

1) Le probabilità di sopravvivenza sono le stesse per tutti i campioni che si sono uniti tardi nello studio e quelli che si sono uniti presto. L’analisi di sopravvivenza che può influenzare non si presume che cambi.

2) L’occorrenza dell’evento viene eseguita in un momento specificato.

3) La censura dello studio non dipende dal risultato. Il metodo Kaplan Meier non dipende dal risultato di interesse.,

L’interpretazione dell’analisi di sopravvivenza è l’asse Y mostra la probabilità di un soggetto che non è venuto sotto il caso di studio. L’asse X mostra la rappresentazione dell’interesse del soggetto dopo essere sopravvissuto fino al tempo. Ogni calo della funzione di sopravvivenza (approssimata dallo stimatore Kaplan-Meier) è causato dall’evento di interesse che si verifica per almeno un’osservazione.,

La trama è spesso accompagnata da intervalli di confidenza, per descrivere l’incertezza sulle stime puntuali-intervalli di confidenza più ampi mostrano un’elevata incertezza, questo accade quando abbiamo pochi partecipanti – si verifica in entrambe le osservazioni che muoiono e vengono censurate.

Cose importanti da considerare per Kaplan Meier Estimator Analysis

1) Abbiamo bisogno di eseguire il Log Rank Test per fare qualsiasi tipo di inferenze.

2) I risultati di Kaplan Meier possono essere facilmente prevenuti., Il Kaplan Meier è un approccio univariato per risolvere il problema

3) La rimozione dei dati censurati causerà un cambiamento nella forma della curva. Ciò creerà pregiudizi nel modello fit-up

4) I test e le osservazioni statistiche diventano fuorvianti se viene eseguita la dicotomizzazione della variabile continua.

5) Dicotomizzando significa che prendiamo misure statistiche come la mediana per creare gruppi, ma questo può portare a problemi nel set di dati.,

prendiamo ad esempio in Python

Collegamento al Notebook (https://drive.google.com/file/d/1VGKZNViDbx4rx_7lGMCA6dgU3XuMKGVU/view?usp=sharing)

Lasciate che ci importa l’importante biblioteca richieste per lavorare in python

in Primo luogo, siamo importatori di diverse librerie python per il nostro lavoro. Qui, stiamo prendendo il set di dati sul cancro ai polmoni. Dopo le librerie e il carico, leggeremo i dati utilizzando la libreria pandas. Il set di dati contiene diverse informazioni

Qui vediamo la testa& coda.,

Ora, qui importiamo il codice python per eseguire lo stimatore Kaplan Meier

Qui, eseguiamo l’analisi sul punteggio di Karnofsky l’asse x raffigura la timeline e l’asse y mostra il punteggio. Il miglior punteggio è 1 significa che il soggetto è in forma, un punteggio di 0 significa il punteggio peggiore.

Quindi applichiamo il codice per la sopravvivenza, la terapia precedente, il trattamento qui faremo l’analisi dello stimatore di Kaplan Meier.

Quindi, inseriamo kmf1 = KaplanMeierFitter() per il montaggio della funzione Kaplan Meier ed eseguiamo il seguente codice per diversi dati relativi ai problemi del cancro del polmone.,

Kaplan Meier estimator dopo aver eseguito il codice mostra la trama tra test di trattamento standard & Test di trattamento.

In questo articolo, il mio obiettivo principale era quello di spiegare l’analisi di sopravvivenza con lo Stimatore Kaplan Meier. Le cose relative ad esso e una descrizione del problema nella vita reale.,

Vantaggi & Dis-Vantaggi di Kaplan Meier Estimator

Vantaggi

1) Non richiede troppe caratteristiche – il tempo per l’evento di analisi di sopravvivenza è richiesto solo.

2) Fornisce una panoramica media relativa all’evento.

Share

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *