Este artículo se publicó como parte del Blogathon de Data Science.
Introducción
análisis de supervivencia
muchos de Nosotros siempre tenemos una pregunta en la mente en cuanto a cuánto tiempo tomará para que ocurra un evento. Como la falla de un sistema mecánico, el cuerpo humano se ve afectado por cualquier tipo de enfermedad, cuánto tiempo tomará curar las enfermedades., Entonces, ¿cuántos sobrevivirán a un específico después de hacer un diagnóstico médico, a qué ritmo uno morirá o fallará? ¿Es posible tener en cuenta las múltiples causas de muerte o fracaso ser tomadas en una visión más amplia? Para responder a todas estas preguntas estudiamos el análisis de supervivencia.
el análisis de supervivencia es una rama importante de la estadística que se tiene en cuenta para responder a todas estas preguntas.
El estudio de análisis de supervivencia necesita definir un marco de tiempo en el que se realiza este estudio., Como en muchos casos, es posible que el período de tiempo dado para que ocurra el evento sea el mismo que el otro. El análisis de supervivencia implica el modelado de los datos del tiempo hasta el evento. Por lo tanto, necesitamos definir el contexto del análisis de supervivencia en el estudio como el tiempo como el «evento» en el contexto del análisis de supervivencia.
Hay diferentes maneras en que realizamos el análisis de supervivencia. Se realiza de varias maneras como cuando definimos un grupo. Algunas de ellas son curvas de Kaplan Meier, modelos de regresión de Cox, función de riesgo, función de supervivencia, etc.,
Cuando se realiza el análisis de supervivencia para comparar el análisis de supervivencia de dos grupos diferentes. Allí realizamos la prueba de rango logarítmico.
Cuando al análisis de supervivencia le gusta describir las variables categóricas y cuantitativas sobre supervivencia nos gusta hacer regresión de riesgos proporcionales de Cox, modelos paramétricos de supervivencia, etc.
en el análisis de supervivencia, necesitamos definir ciertos términos antes de proceder como el evento, Tiempo, censura, función de supervivencia, etc.,
evento, cuando hablamos de, es la actividad que está pasando o va a suceder en el estudio de análisis de supervivencia como la muerte de una persona de una enfermedad en particular, tiempo para obtener la curación por un diagnóstico médico, tiempo para curarse por vacunas, tiempo de aparición de fallas de máquinas en el taller de fabricación, tiempo para la aparición de enfermedades, etc.
tiempo
en el análisis de supervivencia el estudio de caso es el tiempo desde el inicio de la observación del análisis de supervivencia sobre el tema hasta el momento en que el evento va a ocurrir., Al igual que en el caso de la máquina mecánica a una falla, necesitamos saber el
(a) tiempo de un evento cuando la máquina comenzará
(b) Cuando la máquina fallará
(c) Pérdida de la máquina o el apagado de la máquina desde el estudio de análisis de supervivencia.
censura/observación censurada
esta terminología se define como si la materia sobre la que estamos haciendo el estudio del análisis de supervivencia no se ve afectada por el evento de estudio definido, entonces se describen como censurados. El sujeto censurado también podría no tener un evento después del final de la observación del análisis de supervivencia., El sujeto se llama censurado en el sentido de que nada fue observado fuera del sujeto después del tiempo de censura.
la observación Censuradora también son de 3 tipos –
1. Censurado a la derecha
la censura a la derecha se usa en muchos problemas. Sucede cuando no estamos seguros de lo que le pasó a la gente después de un cierto punto en el tiempo.
ocurre cuando el tiempo verdadero del evento es mayor que el tiempo censurado cuando c < t. esto sucede si algunas personas no pueden ser seguidas todo el tiempo porque murieron o se perdieron para el seguimiento o se retiraron del estudio.,
2. Left Censored
left censoring es cuando no estamos seguros de lo que le pasó a la gente antes de algún momento en el tiempo. La censura a la izquierda es lo contrario, ocurre cuando el tiempo del evento verdadero es menor que el tiempo censurado cuando c > t.
3. Intervalo censurado
la censura de intervalo es cuando sabemos que algo ha sucedido en un intervalo (no antes de la hora de inicio y no después de la hora de finalización del estudio) pero no sabemos exactamente cuándo en el intervalo sucedió.,
la censura de intervalos es una concatenación de la censura izquierda y derecha cuando se sabe que el tiempo ha ocurrido entre dos puntos de tiempo
Función de supervivencia S (t): Esta es una función de probabilidad que depende del tiempo del estudio. El sujeto sobrevive más que el tiempo t. la función Survivor da la probabilidad de que la variable aleatoria t exceda el tiempo especificado t.
aquí, discutiremos el Estimador de Kaplan Meier.
Estimador de Kaplan Meier
el Estimador de Kaplan Meier se utiliza para estimar la función de supervivencia de los datos de por vida., Es una técnica estadística no paramétrica. También se conoce como el estimador de límite de producto, y el concepto radica en estimar el tiempo de supervivencia para un cierto tiempo de como un evento de ensayo médico importante, un cierto tiempo de muerte, falla de la máquina, o cualquier evento importante significativo.
hay muchos ejemplos como
1. Fallo de las piezas de la máquina después de varias horas de funcionamiento.
2. Cuánto tiempo tardará la vacuna COVID 19 en curar al paciente.
3. Cuánto tiempo se requiere para obtener una cura de un diagnóstico médico, etc.
4., Para estimar cuántos empleados abandonarán la empresa en un período de tiempo específico.
5. Cuántos pacientes se curarán por cáncer de pulmón
para estimar la supervivencia de Kaplan Meier primero necesitamos estimar la función de supervivencia S (t) es la probabilidad de tiempo de Evento t
donde (d) son el número de eventos de muerte en el momento (t), y (n) es el número de sujetos en riesgo de muerte justo antes del momento (t).
supuestos de supervivencia de Kaplan Meier
en casos reales, no tenemos una idea de la función de la tasa de supervivencia real., Así que en el Estimador de Kaplan Meier estimamos y aproximamos la verdadera función de supervivencia a partir de los datos del estudio. Hay 3 supuestos de supervivencia de Kaplan Meier
1) Las probabilidades de supervivencia son las mismas para todas las muestras que se incorporaron tarde en el estudio y las que se incorporaron temprano. El análisis de supervivencia que puede afectar no se supone que cambie.
2) la ocurrencia del evento se realiza en un momento especificado.
3) la censura del estudio no depende del resultado. El método de Kaplan Meier no depende del resultado del interés.,
La interpretación del análisis de supervivencia es el eje y muestra la probabilidad del sujeto que no ha sido incluido en el estudio de caso. El eje X muestra la representación del interés del sujeto después de sobrevivir hasta el tiempo. Cada caída en la función de supervivencia (aproximada por el estimador de Kaplan-Meier) es causada por el evento de interés que ocurre durante al menos una observación.,
la gráfica a menudo se acompaña de intervalos de confianza, para describir la incertidumbre sobre las estimaciones puntuales-intervalos de confianza más amplios muestran alta incertidumbre, esto ocurre cuando tenemos unos pocos participantes – ocurre en ambas observaciones muriendo y siendo censuradas.
cosas importantes a tener en cuenta para el análisis del estimador de Kaplan Meier
1) necesitamos realizar la prueba de rango logarítmico para hacer cualquier tipo de inferencias.
2) los resultados de Kaplan Meier pueden ser fácilmente sesgados., El Kaplan Meier es un enfoque univariado para resolver el problema
3) La eliminación de datos censurados causará un cambio en la forma de la curva. Esto creará sesgos en el ajuste del modelo
4) las pruebas estadísticas y las observaciones se vuelven engañosas si se realiza la Dicotomización de la Variable continua.
5) al dicotomizar significa que tomamos medidas estadísticas como la mediana para crear grupos, pero esto puede provocar problemas en el conjunto de datos.,
veamos el ejemplo en Python
Enlace para Notebook- (https://drive.google.com/file/d/1VGKZNViDbx4rx_7lGMCA6dgU3XuMKGVU/view?usp=sharing)
Vamos a importar la importante biblioteca se requiere para trabajar en python
en Primer lugar, somos importadores de diferentes librerías de python para nuestro trabajo. Aquí, estamos tomando el conjunto de datos de cáncer de pulmón. Después de cargar las bibliotecas, leeremos los datos usando la biblioteca de pandas. El conjunto de datos contiene información diferente
Aquí podemos ver la Cabeza &cola.,
Ahora, aquí Importamos el código python para realizar el Estimador de Kaplan Meier
aquí, realizamos el análisis de la puntuación de Karnofsky. el eje x representa la línea de tiempo y el eje y muestra la puntuación. La mejor puntuación es 1 significa que el sujeto está en forma, una puntuación de 0 significa la peor puntuación.
luego aplicamos el código de supervivencia, terapia previa, el tratamiento aquí haremos el análisis Estimador de Kaplan Meier.
luego, ajustamos kmf1 = KaplanMeierFitter () para ajustar la función Kaplan Meier y ejecutamos el siguiente código para diferentes datos relacionados con los problemas de cáncer de pulmón.,
Kaplan Meier después de ejecutar el código que se muestra la trama entre el Tratamiento estándar de prueba &Tratamiento de prueba.
En este trabajo, mi principal objetivo era explicar el Análisis de Supervivencia con el método de Kaplan Meier. Las cosas relacionadas con él y una descripción del problema en la vida real.,
Advantages & Dis-Advantages of Kaplan Meier Estimator
Advantages
1) no requiere demasiadas características – solo se requiere tiempo para el evento de análisis de supervivencia.
2) proporciona una visión general promedio relacionada con el evento.