This article was published as a part of the Data Science Blogathon.
introdução
Análise de Sobrevivência
muitos de nós sempre temos uma questão na mente sobre quanto tempo levará para um evento acontecer. Como a falha de um sistema mecânico, o corpo humano sendo afetado por qualquer tipo de doença, quanto tempo levará para curar as doenças., Então quantos sobreviverão a um específico depois de fazer um diagnóstico médico, a que ritmo morrerão ou falharão? Será possível tomar em consideração as múltiplas causas de morte ou de fracasso numa perspectiva mais ampla? Para responder a todas estas perguntas, estudamos a análise de Sobrevivência.
A análise de sobrevivência é um ramo importante das estatísticas que é levado em consideração para responder a todas estas questões.o estudo de Análise de sobrevivência deve definir um período de tempo durante o qual este estudo é realizado., Como em muitos casos, é possível que o período de tempo dado para o evento ocorrer seja o mesmo que o outro. A análise de sobrevivência envolve a modelagem de dados de tempo para eventos. Então, precisamos definir o contexto da análise de sobrevivência no estudo como o tempo como o” evento ” no contexto da análise de Sobrevivência.
Existem diferentes formas de realizarmos a análise de sobrevivência. É realizada de várias maneiras, como quando definimos um grupo. Algumas delas são curvas Kaplan Meier, modelos de regressão Cox, função de risco, função de sobrevivência, etc.,quando a análise de sobrevivência é feita para comparar a análise de sobrevivência de dois grupos diferentes. Lá fazemos o teste de Log-Rank.
Quando a análise de Sobrevivência gosta de descrever as variáveis categóricas e quantitativas sobre a sobrevivência, gostamos de fazer a regressão proporcional dos perigos Cox, modelos paramétricos de sobrevivência, etc.
na análise de Sobrevivência, precisamos definir certos termos antes que se proceda como o evento, o tempo, a censura, a função de sobrevivência, etc.,Evento
, Quando falamos, é a atividade que está acontecendo ou vai acontecer no estudo de análise de sobrevivência, como a morte de uma pessoa de uma determinada doença, tempo para obter a cura por um diagnóstico médico, tempo para ser curado por vacinas, tempo de ocorrência de falha de máquinas no chão da loja de fabricação, tempo para ocorrência de doenças, etc.
tempo
na análise de sobrevivência estudo de caso é o tempo desde o início da observação da análise de sobrevivência sobre o assunto até ao momento em que o evento vai ocorrer., Como no caso de uma máquina mecânica para uma falha, precisamos saber o tempo de um evento em que a máquina vai começar quando a máquina vai falhar(c) perda da máquina ou o desligamento da máquina a partir do estudo de análise de sobrevivência.
Censura/ Censurado Observação
Esta terminologia é definida como se o assunto sobre o qual estamos fazendo o estudo de análise de sobrevivência não ter afetado pelo evento definido de estudo, em seguida, eles são descritos como censuradas. O sujeito censurado também pode não ter um evento após o final da observação da análise de sobrevivência., O sujeito é chamado censurado no sentido de que nada foi observado fora do sujeito após o tempo de censuração.
A Observação Censuradora é também de 3 tipos –
1. Censurado à direita
censor à direita é usado em muitos problemas. Acontece quando não temos a certeza do que aconteceu às pessoas depois de um certo ponto no tempo.
Ele ocorre quando o verdadeiro evento é maior do que o censurado tempo quando c < t. Isto acontece se algumas pessoas não podem ser seguidos o tempo todo porque eles morreram ou foram perdidos para acompanhamento ou retirou-se do estudo.,2. Censurado à esquerda
censurado à esquerda é quando não temos certeza do que aconteceu com as pessoas antes de algum ponto no tempo. Censurar à esquerda é o oposto, ocorrendo quando o tempo do evento verdadeiro é menor que o tempo censurado quando c > t.
3. Intervalo censurado
intervalo censurado é quando sabemos que algo aconteceu em um intervalo (não antes do tempo de início e não após o tempo final do estudo), mas não sabemos exatamente quando no intervalo que aconteceu.,
intervalo censoring é uma concatenação do censor à esquerda e à direita quando se sabe que o tempo ocorreu entre dois pontos de tempo
função de Sobrevivência S (t): esta é uma função de probabilidade que depende do tempo do estudo. O sujeito sobrevive mais do que o tempo T. A função Survivor dá a probabilidade de que a variável aleatória t exceda o tempo especificado T.
aqui, discutiremos o estimador Kaplan Meier.o estimador Kaplan Meier
o estimador Kaplan Meier é utilizado para estimar a função de sobrevivência para os dados ao longo da vida., É uma técnica estatística não paramétrica. É também conhecido como o estimador limite de produto, e o conceito reside em estimar o tempo de sobrevivência para um certo tempo de como um grande evento de teste médico, uma certa hora de morte, falha da máquina, ou qualquer grande evento significativo.
existem muitos exemplos como
1. Falha das peças da máquina após várias horas de operação.2. Quanto tempo levará para a vacina COVID 19 curar o doente.3. Quanto tempo é necessário para obter uma cura a partir de um diagnóstico médico etc.4., Para estimar quantos funcionários deixarão a empresa em um determinado período de tempo.5. Como muitos pacientes vão ficar curado por câncer de pulmão
Para Estimar o Kaplan-Meier de Sobrevida primeiro precisamos estimar a Função de Sobrevivência S (t) é a probabilidade do evento de tempo t
, Onde (d) é o número de morte de eventos no tempo (t), e (n) é o número de indivíduos em risco de morte, pouco antes de o tempo (t).
pressupostos da sobrevivência de Kaplan Meier
em casos da vida real, não temos uma ideia da verdadeira função da taxa de sobrevivência., Assim, no Estimador de Kaplan Meier estimamos e aproximamos a verdadeira função de sobrevivência a partir dos dados do estudo. Existem 3 hipóteses de sobrevivência de Kaplan Meier
1) as probabilidades de Sobrevivência são as mesmas para todas as amostras que se juntaram no final do estudo e para as que se juntaram mais cedo. A análise de sobrevivência que pode afectar não se presume que mude.
2) a ocorrência de Eventos é feita em um momento especificado.
3) a Censura do estudo não depende do resultado. O método Kaplan Meier não depende do resultado do interesse.,
A Interpretação da análise de sobrevivência é o eixo de Y mostra a probabilidade do sujeito que não foi abrangido pelo estudo de caso. O eixo X mostra a representação do interesse do sujeito depois de sobreviver até o tempo. Cada queda na função de sobrevivência (aproximada pelo estimador Kaplan-Meier) é causada pelo evento de interesse acontecendo por pelo menos uma observação.,
A trama é muitas vezes acompanhada por intervalos de confiança, para descrever a incerteza sobre as estimativas pontuais-intervalos de confiança mais amplos mostram alta incerteza, isso acontece quando temos alguns participantes – ocorre em ambas as observações morrendo e sendo censurado.
coisas Importantes a considerar para Kaplan Meier Estimador de Análise
1) de que precisamos para realizar o Log Rank Test para fazer qualquer tipo de inferências.
2) os resultados de Kaplan Meier podem ser facilmente tendenciosos., O Kaplan Meier é uma abordagem univariada para resolver o problema
3) a remoção de dados Censurados causará mudanças na forma da curva. Isto irá criar distorções no modelo fit-up
4) testes estatísticos e observações se tornam enganosas se a Dicotomização de variável contínua é realizada.
5) por dicotomização significa que tomamos medidas estatísticas, tais como mediana para criar grupos, mas isso pode levar a problemas no conjunto de dados.,
tomemos o exemplo em Python
Link para Notebook- (https://drive.google.com/file/d/1VGKZNViDbx4rx_7lGMCA6dgU3XuMKGVU/view?usp=sharing)
Vamos importar o importante biblioteca necessária para o trabalho em python
Primeiro, estamos importando diferentes bibliotecas python para o nosso trabalho. Aqui, estamos tomando o conjunto de dados do câncer de pulmão. Depois das bibliotecas e carregar, vamos ler os dados usando a biblioteca pandas. O conjunto de dados contém informações diferentes
Aqui podemos ver que a Cabeça de &cauda.,
Agora, aqui importamos o código python para executar o estimador Kaplan Meier
aqui, realizamos a análise na pontuação Karnofsky que o eixo x mostra a linha do tempo e o eixo y mostra a pontuação. A melhor pontuação é 1 significa que o sujeito está apto, uma pontuação de 0 significa a pior pontuação.então aplicamos o código de Sobrevivência, terapia prévia, o tratamento aqui faremos a análise do estimador Kaplan Meier.
então, nós encaixamos kmf1 = KaplanMeierFitter() para ajustar a função Kaplan Meier e nós executamos o seguinte código para diferentes dados relacionados aos problemas de câncer de pulmão.,
Kaplan Meier estimador depois de executar o código mostra o enredo entre o Tratamento padrão de teste &Tratamento de teste.
neste papel, o meu principal objectivo era explicar a Análise de Sobrevivência Kaplan Meier Estimador. As coisas relacionadas com ele e uma descrição do problema na vida real.,
vantagens& Dis-vantagens do estimador Kaplan Meier
vantagens
1) não requer muitas características – o tempo para o evento de análise de sobrevivência é apenas necessário.
2) fornece uma visão geral média relacionada com o evento.