Denne artikel blev offentliggjort som en del af Data Science Blogathon.
introduktion
Overlevelsesanalyse
mange af os har altid et spørgsmål i tankerne om, hvor lang tid det vil tage for en begivenhed at ske. Ligesom svigt af et mekanisk system, bliver den menneskelige krop påvirket af enhver form for sygdom, hvor lang tid det vil tage at helbrede sygdommene., Så hvor mange vil overleve en bestemt efter at have lavet en medicinsk diagnose, i hvilken hastighed vil man dø eller mislykkes? Er det muligt at tage hensyn til de mange årsager til død eller fiasko tages i den bredere opfattelse? For at besvare alle disse spørgsmål studerer vi Overlevelsesanalyse.
Overlevelsesanalyse er en vigtig gren af statistikker, der tages i betragtning for at besvare alle disse spørgsmål.
Survival Analysis study skal definere en tidsramme, hvor denne undersøgelse udføres., Som i mange tilfælde er det muligt, at den givne tidsperiode for begivenheden er den samme som hinanden. Overlevelsesanalyse involverer modellering af tid til hændelsesdata. Så vi er nødt til at definere konteksten for Overlevelsesanalyse i undersøgelsen som tid som “begivenheden” i forbindelse med Overlevelsesanalyse.
Der er forskellige måder, hvorpå vi udfører overlevelsesanalyse. Det udføres på flere måder, som når vi definerer en gruppe. Nogle af dem er Kaplan Meier-kurver, Co. – regressionsmodeller, Farefunktion, Overlevelsesfunktion osv.,
Når Overlevelsesanalysen er udført for at sammenligne overlevelsesanalysen for to forskellige grupper. Der udfører vi Log-Rank testen.
Når Overlevelsesanalysen gerne beskriver de kategoriske og kvantitative variabler om overlevelse, kan vi lide at gøre Co.proportional ha .ards regression, parametriske Overlevelsesmodeller osv.
i Overlevelsesanalysen er vi nødt til at definere bestemte udtryk, før man fortsætter som begivenheden, tiden, censurering, Overlevelsesfunktion osv.,
Arrangementet, når vi taler om, er den aktivitet, der foregår på eller kommer til at ske i overlevelse analyse undersøgelse som Død af en Person fra en bestemt sygdom, tid til at få helbredelse af en læge diagnosticere, tid til at få helbredt af vacciner, forekomsten af svigt af maskiner i produktion shop-gulvtæppe, tid til sygdomme, forekomst, osv.
tid
i overlevelsesanalyse casestudie er tiden fra begyndelsen af overlevelsesanalysen observation af emnet indtil det tidspunkt, hvor begivenheden vil forekomme., Som i tilfælde af mekanisk maskine til en fejl, skal vi kende
(a) tidspunktet for en begivenhed, hvor maskinen starter
(b) Når maskinen vil mislykkes
(C) tab af maskine eller nedlukning af maskinen fra overlevelsesanalysestudiet.
censurering/censureret Observation
denne terminologi er defineret som om emnet, som vi laver undersøgelsen af overlevelsesanalyse, ikke bliver påvirket af den definerede studiehændelse, så beskrives de som censureret. Det censurerede emne har muligvis heller ikke en begivenhed efter afslutningen af overlevelsesanalyseobservationen., Emnet kaldes censureret i den forstand, at intet blev observeret ud af emnet efter censureringstidspunktet.
censurering Observation er også af 3 typer-
1. Højre censureret
højre censurering bruges i mange problemer. Det sker, når vi ikke er sikre på, hvad der skete med mennesker efter et bestemt tidspunkt.
Det sker, når den sande begivenhed tid er større end den censurerede tidspunkt, hvor c < t. Dette sker, hvis enten nogle mennesker ikke kan følges hele tiden, fordi de er døde eller blev tabt til opfølgning eller trak sig fra undersøgelsen.,
2. Venstre censureret
venstre censurering er, når vi ikke er sikre på, hvad der skete med folk før et tidspunkt. Venstre censurering er det modsatte, der forekommer, når den sande begivenhedstid er mindre end den censurerede tid, når c > t.
3. Interval censureret
Interval censurering er, når vi ved, at der er sket noget i et interval (ikke før starttid og ikke efter undersøgelsens sluttid), men vi ved ikke nøjagtigt, hvornår det skete i intervallet.,Interval censurering er en sammenkædning af venstre og højre censurering, når tiden vides at have fundet sted mellem to tidspunkter
Overlevelsesfunktion s (t): Dette er en sandsynlighedsfunktion, der afhænger af undersøgelsens tid. Motivet overlever mere end tid t. overlevelsesfunktionen giver sandsynligheden for, at den tilfældige variabel T overstiger den specificerede tid t.
Her diskuterer vi Kaplan Meier estimatoren.
Kaplan Meier Estimator
Kaplan Meier Estimator bruges til at estimere overlevelsesfunktionen for levetidsdata., Det er en ikke-parametrisk statistik teknik. Det er også kendt som produktbegrænsnings estimatoren, og konceptet ligger i at estimere overlevelsestiden for en bestemt tid som en større medicinsk forsøgsbegivenhed, en bestemt dødstid, maskinens svigt eller enhver større væsentlig begivenhed.
Der er masser af eksempler som
1. Svigt af maskindele efter flere timers drift.
2. Hvor lang tid det vil tage for COVID 19-vaccinen at helbrede patienten.
3. Hvor meget tid der kræves for at få en kur fra en medicinsk diagnose osv.
4., At estimere, hvor mange medarbejdere der vil forlade virksomheden i en bestemt periode.
5. Hvor mange patienter vil blive helbredt af lungekræft
for at estimere Kaplan Meier-overlevelsen skal vi først estimere overlevelsesfunktionen S (t) er sandsynligheden for begivenhedstid t
hvor (D) er antallet af dødshændelser på det tidspunkt (t), og (n) er antallet af forsøgspersoner, der er i risiko for død lige før tiden (t).
antagelser om Kaplan Meier overlevelse
i virkelige tilfælde har vi ikke en ide om den sande overlevelsesrate funktion., Så i Kaplan Meier Estimator estimerer og tilnærmer vi den sande overlevelsesfunktion fra undersøgelsesdataene. Der er 3 antagelser om Kaplan Meier overlevelse
1) Overlevelsessandsynligheder er de samme for alle de prøver, der kom sent i undersøgelsen, og dem, der har tilsluttet sig tidligt. Overlevelsesanalysen, som kan påvirke, antages ikke at ændre sig.2) forekomst af begivenhed udføres på et bestemt tidspunkt.3) censurering af undersøgelsen afhænger ikke af resultatet. Kaplan Meier-metoden afhænger ikke af resultatet af interesse.,
fortolkning af Overlevelsesanalyse er Y-aksen viser sandsynligheden for individ, som ikke er omfattet af casestudiet. X-aksen viser repræsentationen af fagets interesse efter at have overlevet op til tiden. Hvert fald i overlevelsesfunktionen (tilnærmet af Kaplan-Meier estimatoren) er forårsaget af tilfælde af interesse, der sker for mindst en observation.,
handlingen ledsages ofte af konfidensintervaller for at beskrive usikkerheden omkring punktestimaterne-bredere konfidensintervaller viser stor usikkerhed, dette sker, når vi har et par deltagere – forekommer i begge observationer, der dør og censureres.
det Vigtige ting at overveje for Kaplan Meier Estimator Analyse
1) Vi har brug for til at udføre Log Rank Test til at foretage nogen form for konsekvenser.2) Kaplan Meier resultater kan let forudindtaget., Kaplan Meier er en univariat tilgang til løsning af problemet
3) Fjernelse af censurerede Data vil medføre ændringer i kurvens form. Dette vil skabe forstyrrelser i model fit-up
4) statistiske tests og observationer bliver vildlede, hvis Dikotomiseringen af kontinuerlig variabel udføres.5) ved at dichotomisere betyder det, at vi træffer statistiske foranstaltninger som median for at oprette grupper, men det kan føre til problemer i datasættet.,
Lad os tage et eksempel i Python
Link til Notebook- (https://drive.google.com/file/d/1VGKZNViDbx4rx_7lGMCA6dgU3XuMKGVU/view?usp=sharing)
Lad os importere vigtigt biblioteket, der kræves for at arbejde i python
for det Første, vi importerer forskellige python-biblioteker for vores arbejde. Her tager vi datasættet for lungekræft. Efter bibliotekerne og indlæses, læser vi dataene ved hjælp af pandas-biblioteket. Datasættet indeholder forskellige oplysninger
Her ser vi Hovedet &hale.,
nu importerer vi python-koden til udførelse af Kaplan Meier estimatoren
Her udfører vi analysen på Karnofsky-score den Dep-akse viser tidslinjen, og y-aksen viser scoren. Den bedste score er 1 Det betyder, at emnet er fit, en score på 0 betyder den værste score.
derefter anvender vi koden til overlevelse, forudgående behandling, behandlingen her vil vi lave Kaplan Meier Estimatoranalysen.
derefter passer vi op kmf1 = KaplanMeierFitter() til montering af Kaplan Meier-funktionen, og vi kører følgende kode for forskellige data relateret til lungekræftproblemerne.,
Kaplan Meier estimator efter kører den kode, der viser plot mellem Behandling test standard &Behandling test.
I dette papir, er mit vigtigste mål var at forklare Overlevelse Analyse med Kaplan Meier Estimator. De ting, der er relateret til det og en problembeskrivelse i det virkelige liv.,
Fordele & Dis-Fordele af Kaplan Meier Estimator
Fordele
1) ikke kræver alt for mange funktioner – tid til overlevelse analyse event er kun nødvendig.2) giver et gennemsnitligt overblik relateret til begivenheden.