Dit artikel werd gepubliceerd als onderdeel van de Data Science Blogathon.
Inleiding
Survival Analysis
velen van ons hebben altijd de vraag hoeveel tijd nodig is om een gebeurtenis te laten plaatsvinden. Net als het falen van een mechanisch systeem, het menselijk lichaam wordt aangetast door elke vorm van ziekte, hoeveel tijd het zal duren om de ziekten te genezen., Hoeveel zullen er dan een specifieke overleven na het doen van een medische diagnose, in welk tempo zal men sterven of falen? Is het mogelijk om rekening te houden met de meervoudige oorzaken van overlijden of falen in een breder perspectief? Om al deze vragen te beantwoorden bestuderen we Overlevingsanalyse.
Survival analyse is een belangrijke tak van statistieken die in aanmerking wordt genomen om al deze vragen te beantwoorden.
Survival Analysis study moet een tijdsbestek definiëren waarin dit onderzoek wordt uitgevoerd., Zoals in veel gevallen is het mogelijk dat de gegeven tijdsperiode voor de gebeurtenis hetzelfde is als elkaar. Survival analysis omvat het modelleren van tijd tot gebeurtenis gegevens. Dus, we moeten de context van Survival analyse in de studie te definiëren als de tijd als de “gebeurtenis” in de context van Survival analyse.
Er zijn verschillende manieren waarop we survival analysis uitvoeren. Het wordt op verschillende manieren uitgevoerd, zoals wanneer we een groep definiëren. Sommigen van hen zijn Kaplan Meier Curves, Cox regressiemodellen, Hazard Function, Survival Function, etc.,
wanneer de Overlevingsanalyse wordt uitgevoerd om de overlevingsanalyse van twee verschillende groepen te vergelijken. Daar voeren we de Log-Rank test uit.
wanneer de Overlevingsanalyse graag de categorische en kwantitatieve variabelen over overleving beschrijft, doen we graag Cox proportionele risico ‘ s regressie, parametrische Overlevingsmodellen, enz.
in de Survival analyse, moeten we bepaalde termen definiëren voordat men verder gaat, zoals de gebeurtenis, tijd, censuur, Overlevingsfunctie, enz.,als we het hebben over de activiteit die gaande is of zal plaatsvinden in de survival analysis study, zoals de dood van een persoon aan een bepaalde ziekte, tijd om te genezen door een medische diagnose, tijd om te genezen door vaccins, tijd van het optreden van het falen van machines in de productie werkplaats, tijd voor het optreden van ziekten, enz.
tijd
in survival analysis case study is de tijd vanaf het begin van de survival analysis observation over het onderwerp tot het moment waarop de gebeurtenis zal plaatsvinden., Zoals in het geval van een mechanische Machine bij een storing moeten we het
(a) tijdstip van een gebeurtenis weten wanneer de machine zal starten
(b) wanneer de machine zal falen
(c) verlies van de machine of het uitschakelen van de machine uit de survival analysis study.
Censuring / Censored Observation
deze terminologie wordt gedefinieerd alsof het onderwerp waarop we de survival analysis bestuderen niet beïnvloed wordt door de gedefinieerde gebeurtenis van de studie, dan worden ze beschreven als gecensureerd. De gecensureerde persoon kan ook geen gebeurtenis hebben na het einde van de survival analysis observation., Het subject wordt gecensureerd genoemd in de zin dat er na het censureren niets buiten het subject werd waargenomen.
censuur observatie zijn ook van 3 types –
1. Rechts gecensureerd
rechts gecensureerd wordt in veel problemen gebruikt. Het gebeurt als we niet zeker weten wat er met mensen is gebeurd na een bepaald moment in de tijd.
Het treedt op wanneer de werkelijke gebeurtenistijd groter is dan de gecensureerde tijd wanneer c < t. dit gebeurt als sommige mensen niet de hele tijd kunnen worden gevolgd omdat ze overleden of verloren waren bij de follow-up of zich uit de studie hebben teruggetrokken.,
2. Links gecensureerd
links censureren is wanneer we niet zeker weten wat er met mensen gebeurde voor een bepaald moment in de tijd. Links censureren is het tegenovergestelde, dat optreedt wanneer de ware gebeurtenistijd korter is dan de gecensureerde tijd wanneer c > t.
3. Interval gecensureerd
Interval censuur is wanneer we weten dat er iets gebeurd is in een interval (niet voor het begin en niet na het einde van de studie) maar we weten niet precies wanneer in het interval het gebeurde.,
Intervalcensoring is een aaneenschakeling van de linker – en rechtercensoring wanneer bekend is dat de tijd is opgetreden tussen twee tijdpunten
Overlevingsfunctie S (t): Dit is een waarschijnlijkheidsfunctie die afhankelijk is van de tijd van de studie. Het onderwerp overleeft meer dan tijd t. De Survivor functie geeft de kans dat de willekeurige variabele T de opgegeven tijd t overschrijdt.
Hier zullen we de Kaplan Meier Estimator bespreken.
Kaplan Meier Estimator
Kaplan Meier Estimator wordt gebruikt om de overlevingsfunctie voor levenslange gegevens te schatten., Het is een niet-parametrische statistische techniek. Het is ook bekend als de product-limit estimator, en het concept ligt in het schatten van de overlevingstijd voor een bepaalde tijd van als een grote medische proef gebeurtenis, een bepaalde tijd van overlijden, falen van de machine, of een belangrijke belangrijke gebeurtenis.
Er zijn veel voorbeelden zoals
1. Uitval van machineonderdelen na enkele bedrijfsuren.
2. Hoeveel tijd het duurt voordat het covid 19-vaccin de patiënt geneest.
3. Hoeveel tijd is nodig om een genezing te krijgen van een medische diagnose enz.
4., Om in te schatten hoeveel werknemers het bedrijf in een bepaalde periode zullen verlaten.
5. Hoeveel patiënten zullen genezen door longkanker
om de Kaplan Meier overleving te schatten, moeten we eerst de Overlevingsfunctie schatten S (t) is de kans op gebeurtenistijd t
waarbij (d) het aantal gevallen van overlijden op het tijdstip (t) is, en (n) het aantal personen is met een risico op overlijden vlak voor het tijdstip (t).
veronderstellingen van Kaplan Meier overleving
in real-life gevallen hebben we geen idee van de echte overlevingsfunctie., Dus in Kaplan Meier Estimator schatten en schatten we de werkelijke overlevingsfunctie op basis van de studiegegevens. Er zijn 3 aannames voor de overleving van Kaplan Meier
1) overlevingskansen zijn hetzelfde voor alle monsters die zich laat in de studie hebben gevoegd en voor degenen die zich eerder hebben aangesloten. De Overlevingsanalyse die van invloed kan zijn, wordt niet geacht te veranderen.
2) Het Voorkomen van een gebeurtenis vindt plaats op een bepaald tijdstip.
3) censuur van het onderzoek is niet afhankelijk van de uitkomst. De Kaplan Meier methode is niet afhankelijk van de uitkomst van de rente.,
interpretatie van de Overlevingsanalyse is Y-as toont de waarschijnlijkheid van de proefpersoon die niet onder de casestudy valt. De x-as toont de weergave van het belang van het onderwerp na het overleven tot de tijd. Elke daling in de overlevingsfunctie (geschat door de Kaplan-Meier schatter) wordt veroorzaakt door de gebeurtenis die van belang is voor ten minste één waarneming.,
de plot gaat vaak gepaard met betrouwbaarheidsintervallen, om de onzekerheid over de puntschattingen te beschrijven-bredere betrouwbaarheidsintervallen tonen een hoge onzekerheid, dit gebeurt wanneer we een paar deelnemers hebben – komt in beide observaties voor die sterven en gecensureerd worden.
belangrijke zaken waarmee rekening moet worden gehouden bij Kaplan Meier Estimator analyse
1) We moeten de Log Rank Test uitvoeren om enige vorm van gevolgtrekkingen te maken.
2) de resultaten van Kaplan Meier kunnen gemakkelijk worden beïnvloed., De Kaplan Meier is een univariate benadering van het oplossen van het probleem
3) verwijdering van Gecensureerde gegevens zal leiden tot verandering in de vorm van de curve. Hierdoor ontstaan biases in modelopstelling
4) statistische tests en waarnemingen worden misleidend als de Dichotomisering van continue variabele wordt uitgevoerd.
5) door dichotomizing betekent dat we statistische maatregelen nemen zoals mediaan om groepen te maken, maar dit kan leiden tot problemen in de dataset.,
neem het voorbeeld in Python
Link naar Notebook- (https://drive.google.com/file/d/1VGKZNViDbx4rx_7lGMCA6dgU3XuMKGVU/view?usp=sharing)
importeer de belangrijke bibliotheek die nodig is om in python te werken
ten eerste importeren we verschillende Python-bibliotheken voor ons werk. Hier nemen we de longkankerdataset. Na de libraries en het laden, zullen we de gegevens lezen met behulp van de panda ‘ s bibliotheek. De gegevensverzameling bevat verschillende informatie
Hier zien we de Head &tail.,
nu importeren we hier de python-code voor het uitvoeren van de Kaplan Meier Estimator
Hier voeren we de analyse uit op de karnofsky-score.de x-as toont de tijdlijn en de y-as toont de score. De beste score is 1 Het betekent dat het onderwerp fit is, een score van 0 betekent de slechtste score.
dan passen we de code toe voor overleving, voorafgaande therapie, de behandeling hier zullen we de Kaplan Meier Estimator analyse doen.
dan passen we kmf1 = KaplanMeierFitter() aan voor het inrichten van de Kaplan Meier functie en draaien we de volgende code voor verschillende data gerelateerd aan de longkanker problemen.,
Kaplan Meier estimator na het uitvoeren van de code toont de plot tussen Behandelingstest standaard &Behandelingstest.
In dit artikel was mijn belangrijkste doel om de Overlevingsanalyse met Kaplan Meier Estimator te verklaren. De dingen die ermee te maken hebben en een probleembeschrijving in het echte leven.,
voordelen & Dis-voordelen van Kaplan Meier Estimator
voordelen
1) vereist niet te veel functies – tijd tot de survival analysis event is alleen vereist.
2) geeft een gemiddeld overzicht met betrekking tot de gebeurtenis.