denna artikel publicerades som en del av Data Science Blogathon.
introduktion
överlevnadsanalys
många av oss har alltid en fråga i sinnet om hur mycket tid det tar för en händelse att hända. Liksom misslyckandet av ett mekaniskt system, blir människokroppen påverkad av någon form av sjukdom, hur mycket tid det tar att bota sjukdomarna., Då hur många kommer att överleva en specifik efter att ha gjort en medicinsk diagnos, i vilken takt kommer man att dö eller misslyckas? Är det möjligt att ta hänsyn till de flera dödsorsakerna eller misslyckandena i bredare bemärkelse? För att svara på alla dessa frågor studerar vi överlevnadsanalys.
överlevnadsanalys är en viktig gren av statistiken som beaktas för att svara på alla dessa frågor.
Överlevnadsanalysstudie måste definiera en tidsram där denna studie utförs., Som i många fall är det möjligt att den angivna tidsperioden för händelsen ska inträffa är densamma som varandra. Överlevnadsanalys innebär modellering av tid till händelsedata. Så vi måste definiera sammanhanget för överlevnadsanalys i studien som tid som ”händelsen” i samband med överlevnadsanalys.
det finns olika sätt på vilka vi utför överlevnadsanalys. Det utförs på flera sätt som när vi definierar en grupp. Några av dem är Kaplan Meier-kurvor, Cox-regressionsmodeller, Farofunktion, överlevnadsfunktion etc.,
När Överlevnadsanalysen görs för att jämföra överlevnadsanalysen av två olika grupper. Där utför vi Log-Rank-testet.
När Överlevnadsanalysen vill beskriva de kategoriska och kvantitativa variablerna för överlevnad gillar vi att göra Cox proportionell riskregression, parametriska Överlevnadsmodeller etc.
i Överlevnadsanalysen måste vi definiera vissa termer innan man fortsätter som Händelse, tid, censurering, överlevnadsfunktion etc.,
händelse, när vi pratar om, är den aktivitet som pågår eller kommer att hända i överlevnadsanalysstudien som en persons död från en viss sjukdom, tid att bli botad av en medicinsk diagnos, tid att bli botad av vacciner, tid för förekomst av fel på maskiner i tillverkningsbutikgolvet, tid för sjukdomsförekomst etc.
tid
i överlevnadsanalys fallstudie är tiden från början av överlevnadsanalysobservationen i ämnet till den tid då händelsen kommer att inträffa., Som i fallet med mekanisk maskin till ett fel måste vi veta
(A) tid för en händelse när maskinen startar
(b) När maskinen kommer att misslyckas
(c) förlust av maskin eller avstängning av maskinen från överlevnadsanalysstudien.
censurering/censurerad Observation
denna terminologi definieras som om ämnet som vi gör studien av överlevnadsanalys inte påverkas av den definierade studiehändelsen, beskrivs de som censurerade. Det censurerade ämnet kanske inte heller har någon händelse efter slutet av överlevnadsanalysobservationen., Ämnet kallas censurerat i den meningen att ingenting observerades ur ämnet efter tiden för censurering.
censurering Observation är också av 3 typer-
1. Höger censurerad
rätt censurering används i många problem. Det händer när vi inte är säkra på vad som hände med människor efter en viss tid.
det inträffar när den sanna händelsetiden är större än den censurerade tiden när C < t. detta händer om antingen vissa människor inte kan följas hela tiden eftersom de dog eller förlorades för att följa upp eller drog sig ur studien.,
2. Vänster censurerade
vänster censurering är när vi inte är säkra på vad som hände med människor före någon tidpunkt. Vänster censurering är motsatsen, inträffar när den sanna händelsetiden är mindre än den censurerade tiden när c > t.
3. Intervall censurerade
intervall censurering är när vi vet att något har hänt i ett intervall (inte innan starttid och inte efter sluttid för studien) men vi vet inte exakt när i intervallet det hände.,
Intervallcensurering är en sammanslagning av vänster och höger censurering när tiden är känd för att ha inträffat mellan två-tidpunkter
överlevnadsfunktion S (t): Detta är en sannolikhetsfunktion som beror på tidpunkten för studien. Ämnet överlever mer än tid t. Överlevnadsfunktionen ger sannolikheten att den slumpmässiga variabeln t överstiger den angivna tiden t.
Här kommer vi att diskutera Kaplan Meier-estimatorn.
Kaplan Meier Estimator
Kaplan Meier Estimator används för att uppskatta överlevnadsfunktionen för livstidsdata., Det är en icke-parametrisk statistikteknik. Det är också känt som produktgräns estimator, och konceptet ligger i att uppskatta överlevnadstiden för en viss tid som en stor medicinsk rättegång händelse, en viss tid av död, fel på maskinen, eller någon större betydande händelse.
det finns många exempel som
1. Fel på maskindelar efter flera timmars drift.
2. Hur mycket tid det tar för covid 19 vaccin att bota patienten.
3. Hur mycket tid krävs för att få ett botemedel mot en medicinsk diagnos etc.
4., För att uppskatta hur många anställda som kommer att lämna företaget under en viss tidsperiod.
5. Hur många patienter kommer att bli botade av lungcancer
För att uppskatta Kaplan Meier-överlevnaden måste vi först uppskatta Överlevnadsfunktionen S (t) är sannolikheten för händelsetid t
var (d) är antalet dödshändelser vid tiden (t) och (n) är antalet försökspersoner som riskerar döden strax före tiden (t).
antaganden om Kaplan Meier överlevnad
i verkliga fall har vi ingen uppfattning om den verkliga överlevnadsfrekvensen., Så i Kaplan Meier Estimator uppskattar vi och approximerar den sanna överlevnadsfunktionen från studiedata. Det finns 3 antaganden om Kaplan Meier överlevnad
1) överlevnads sannolikheter är desamma för alla prover som gick sent i studien och de som har gått tidigt. Överlevnadsanalysen som kan påverka antas inte förändras.
2) Händelse sker vid en viss tidpunkt.
3) censurering av studien beror inte på resultatet. Kaplan Meier-metoden beror inte på resultatet av intresse.,
tolkning av överlevnadsanalys är Y-axeln visar sannolikheten för ämne som inte har kommit under fallstudien. X-axeln visar representationen av ämnets intresse efter att ha överlevt upp till tiden. Varje droppe i överlevnadsfunktionen (approximerad av Kaplan-Meier-estimatorn) orsakas av händelse av intresse som händer för minst en observation.,
Tomten åtföljs ofta av konfidensintervall, för att beskriva osäkerheten om punktskattningarna-bredare konfidensintervall visar hög osäkerhet, detta händer när vi har några deltagare-förekommer i både observationer som dör och censureras.
viktiga saker att tänka på för Kaplan Meier Estimator analys
1) Vi måste utföra Log Rank Test för att göra någon form av slutsatser.
2) Kaplan Meiers resultat kan vara lätt partisk., Kaplan Meier är ett univariat tillvägagångssätt för att lösa problemet
3) borttagning av censurerade Data kommer att orsaka förändring i kurvformen. Detta kommer att skapa fördomar i model fit-up
4) statistiska tester och observationer blir vilseledande om Dikotomiseringen av kontinuerlig variabel utförs.
5) genom dikotomisering innebär Vi att vi vidtar statistiska åtgärder som median för att skapa grupper, men detta kan leda till problem i datauppsättningen.,
låt oss ta exemplet i Python
länk till Notebook – (https://drive.google.com/file/d/1VGKZNViDbx4rx_7lGMCA6dgU3XuMKGVU/view?usp=sharing)
låt oss importera det viktiga bibliotek som krävs för att arbeta i python
först importerar vi olika python-bibliotek för vårt arbete. – herr talman! Här tar vi lungcancerdatauppsättningen. Efter biblioteken och ladda, Vi kommer att läsa data med hjälp av pandas bibliotek. Datauppsättningen innehåller annan information
Här ser vi huvudet & svans.,
nu, här importerar vi python-koden för att utföra Kaplan Meier-estimatorn
här utför vi analysen på Karnofsky-poängen it x-axis visar tidslinjen och y-axeln visar poängen. Den bästa poängen är 1 Det betyder att ämnet är lämpligt, en poäng på 0 betyder den värsta poängen.
då tillämpar vi koden för överlevnad, tidigare behandling, Behandlingen här kommer vi att göra Kaplan Meier Estimator-analysen.
då passar vi upp Kmf1 = KaplanMeierFitter() för att montera upp Kaplan Meier-funktionen och vi kör följande kod för olika data relaterade till lungcancerproblemen.,
Kaplan Meier estimator efter att ha kört koden visar tomten mellan behandlingsstandarden&behandlingstest.
i det här dokumentet var mitt huvudmål att förklara Överlevnadsanalysen med Kaplan Meier-Estimator. Sakerna relaterade till det och en problembeskrivning i det verkliga livet.,
fördelar& Dis-fördelar med Kaplan Meier Estimator
fördelar
1) kräver inte för många funktioner – tiden till överlevnadsanalyshändelsen krävs endast.
2) ger en genomsnittlig översikt relaterad till händelsen.