Acest articol a fost publicat ca parte a Blogathonului științei datelor.
Introducere
analiza supraviețuirii
mulți dintre noi au întotdeauna o întrebare în minte cu privire la cât timp va dura pentru ca un eveniment să se întâmple. Ca eșecul unui sistem mecanic, organismul uman obtinerea afectate de orice fel de boală, cât de mult timp va dura pentru a vindeca bolile., Atunci câți vor supraviețui unui anumit după ce au făcut un diagnostic medical, la ce rată va muri sau nu? Este posibil să se ia în considerare multiplele cauze de deces sau eșec să fie luate în vedere mai larg? Pentru a răspunde la toate aceste întrebări studiem analiza supraviețuirii.analiza supraviețuirii este o ramură importantă a statisticilor care este luată în considerare pentru a răspunde la toate aceste întrebări.studiul de analiză a supraviețuirii trebuie să definească un interval de timp în care se realizează acest studiu., Ca și în multe cazuri, este posibil ca perioada de timp dată pentru ca evenimentul să aibă loc să fie aceeași ca și celelalte. Analiza de supraviețuire implică modelarea timpului până la datele evenimentului. Deci, trebuie să definim contextul analizei supraviețuirii în studiu ca timpul ca „eveniment” în contextul analizei supraviețuirii.
există diferite moduri în care efectuăm analiza supraviețuirii. Se realizează în mai multe moduri, cum ar fi atunci când definim un grup. Unele dintre ele sunt curbele Kaplan Meier, modelele de regresie Cox, funcția de pericol, funcția de supraviețuire etc.,
când analiza de supraviețuire se face pentru a compara analiza de supraviețuire a două grupuri diferite. Acolo efectuăm testul Log-Rank.
când analiza de supraviețuire vrea să descrie variabilele categorice și cantitative privind supraviețuirea, ne place să facem regresia proporțională a pericolelor Cox, modele parametrice de supraviețuire etc.
în analiza supraviețuirii, trebuie să definim anumiți termeni înainte de a continua, cum ar fi evenimentul, timpul, cenzurarea, funcția de supraviețuire etc.,
Eveniment, atunci când vorbim, este o activitate care se întâmplă sau se va întâmpla în analiza de supraviețuire de studiu, cum ar fi Moartea unei Persoane dintr-o anumită boală, timp pentru a se vindeca de o diagnoză medicală, timp pentru a se vindeca de vaccinuri, timp de apariție a insuficienței de mașini în atelier de fabricație, timp pentru aparitiei bolilor, etc.
timpul
în analiza de supraviețuire studiul de caz este timpul de la începutul observării analizei de supraviețuire pe subiect până la momentul în care evenimentul va avea loc., Ca și în cazul mașinii mecanice la o defecțiune, trebuie să cunoaștem timpul
(a) al unui eveniment când mașina va porni
(b) când mașina va eșua
(c) pierderea mașinii sau oprirea mașinii din studiul de analiză a supraviețuirii.această terminologie este definită ca și cum subiectul pe care facem studiul analizei supraviețuirii nu este afectat de evenimentul definit de studiu, atunci ele sunt descrise ca fiind cenzurate. Subiectul cenzurat ar putea, de asemenea, să nu aibă un eveniment după încheierea observației analizei de supraviețuire., Subiectul este numit cenzurat în sensul că nimic nu a fost observat din subiect după momentul cenzurii.observarea cenzurii este de asemenea de 3 tipuri –
1. Corect cenzurat
corect cenzura este folosit în multe probleme. Se întâmplă atunci când nu suntem siguri ce sa întâmplat cu oamenii după un anumit moment în timp.
aceasta Se produce atunci cand adevărat eveniment este mai mare decât cenzurat momentul c < t. Acest lucru se întâmplă dacă unii oameni nu pot fi urmat tot timpul, pentru că au murit sau au fost pierduți din urmărire sau s-au retras din studiu.,
2. Stânga cenzurat
stânga cenzura este atunci când nu suntem siguri ce sa întâmplat cu oamenii înainte de un anumit moment în timp. Cenzurarea la stânga este opusul, care apare atunci când timpul adevărat al evenimentului este mai mic decât timpul cenzurat când c > t.
3. Intervalul cenzurat
intervalul cenzurat este atunci când știm că s-a întâmplat ceva într-un interval (nu înainte de începerea timpului și nu după terminarea timpului studiului), dar nu știm exact când s-a întâmplat în interval.,
intervalul de cenzurare este o concatenare a cenzurii stânga și dreapta atunci când timpul este cunoscut că a avut loc între două puncte de timp
funcția de supraviețuire S (t): Aceasta este o funcție de probabilitate care depinde de timpul studiului. Subiectul supraviețuiește mai mult decât timpul t. funcția supraviețuitoare dă probabilitatea ca variabila aleatorie T să depășească timpul specificat t.
aici vom discuta Estimatorul Kaplan Meier.Estimatorul Kaplan Meier este utilizat pentru a estima funcția de supraviețuire pentru datele de viață., Este o tehnică statistică non-parametrică. Este, de asemenea, cunoscut sub numele de estimator limită de produs, iar conceptul constă în estimarea timpului de supraviețuire pentru o anumită perioadă de timp ca un eveniment major de studiu medical, un anumit timp de deces, defectarea mașinii sau orice eveniment semnificativ major.
există o mulțime de exemple, cum ar fi
1. Defectarea pieselor mașinii după câteva ore de funcționare.
2. Cât timp va dura vaccinul COVID 19 pentru a vindeca pacientul.
3. Cât timp este necesar pentru a obține un tratament de la un diagnostic medical etc.
4., Pentru a estima câți angajați vor părăsi compania într-o anumită perioadă de timp.
5. Pentru a estima supraviețuirea Kaplan Meier trebuie mai întâi să estimăm funcția de supraviețuire S (t) este probabilitatea timpului evenimentului t
unde (d) sunt numărul de evenimente de deces la momentul (T) și (n) este numărul de subiecți cu risc de deces chiar înainte de ora (t).
ipoteze de supraviețuire Kaplan Meier
în cazurile din viața reală, nu avem o idee despre adevărata funcție a ratei de supraviețuire., Deci, în Estimatorul Kaplan Meier estimăm și aproximăm adevărata funcție de supraviețuire din datele studiului. Există 3 ipoteze ale supraviețuirii Kaplan Meier
1) probabilitățile de supraviețuire sunt aceleași pentru toate probele care s-au alăturat târziu în studiu și pentru cei care s-au alăturat devreme. Analiza supraviețuirii care poate afecta nu se presupune că se schimbă.2) apariția evenimentului se face la un moment dat.3) cenzurarea studiului nu depinde de rezultat. Metoda Kaplan Meier nu depinde de rezultatul interesului.,
interpretarea analizei de supraviețuire este axa Y arată probabilitatea de subiect care nu a intrat în studiul de caz. Axa X arată reprezentarea interesului subiectului după ce a supraviețuit până la timp. Fiecare scădere a funcției de supraviețuire (aproximată de Estimatorul Kaplan-Meier) este cauzată de evenimentul de interes care se întâmplă pentru cel puțin o observație.,
complotul este adesea însoțit de intervale de încredere, pentru a descrie incertitudinea cu privire la estimările punctului-intervalele de încredere mai largi arată o incertitudine ridicată, acest lucru se întâmplă atunci când avem câțiva participanți – apare atât în observațiile pe moarte, cât și în cele cenzurate.
lucruri Importante să ia în considerare pentru Kaplan Meier Estimator Analiza
1) trebuie să efectuați Log Rank Test pentru a face orice fel de concluzii.
2) Rezultatele Kaplan Meier pot fi ușor părtinitoare., Kaplan Meier este o abordare univariată pentru rezolvarea problemei
3) eliminarea datelor cenzurate va determina schimbarea formei curbei. Acest lucru va crea prejudecăți în modelul fit-up
4) testele și observațiile statistice devin înșelătoare dacă se efectuează Dihotomizarea variabilei continue.5) prin dihotomizare se iau măsuri statistice, cum ar fi mediana, pentru a crea grupuri, dar acest lucru poate duce la probleme în setul de date.,
Să luăm de exemplu în Python
Link-ul de la Notebook- (https://drive.google.com/file/d/1VGKZNViDbx4rx_7lGMCA6dgU3XuMKGVU/view?usp=sharing)
Să ne importa importantă bibliotecă necesare pentru a lucra în python
în Primul rând, suntem importator diferite biblioteci python pentru munca noastră. Aici, luăm setul de date privind cancerul pulmonar. După Biblioteci și încărcare, vom citi datele folosind biblioteca Panda. Setul de date conține informații diferite
Aici vom vedea Cap &coada.,
acum, aici importăm codul python pentru efectuarea estimatorului Kaplan Meier
aici, efectuăm analiza pe scorul Karnofsky, axa x descrie cronologia, iar axa y arată scorul. Cel mai bun scor este 1 înseamnă că subiectul este în formă, un scor de 0 înseamnă cel mai rău scor.apoi aplicăm codul pentru supraviețuire, terapia prealabilă, tratamentul aici vom face analiza estimatorului Kaplan Meier.
apoi, ne potrivim kmf1 = KaplanMeierFitter () pentru montarea funcției Kaplan Meier și rulăm următorul cod pentru diferite date legate de problemele legate de cancerul pulmonar.,
Kaplan Meier estimator după rularea de cod arată complot între Tratamentul standard de testare &Tratament de testare.
În această lucrare, mi-obiectiv-cheie a fost de a explica Analiza de Supraviețuire Kaplan Meier Estimator. Lucrurile legate de ea și o descriere a problemei în viața reală.,
Avantaje & Dis-Avantajele Kaplan Meier Estimator
Avantaje
1) nu Are nevoie de prea multe caracteristici – timp pentru analiza de supraviețuire eveniment este necesară numai.
2) oferă o imagine de ansamblu medie legată de eveniment.