ce este Random Forest?
Random forest este o tehnică utilizată în modelarea predicțiilor și analiza comportamentului și este construită pe arbori de decizie. Conține mulți arbori de decizie care reprezintă o instanță distinctă a clasificării datelor introduse în pădurea aleatorie. Tehnica forestieră aleatorie ia în considerare cazurile în mod individual, luând-o pe cea cu majoritatea voturilor ca predicție selectată.
Fiecare copac în clasificările ia de intrare de probe în set de date inițiale. Caracteristici sunt apoi selectate aleatoriu, care sunt utilizate în creștere copac la fiecare nod. Fiecare copac din pădure nu trebuie tăiat până la sfârșitul exercițiului, când predicția este atinsă decisiv. În acest fel, pădurea aleatorie permite oricărui clasificator cu corelații slabe să creeze un clasificator puternic.,
rezumat rapid
- Random forest este o combinație de arbori de decizie care pot fi modelate pentru predicție și analiza comportamentului.
- arborele de decizie dintr-o pădure nu poate fi tăiat pentru eșantionare și, prin urmare, selecția de predicție.
- tehnica forestieră aleatorie poate gestiona seturi mari de date datorită capacității sale de a lucra cu multe variabile care rulează la mii.
predicții de modelare
metoda forestieră aleatorie poate construi modele de predicție folosind arbori de regresie aleatorie a pădurilor, care de obicei nu sunt tăiați pentru a da predicții puternice., Metoda de eșantionare bootstrap este utilizată pe copacii de regresie, care nu trebuie tăiați. Nodurile optime sunt prelevate din nodurile totale din arbore pentru a forma caracteristica optimă de divizare.
tehnica de eșantionare aleatorie utilizată în selectarea caracteristicii optime de divizare scade corelația și, prin urmare, varianța arborilor de regresie. Îmbunătățește capacitatea predictivă a copacilor distincți din pădure. Eșantionarea folosind bootstrap crește, de asemenea, independența între copacii individuali.,variabilele (caracteristicile) sunt importante pentru pădurea aleatorie, deoarece este o provocare să interpretezi modelele, mai ales din punct de vedere biologic. Abordarea naivă arată importanța variabilelor prin atribuirea importanței unei variabile pe baza frecvenței includerii acesteia în eșantion de către toți arborii. Acesta poate fi realizat cu ușurință, dar prezintă o provocare, deoarece efectele asupra reducerii costurilor și creșterii preciziei sunt redundante.,
importanța permutării este o măsură care urmărește precizia Predicției în care variabilele sunt permutate aleatoriu din eșantioane în afara sacului. Abordarea importanței permutării funcționează mai bine decât abordarea naivă, dar tinde să fie mai scumpă.
din Cauza provocărilor din pădurea aleatorie a nu fi capabil de a interpreta predictii destul de bine din perspective biologice, tehnica se bazează pe naivi, scădere medie de impurități, și permutare importanța abordări pentru a le da direct interpretabilitatea la provocări., Cele trei abordări sprijină variabilele predictor cu mai multe categorii.
În cazul continuu variabilele predictor cu un număr similar de categorii, cu toate acestea, atât permutare importanța și scădere medie de impuritate abordări nu prezintă biasesData-Miniere BiasData-miniere prejudecata se referă la o ipoteză de importanța pe care un comerciant le atribuie o apariție în piață, care de fapt a fost rezultatul întâmplării sau neprevăzute. Selecția variabilă vine adesea cu părtinire., Pentru a evita acest lucru, ar trebui să se efectueze subsampling fără înlocuire, iar în cazul în care se utilizează inferența condiționată, ar trebui aplicată tehnica forestieră aleatorie.pădurile aleatorii oblice sunt unice prin faptul că folosesc diviziuni oblice pentru decizii în locul diviziunilor convenționale de decizie la noduri. Pădurile oblice arată o mulțime de superioritate prin expunerea următoarelor calități.
În primul rând, ele pot separa distribuțiile la axele de coordonate prin utilizarea unei singure diviziuni multivariate care ar include diviziunile aliniate cu axe adânci, necesare în mod convențional., În al doilea rând, ele permit scăderea prejudecății din arborii de decizie pentru constrângerile reprezentate grafic. Diviziunile convenționale aliniate pe axe ar necesita încă două niveluri de cuibărit atunci când se separă clase similare cu diviziunile oblice, ceea ce face mai ușor și mai eficient de utilizat.clasificatorul forestier aleatoriu este o colecție de arbori de predicție, unde fiecare copac depinde de vectori aleatorii eșantionați independent, cu o distribuție similară cu orice alt copac din pădurea aleatorie., Conceput inițial pentru învățarea automată, clasificatorul a câștigat popularitate în comunitatea de teledetecție, unde este aplicat în clasificarea imaginilor de la distanță datorită preciziei sale ridicate. De asemenea, realizează viteza corespunzătoare necesară și parametrizarea eficientă în acest proces. Random forest classifier bootstraps probe aleatoare în cazul în care este selectat predicția cu cel mai mare vot din toți copacii.individualitatea copacilor este importantă în întregul proces. Individualitatea fiecărui copac este garantată datorită următoarelor calități., În primul rând, fiecare formare copac în eșantion utilizează subseturi aleatoare din probele de formare inițială. În al doilea rând, împărțirea optimă este aleasă dintre caracteristicile selectate aleator ale nodurilor de arbori neimprimați. În al treilea rând, fiecare copac crește fără limite și nu trebuie tăiat deloc.
avantajele pădurilor aleatorii
pădurile aleatorii prezintă estimări pentru o importanță variabilă, adică rețele neuronale. De asemenea, oferă o metodă superioară pentru lucrul cu datele lipsă. Valorile lipsă sunt înlocuite de variabila care apare cel mai mult într-un anumit nod., Dintre toate metodele de clasificare disponibile, pădurile aleatorii oferă cea mai mare precizie.tehnica forestieră aleatorie poate gestiona, de asemenea, date mari cu numeroase variabile care rulează în mii. Poate echilibra automat seturile de date atunci când o clasă este mai rară decât alte clase din date. Metoda se ocupă, de asemenea, variabile rapid, făcându-l potrivit pentru sarcini complicate.
Mai multe Resurse
CFI oferă Modelare Financiară & Evaluare Analist (FMVA)™FMVA® CertificationJoin 350,600+ studenții care lucrează pentru companii precum Amazon, J. P., Morgan, și Ferrari programul de certificare pentru cei care doresc să ia cariera lor la nivelul următor. Pentru a păstra de învățare și a dezvolta cunoștințele de bază, vă rugăm să exploreze suplimentare relevante CFI resursele de mai jos:
- Date Transversale AnalysisCross Secțiunii Date AnalysisCross secțiunii de analiză a datelor este analiza transversală a seturilor de date., Studii și documente ale guvernului sunt unele comune surse de date transversale
- Grup SamplingCluster SamplingIn statistică de eșantionare cluster este o metodă de eșantionare în care întreaga populație de studiu este împărțit în exterior omogen dar pe plan intern
- Normal DistributionNormal DistributionThe distribuție normală este, de asemenea, menționată ca Gauss sau Gauss, distribuție. Acest tip de distribuție este utilizat pe scară largă în științele naturale și sociale., La
- lui Roy Siguranță, în Primul rând CriterionRoy Siguranța-în primul rând CriterionRoy de siguranță-primul criteriu este un risc tehnică de management utilizate de investitori pentru a compara și alege un portofoliu bazat pe criteriul că probabilitatea