Mikä on Random Forest?
Random forest on ennusteiden ja käyttäytymisanalyysin mallinnuksessa käytetty tekniikka, joka rakentuu ratkaisupuille. Se sisältää monia päätös puita, jotka edustavat eri oikeusasteen tuomioistuin luokittelu tiedot syötetään random forest. Satunnainen metsä-tekniikka ottaa huomioon tapauksia erikseen, kun yksi enemmistön äänistä, niin valitut ennustus.
Jokainen puu luokitukset vie tulo näytteistä alkuperäisen datajoukon. Ominaisuudet valitaan sitten satunnaisesti, joita käytetään puun kasvattamisessa kussakin solmussa. Jokaista metsässä olevaa puuta ei pidä karsia ennen harjoituksen päättymistä, kun ennustus on tehty ratkaisevasti. Siten, satunnainen metsä mahdollistaa minkä tahansa luokittimia, joilla on heikko korrelaatioiden luoda vahva luokittelija.,
Yhteenveto
- Satunnainen metsä on yhdistelmä päätös puita, jotka voidaan mallintaa ennustamiseen ja käyttäytymisen analyysi.
- metsässä olevaa päätöspuuta ei voida karsia näytteenottoa ja siten ennustevalintaa varten.
- satunnaismetsätekniikka pystyy käsittelemään suuria tietokokonaisuuksia, koska se kykenee toimimaan monien muuttujien virratessa tuhansiin.
Mallinnus Ennusteet
random forest-menetelmä voi rakentaa ennustemalleja käyttäen random forest regressio puita, jotka ovat yleensä unpruned antaa vahvoja ennusteita., Regressiopuissa käytetään bootstrap-näytteenottomenetelmää, jota ei pidä karsia. Optimaaliset solmut otetaan näytteitä puun kokonaissolmuista optimaalisen halkaisuominaisuuden muodostamiseksi.
satunnainen näytteenotto tekniikka, jota käytetään valittaessa optimaalinen jakaminen ominaisuus alentaa korrelaatio ja näin ollen varianssi regressio puita. Se parantaa eri puiden ennustuskykyä metsässä. Bootstrap-näytteenotto lisää myös yksittäisten puiden itsenäisyyttä.,
muuttujan merkitys
muuttujat (ominaisuudet) ovat satunnaismetsälle tärkeitä, sillä mallien tulkitseminen on haastavaa etenkin biologisesta näkökulmasta. Naiivi lähestymistapa osoittaa muuttujien merkityksen osoittamalla muuttujan merkityksen sen perusteella, kuinka usein kaikki puut sisällyttävät sen otokseen. Se voidaan saavuttaa helposti, mutta se on haaste, koska vaikutukset kustannusten vähentämiseen ja tarkkuuden lisäämiseen ovat tarpeettomia.,
permutaatio merkitys on toimenpide, joka seuraa ennustus tarkkuus, jossa muuttujat ovat satunnaisesti permutated out-of-bag-näytteitä. Permutation merkitys lähestymistapa toimii paremmin kuin naiivi lähestymistapa, mutta taipumus olla kalliimpia.
Koska haasteet satunnainen metsä ei voi tulkita ennustuksia tarpeeksi hyvin biologisesta näkökulmasta, tekniikka perustuu naiivi, keskimääräinen lasku epäpuhtaus, ja permutaatio merkitys lähestymistapoja antaa heille suora tulkittavuutta haasteisiin., Kolme lähestymistapaa tukevat prediktorimuuttujia, joissa on useita luokkia.
kyseessä on jatkuva ennustaja muuttujat, joilla on samanlainen useita luokkia, kuitenkin, sekä permutaatio tärkeää, ja keskimääräinen lasku impurity lähestymistavat eivät näytteille biasesData-Kaivos BiasData-mining bias viittaa oletukseen merkitystä elinkeinonharjoittaja antaa tapahtuma markkinoilla, joka todella oli sattumasta tai odottamattomia. Muuttuva valinta tulee usein bias., Sen välttämiseksi on suoritettava osapuitteita korvaamatta, ja jos käytetään ehdollista päättelyä, on käytettävä satunnaista metsätekniikkaa.
Vino Satunnainen Metsät
Vino satunnainen metsät ovat ainutlaatuisia siinä, että ne käyttävät vino halkeaa päätöksiä paikallaan tavanomaisen päätöksen jakaa solmukohdissa. Vino metsät osoittavat paljon paremmuutta näyttämällä seuraavia ominaisuuksia.
Ensimmäinen, he voivat erottaa jakaumat klo koordinaattiakselien käyttämällä yhden monimuuttuja-split, joka olisi sisällytettävä tavanomaisesti tarvitaan syvä axis-aligned halkeaa., Toiseksi ne mahdollistavat vähentynyt harhaa päätös puita piirretään rajoitteet. Perinteisen axis-aligned jakaa vaatisi kaksi tasoa pesintä, kun erottamalla vastaavat luokat vino halkeaa jolloin se on helpompi ja tehokkaampi käyttää.
Random Forest Luokittelija
satunnainen metsä luokittelija on kokoelma ennustaminen puita, jossa jokainen puu on riippuvainen satunnainen vektorit näytteet itsenäisesti, joilla on samanlainen jakauma, jossa joka toinen puu random forest., Alun perin suunniteltu kone oppiminen, luokitin on saavuttanut suosiota kaukokartoituksen yhteisö, jossa sitä sovelletaan kauko-aisti kuvien luokittelua, koska sen korkea tarkkuus. Se saavuttaa myös tarvittavan nopeuden ja tehokkaan parametrisoinnin prosessissa. Satunnainen metsä luokittelija kenkiin satunnaisia näytteitä, joissa ennustus, jossa korkein ääni kaikki puut on valittu.
puiden yksilöllisyys on tärkeää koko prosessissa. Kunkin puun yksilöllisyys on taattu seuraavien ominaisuuksien ansiosta., Ensinnäkin jokainen näytteen puukoulutus käyttää satunnaisia osajoukkoja peruskoulutusnäytteistä. Toiseksi, optimaalinen jako valitaan pruned puu solmut ’ satunnaisesti valitut ominaisuudet. Kolmanneksi jokainen puu kasvaa rajoituksetta, eikä sitä pidä karsia lainkaan.
Edut Satunnainen Metsät
Satunnainen metsät hetkellä arvioita muuttujan merkitys, eli hermo verkot. Ne tarjoavat myös erinomaisen tavan työskennellä puuttuvien tietojen kanssa. Puuttuvat arvot korvataan muuttujalla, joka esiintyy eniten tietyssä solmussa., Kaikista käytettävissä olevista luokittelumenetelmistä satunnaismetsät tarjoavat korkeimman tarkkuuden.
satunnaismetsätekniikalla pystytään käsittelemään myös big dataa, jonka lukuisat muuttujat juoksevat tuhansiin. Se voi automaattisesti tasapainottaa tietokokonaisuuksia, kun luokka on harvinaisempi kuin muut tiedot. Menetelmä käsittelee myös muuttujia nopeasti, mikä tekee siitä sopivan monimutkaisiin tehtäviin.
Enemmän Resursseja
CFI tarjoaa Financial Modeling & Arvostus Analyytikko (FMVA)™FMVA® CertificationJoin 350,600+ opiskelijat, jotka työskentelevät yritykset, kuten Amazon, J. P., Morgan, ja Ferrari sertifiointi ohjelma niille, jotka haluavat viedä uransa seuraavalle tasolle. Pitää oppimista ja kehittää tietopohjaa, ole hyvä tutkia lisää asiaa CFI resources alla:
- Cross-Sectional Data AnalysisCross-Sectional Data AnalysisCross-sectional data-analyysi on analyysi poikkipinta-aineistot., Selvitykset ja hallituksen pöytäkirjat ovat joitakin yhteisiä lähteitä poikkipinta-tiedot
- Klusterin SamplingCluster SamplingIn tilastojen klusterin otanta on otantamenetelmä, jossa koko väestön tutkimus on jaettu ulkoisesti mutta sisäisesti homogeeninen
- Normaali DistributionNormal DistributionThe normaalijakaumaa kutsutaan myös Gaussin tai Gaussin jakauma. Tämäntyyppistä jakelua käytetään laajalti luonnontieteissä ja yhteiskuntatieteissä., N
- Royn Turvallisuus Ensin CriterionRoy Turvallisuus-ensimmäinen CriterionRoy turvallisuus-ensimmäinen kriteeri on riskienhallinnan tekniikka, jota sijoittajat voivat vertailla ja valita portfolio, joka perustuu kriteeri, että todennäköisyys