mi véletlen Forest?
A Random forest a jóslatok és viselkedésanalízis modellezésére használt technika, amely döntési fákra épül. Számos döntési fát tartalmaz, amelyek a véletlenszerű erdőbe bevitt adatok osztályozásának különálló példányát képviselik. A véletlen erdő technika figyelembe veszi az esetekben külön-külön, figyelembe véve az egyik a legtöbb szavazatot, mint a kiválasztott becslés.
az osztályozások minden fája bemenetet vesz a kezdeti adatkészlet mintáiból. Ezután véletlenszerűen kiválasztják azokat a funkciókat, amelyeket a fa minden csomóponton történő termesztéséhez használnak. Az erdő minden fáját nem szabad metszeni a gyakorlat végéig, amikor az előrejelzést határozottan elérik. Ilyen módon a véletlenszerű erdő lehetővé teszi a gyenge korrelációjú osztályozók számára, hogy erős osztályozót hozzanak létre.,
gyors összefoglaló
- A Random forest olyan döntési fák kombinációja, amelyeket előrejelzési és viselkedéselemzésre lehet modellezni.
- az erdőben található döntési fát nem lehet metszeni mintavételre, így előrejelzési kiválasztásra.
- a random forest technika képes kezelni a nagy adatkészleteket, mivel képes több ezer változó működésére.
modellezési előrejelzések
a random forest módszer predikciós modelleket építhet véletlenszerű erdei regressziós fák segítségével, amelyek általában nem jelennek meg, hogy erős előrejelzéseket adjanak., A bootstrap mintavételi módszert alkalmazzák a regressziós fákon, amelyeket nem szabad metszeni. Az optimális csomópontokat a fa összes csomópontjából mintavételezik, hogy az optimális felosztási funkciót képezzék.
az optimális hasítási funkció kiválasztásánál alkalmazott véletlenszerű mintavételi technika csökkenti a korrelációt, így a regressziós fák varianciáját. Javítja az erdő különböző fáinak prediktív képességét. A bootstrap használatával végzett mintavétel növeli az egyes fák függetlenségét is.,
változó fontosság
változók (jellemzők) fontosak a véletlenszerű erdő számára, mivel kihívást jelent a modellek értelmezése, különösen biológiai szempontból. A naiv megközelítés a változók fontosságát mutatja azáltal, hogy fontosságot tulajdonít egy változónak, amely az összes fa mintába való felvételének gyakoriságán alapul. Könnyen megvalósítható, de kihívást jelent, mivel a költségcsökkentésre és a pontosságnövelésre gyakorolt hatások feleslegesek.,
a permutációs fontosság olyan intézkedés, amely nyomon követi az előrejelzési pontosságot, ahol a változókat véletlenszerűen permutálják a zsákon kívüli mintákból. A permutációs fontossági megközelítés jobban működik, mint a naiv megközelítés, de általában drágább.
mivel a véletlen erdő kihívásai nem képesek elég jól értelmezni az előrejelzéseket biológiai szempontból, a technika a naiv, átlagos csökkentési szennyeződésre, valamint a permutációs fontossági megközelítésekre támaszkodik, hogy közvetlen értelmezhetőséget biztosítsanak a kihívásoknak., A három megközelítés támogatja a prediktor változók több kategóriában.
hasonló kategóriájú, folyamatos prediktorváltozók esetében azonban mind a permutációs fontosság, mind az átlagos csökkentési szennyező megközelítések nem mutatnak biasesData-Mining Biasdata-mining elfogultság olyan fontos feltételezésre utal, amelyet a kereskedő a piacon olyan eseményhez rendel, amely valójában véletlen vagy előre nem látható eredmény volt. A változó kiválasztás gyakran torzítással jár., Ennek elkerülése érdekében az alcsaládot csere nélkül kell elvégezni, és feltételes következtetés esetén véletlenszerű erdőtechnikát kell alkalmazni.
ferde véletlenszerű erdők
A ferde véletlenszerű erdők egyediek, mivel a csomópontokon a hagyományos döntési felosztások helyett ferde felosztásokat használnak a döntésekhez. A ferde erdők sok fölényt mutatnak a következő tulajdonságok bemutatásával.
először is, a koordinátatengelyeken szétoszthatók egyetlen többváltozós split használatával, amely magában foglalja a hagyományosan szükséges mély tengelyhez igazított hasításokat., Másodszor, ezek lehetővé teszik csökkent torzítás a döntés fák a ábrázolt korlátok. A hagyományos tengelyhez igazított hasadékok két további fészkelési szintet igényelnének, amikor a hasonló osztályokat a ferde hasadékokkal elválasztják, így könnyebben és hatékonyan használhatók.
Random Forest Classifier
a random forest classifier predikciós fák gyűjteménye, ahol minden fa függ a véletlenszerűen kiválasztott vektoroktól, hasonló eloszlással a véletlenszerű erdőben lévő összes többi fával., Eredetileg gépi tanulásra tervezték, az osztályozó népszerűvé vált a távérzékelő közösségben, ahol nagy pontossága miatt távolról érzékelt képi osztályozásban alkalmazzák. A folyamat során a szükséges sebességet és a hatékony parameterizációt is eléri. A random forest osztályozó bootstraps véletlenszerű mintákat, ahol a jóslat a legmagasabb szavazatot az összes FÁK van kiválasztva.
a fák egyénisége fontos az egész folyamatban. Az egyes fák egyénisége a következő tulajdonságok miatt garantált., Először is, minden fa képzés a mintában véletlenszerű részhalmazokat használ az alapképzési mintákból. Másodszor, az optimális felosztást a nem kicsinyített fa csomópontok véletlenszerűen kiválasztott jellemzői közül választjuk ki. Harmadszor, minden fa korlátlanul nő, és nem szabad metszeni.
A véletlenszerű erdők előnyei
a véletlenszerű erdők változó fontosságra, azaz neurális hálókra vonatkozó becsléseket mutatnak. Kiváló módszert kínálnak a hiányzó adatok kezelésére is. A hiányzó értékeket az adott csomópontban leginkább megjelenő változó váltja fel., Az összes rendelkezésre álló osztályozási módszer közül a véletlenszerű erdők biztosítják a legnagyobb pontosságot.
a random forest technika nagy adatokat is képes kezelni, számos változóval, amelyek ezrekbe futnak. Automatikusan kiegyensúlyozza az adatkészleteket, ha egy osztály ritkább, mint az adatok más osztályai. A módszer gyorsan kezeli a változókat, így bonyolult feladatokra is alkalmas.
több forrás
a CFI a pénzügyi modellezést kínálja & értékelési elemző (FMVA)™FMVA® Tanúsításjoin 350,600 + diákok, akik olyan vállalatoknál dolgoznak, mint az Amazon, J. P., Morgan, Ferrari tanúsítási program azok számára, akik karrierjüket a következő szintre szeretnék vinni. A tanulás és a Tudásbázis fejlesztése érdekében kérjük, fedezze fel az alábbi további releváns CFI-erőforrásokat:
- keresztmetszeti Adatelemzéskeresztmetszeti Adatelemzéskeresztmetszeti adatelemzés a keresztmetszeti adatok elemzése., Felmérések és kormányzati nyilvántartások a keresztmetszeti adatok néhány gyakori forrása
- Klasztermintákcluster Mintavétela statisztikákban a klaszter mintavétel olyan mintavételi módszer, amelyben a vizsgálat teljes populációja külsőleg homogén, de belsőleg
- normál Eloszlásnormális eloszlása normál eloszlást Gauss vagy Gauss eloszlásnak is nevezik. Ezt a fajta eloszlást széles körben használják a természettudományokban és a társadalomtudományokban., A
- Roy ‘s Safety-First CriterionRoy’ s Safety-first CriterionRoy ‘ s safety-first criterion egy kockázatkezelési technika, amelyet a befektetők a