Random Forest (Čeština)

co je to Random Forest?

Random forest je technika používaná při modelování předpovědí a analýzy chování a je postavena na rozhodovacích stromech. Obsahuje mnoho rozhodovacích stromů, které představují zřetelnou instanci klasifikace zadávání dat do náhodného lesa. Náhodný Lesní technika bere v úvahu případy jednotlivě, přičemž ten s většinou hlasů jako zvolenou predikci.

Obrázek 1., Random Forest Struktura (Zdroj)

Každý strom v klasifikace bere vstup ze vzorků v původní dataset. Funkce jsou pak náhodně vybrány, které se používají při pěstování stromu v každém uzlu. Každý strom v lese by neměl být prořezáván až do konce cvičení, kdy je predikce rozhodně dosažena. Náhodný les tak umožňuje všem klasifikátorům se slabými korelacemi vytvořit silný klasifikátor.,

rychlé shrnutí

  • Random forest je kombinace rozhodovacích stromů, které lze modelovat pro predikci a analýzu chování.
  • rozhodovací strom v lese nelze prořezat pro odběr vzorků, a tedy výběr predikce.
  • technika random forest zvládne velké datové sady díky své schopnosti pracovat s mnoha proměnnými běžícími na tisíce.

Modelování Předpovědi

random forest metoda může vytvořit predikční modely pomocí náhodných lesů regresní stromy, které jsou obvykle unpruned dát silný předpovědi., Metoda vzorkování bootstrap se používá na regresních stromech, které by neměly být prořezávány. Optimální uzly jsou vzorkovány z celkových uzlů ve stromu, aby se vytvořila optimální funkce rozdělení.

technika náhodného odběru vzorků používaná při výběru optimální funkce štěpení snižuje korelaci a tím i rozptyl regresních stromů. Zlepšuje prediktivní schopnost odlišných stromů v lese. Odběr vzorků pomocí bootstrap také zvyšuje nezávislost mezi jednotlivými stromy.,

proměnná význam

proměnné (funkce) jsou pro náhodný les důležité, protože je to výzva k interpretaci modelů, zejména z biologického hlediska. Naivní přístup ukazuje důležitost proměnných přiřazením důležitosti proměnné na základě frekvence jejího zařazení do vzorku všemi stromy. Toho lze snadno dosáhnout, ale představuje výzvu, protože účinky na snížení nákladů a zvýšení přesnosti jsou nadbytečné.,

význam permutace je opatření, které sleduje přesnost predikce, kde jsou proměnné náhodně permutovány ze vzorků mimo vak. Přístup k permutační důležitosti funguje lépe než naivní přístup, ale bývá dražší.

Vzhledem k výzvám random forest není schopen interpretovat předpovědi dost dobře z biologické perspektivy, technika se opírá o naivní, průměrný pokles nečistoty, a permutace význam přístupy, aby jim přímá interpretovatelnost na výzvy., Tyto tři přístupy podporují prediktorové proměnné s více kategoriemi.

V případě kontinuální prediktor proměnných s podobným počtem kategorií, nicméně, jak obě permutace význam a tím snížit nečistota přístupy nevykazují biasesData-Těžba BiasData-mining bias vychází z předpokladu, že význam obchodník přiřadí k výskytu na trhu, který skutečně bylo výsledkem náhody nebo nepředvídané. Variabilní výběr často přichází s předpojatostí., Aby se tomu zabránilo, je třeba provádět subsampling bez náhrady a tam, kde se používá podmíněný závěr, by měla být použita náhodná Lesní technika.

Šikmé Náhodné Lesy

Šikmé náhodné lesy jsou jedinečné v tom, že využít šikmé rozdělení pro rozhodování na místě konvenčního rozhodnutí rozdělí na uzly. Šikmé lesy vykazují velkou převahu tím, že vykazují následující vlastnosti.

nejprve mohou oddělit rozdělení na souřadnicových osách pomocí jediného vícerozměrného rozdělení, které by zahrnovalo konvenčně potřebné hluboké osy zarovnané rozdělení., Za druhé, umožňují snížení zaujatosti rozhodovacích stromů pro vynesená omezení. Konvenční osy zarovnané rozdělení by vyžadovalo další dvě úrovně hnízdění při oddělování podobných tříd se šikmými mezerami, což by usnadnilo a efektivní použití.

Random Forest Classifier

random forest classifier je sbírka předpověď stromy, kde každý strom je závislá na náhodné vektory vzorku nezávisle na sobě, s podobnou distribuci s každý jiný strom v random forest., Klasifikátor, původně navržený pro strojové učení, získal popularitu v komunitě pro dálkový průzkum, kde se díky své vysoké přesnosti používá v dálkově snímané klasifikaci snímků. Dosahuje také požadované rychlosti a efektivní parametrizace v procesu. Random forest classifier bootstraps náhodné vzorky, kde je vybrána předpověď s nejvyšším hlasováním ze všech stromů.

individualita stromů je důležitá v celém procesu. Individualita každého stromu je zaručena díky následujícím vlastnostem., Za prvé, každý stromový trénink ve vzorku používá náhodné podmnožiny z počátečních vzorků výcviku. Za druhé, optimální rozdělení je vybráno z náhodně vybraných funkcí unpruned Tree nodes. Za třetí, každý strom roste bez omezení a neměl by být ořezán vůbec.

výhody náhodných lesů

náhodné lesy představují odhady proměnlivé důležitosti, tj. neuronové sítě. Nabízejí také vynikající metodu pro práci s chybějícími daty. Chybějící hodnoty jsou nahrazeny proměnnou, která se nejvíce objevuje v konkrétním uzlu., Ze všech dostupných klasifikačních metod poskytují náhodné lesy nejvyšší přesnost.

technika random forest může také zpracovávat velká data s četnými proměnnými, které se dostanou do tisíců. Může automaticky vyvážit datové sady, když je třída v datech častější než jiné třídy. Metoda také zpracovává proměnné rychle, což je vhodné pro složité úkoly.

Více Zdrojů

CFI nabízí Finanční Modelování & Ocenění Analytik (FMVA)™FMVA® CertificationJoin 350,600+ studenti, kteří pracují pro společnosti, jako je Amazon, J. P., Morgan, a Ferrari certifikační program pro ty, kteří chtějí vzít svou kariéru na další úroveň. Chcete-li pokračovat v učení a rozvoji své znalostní báze, prosím, prozkoumejte další relevantní zdroje CFI níže:

  • průřezová Analýza dat v průřezu-analýza průřezových dat v průřezu-analýza průřezových dat je analýza průřezových dat., Průzkumy a vládní záznamy jsou některé běžné zdroje průřezová data
  • Cluster SamplingCluster SamplingIn statistiky, clusteru vzorkování je vzorkování metoda, při které celé populaci studie je rozdělena do externě homogenní, ale vnitřně
  • Normální DistributionNormal DistributionThe normální rozdělení je také známo jako Gaussovo nebo Gaussova rozdělení. Tento typ distribuce je široce používán v přírodních a společenských vědách.,
  • Roy Bezpečnost-První CriterionRoy Bezpečnost-první CriterionRoy bezpečnost-první kritérium je řízení rizik, techniky používají investoři porovnat a vybrat si portfolio na základě kritéria, že pravděpodobnost,

Share

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *