Random Forest (Polski)

czym jest Random Forest?

Random forest jest techniką stosowaną w modelowaniu prognoz i analizy zachowania i jest zbudowana na drzewach decyzyjnych. Zawiera wiele drzew decyzyjnych, które stanowią odrębny przykład klasyfikacji danych wprowadzanych do losowego lasu. Technika Las losowy bierze pod uwagę instancje indywidualnie, biorąc ten z większością głosów jako wybraną prognozę.

Rysunek 1., Losowa struktura lasu (źródło)

każde drzewo w klasyfikacji pobiera dane wejściowe z próbek w początkowym zbiorze danych. Cechy są następnie losowo wybierane, które są używane do uprawy drzewa na każdym węźle. Każde drzewo w lesie nie powinno być przycinane do końca ćwiczenia, gdy przewidywanie zostanie osiągnięte zdecydowanie. W ten sposób losowy Las umożliwia dowolnym klasyfikatorom o słabych korelacjach stworzenie silnego klasyfikatora.,

Szybkie podsumowanie

  • Random forest jest kombinacją drzew decyzyjnych, które można modelować do przewidywania i analizy zachowania.
  • drzewo decyzyjne w lesie nie może być przycinane do pobierania próbek, a co za tym idzie, do wyboru prognoz.
  • technika random forest może obsługiwać duże zbiory danych ze względu na swoją zdolność do pracy z wieloma zmiennymi działającymi do tysięcy.

Modelowanie prognoz

metoda random forest może budować modele predykcyjne przy użyciu losowych drzew regresji lasu, które są zwykle nieobciążone, aby dać silne prognozy., Metoda próbkowania bootstrap jest używana na drzewach regresyjnych, które nie powinny być przycinane. Optymalne węzły są pobierane z wszystkich węzłów w drzewie, aby utworzyć funkcję optymalnego podziału.

technika losowego pobierania próbek stosowana przy wyborze optymalnej funkcji podziału obniża korelację, a tym samym wariancję drzew regresji. Poprawia zdolność przewidywania poszczególnych drzew w lesie. Pobieranie próbek za pomocą bootstrap zwiększa również niezależność między poszczególnymi drzewami.,

Znaczenie zmiennych

zmienne (cechy) są ważne dla losowego lasu, ponieważ interpretacja modeli jest wyzwaniem, zwłaszcza z biologicznego punktu widzenia. Naiwne podejście pokazuje znaczenie zmiennych, przypisując znaczenie zmiennej w oparciu o częstotliwość jej włączenia do próby przez wszystkie drzewa. Można to łatwo osiągnąć, ale stanowi wyzwanie, ponieważ wpływ na redukcję kosztów i zwiększenie dokładności są zbędne.,

znaczenie permutacji jest miarą, która śledzi dokładność predykcji, w której zmienne są losowo permutowane z próbek poza workiem. Podejście do znaczenia permutacji działa lepiej niż podejście naiwne, ale wydaje się być droższe.

ze względu na to, że losowy las nie jest w stanie wystarczająco dobrze zinterpretować prognoz z biologicznych perspektyw, technika opiera się na naiwnym, średnim spadku nieczystości, a znaczenie permutacji zbliża się, aby dać im bezpośrednią interpretację wyzwań., Trzy podejścia obsługują zmienne predykcyjne z wieloma kategoriami.

w przypadku ciągłych zmiennych predykcyjnych o podobnej liczbie kategorii, jednak zarówno znaczenie permutacji, jak i średnie podejście do zanieczyszczenia spadkowego nie wykazują biasesData-Mining biasdata-mining bias odnosi się do założenia znaczenia, które przedsiębiorca przypisuje do wystąpienia na rynku, które faktycznie było wynikiem przypadku lub nieprzewidzianego. Wybór zmiennej często wiąże się z tendencją., Aby tego uniknąć, należy przeprowadzić podpróbkowanie bez zastępowania, a w przypadku stosowania wnioskowania warunkowego należy zastosować technikę random forest.

skośne losowe lasy

skośne losowe lasy są unikalne, ponieważ wykorzystują skośne podziały dla decyzji zamiast konwencjonalnych podziałów decyzji w węzłach. Skośne lasy wykazują dużą wyższość, wykazując następujące cechy

Po pierwsze, mogą rozdzielać dystrybucje na osiach współrzędnych za pomocą pojedynczego wielowymiarowego podziału, który obejmowałby konwencjonalnie potrzebne głębokie podziały wyrównane do osi., Po drugie, umożliwiają zmniejszenie uprzedzeń z drzew decyzyjnych dla wykreślonych ograniczeń. Konwencjonalne podziałki wyrównane do osi wymagałyby dwóch dodatkowych poziomów zagnieżdżania podczas oddzielania podobnych klas za pomocą podziałów ukośnych, co byłoby łatwiejsze i wydajne w użyciu.

Random Forest Classifier

random forest classifier to zbiór drzew predykcyjnych, w których każde drzewo jest zależne od losowych wektorów próbkowanych niezależnie, o podobnym rozkładzie z każdym innym drzewem w losowym lesie., Pierwotnie zaprojektowany do uczenia maszynowego, klasyfikator zyskał popularność w społeczności teledetekcji, gdzie jest stosowany w klasyfikacji obrazów ze względu na wysoką dokładność. Osiąga również odpowiednią wymaganą prędkość i skuteczną parametryzację w procesie. Losowe klasyfikatory leśne uruchamiają losowe próbki, w których wybierana jest Prognoza z najwyższym głosowaniem ze wszystkich drzew.

indywidualność drzew jest ważna w całym procesie. Indywidualność każdego drzewa jest gwarantowana dzięki następującym cechom., Po pierwsze, każdy trening drzewa w próbce wykorzystuje losowe podzbiory z początkowych próbek treningowych. Po drugie, optymalny podział jest wybierany z losowo wybranych funkcji nierozpuszczonych węzłów drzewa. Po trzecie, każde drzewo rośnie bez ograniczeń i nie powinno być w ogóle przycinane.

zalety lasów losowych

lasy losowe prezentują oszacowania zmienności znaczenia, czyli sieci neuronowych. Oferują również doskonałą metodę pracy z brakującymi danymi. Brakujące wartości są zastępowane przez zmienną pojawiającą się najczęściej w danym węźle., Spośród wszystkich dostępnych metod klasyfikacji lasy losowe zapewniają najwyższą dokładność.

technika random forest może również obsługiwać duże dane z wieloma zmiennymi działającymi w tysiącach. Może automatycznie równoważyć zbiory danych, gdy klasa jest rzadsza niż inne klasy w danych. Metoda szybko obsługuje również zmienne, dzięki czemu nadaje się do skomplikowanych zadań.

więcej zasobów

CFI oferuje modelowanie finansowe& Valuation Analyst (FMVA)™certyfikat FMVA® Dołącz do 350,600+ studentów, którzy pracują dla firm takich jak Amazon, J. P., Morgan i Ferrari program certyfikacji dla tych, którzy chcą przenieść swoją karierę na wyższy poziom. Aby kontynuować naukę i rozwijać swoją bazę wiedzy, zapoznaj się z dodatkowymi odpowiednimi zasobami SPI poniżej:

  • Analiza danych Przekrojowychanaliza danych Przekrojowychanaliza danych Przekrojowychanaliza danych przekrojowych jest analizą zestawów danych przekrojowych., Badania i zapisy rządowe są niektórymi typowymi źródłami danych przekrojowych
  • Sampling Cluster Samplingw statystykach, próbkowanie klastra jest metodą pobierania próbek, w której cała populacja badania jest podzielona na zewnętrznie jednorodne, ale wewnętrznie
  • rozkład normalny rozkład normalny jest również określany jako rozkład Gaussa lub Gaussa. Ten rodzaj dystrybucji jest szeroko stosowany w naukach przyrodniczych i społecznych., The
  • Roy 's Safety-First CriterionRoy' s Safety-first criterionroy 's safety-first criterionroy' s Safety-first criterion jest techniką zarządzania ryzykiem stosowaną przez inwestorów do porównania i wyboru portfela w oparciu o kryterium prawdopodobieństwa

Share

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *