Was ist Random Forest?
Random Forest ist eine Technik, die bei der Modellierung von Vorhersagen und Verhaltensanalysen verwendet wird und auf Entscheidungsbäumen basiert. Es enthält viele Entscheidungsbäume, die eine bestimmte Instanz der Klassifizierung von Daten darstellen, die in die Zufallsstruktur eingegeben werden. Die Random-Forest-Technik berücksichtigt die Instanzen einzeln, wobei die mit der Mehrheit der Stimmen ausgewählte Vorhersage berücksichtigt wird.
Jeder Baum in den Klassifikationen nimmt Eingaben aus Stichproben im ursprünglichen Datensatz vor. Features werden dann zufällig ausgewählt, die beim Wachsen des Baumes an jedem Knoten verwendet werden. Jeder Baum im Wald sollte erst am Ende der Übung beschnitten werden, wenn die Vorhersage entscheidend erreicht ist. Auf diese Weise ermöglicht die Zufallsstruktur allen Klassifikatoren mit schwachen Korrelationen, einen starken Klassifikator zu erstellen.,
Quick Summary
- Random Forest ist eine Kombination von Entscheidungsbäumen, die zur Vorhersage und Verhaltensanalyse modelliert werden können.
- Der Entscheidungsbaum in einem Wald kann nicht zur Probenahme und damit zur Vorhersageauswahl beschnitten werden.
- Die Random Forest-Technik kann große Datensätze verarbeiten, da sie mit vielen Variablen arbeiten kann, die zu Tausenden ausgeführt werden.
Modellierungsvorhersagen
Die Random Forest-Methode kann Vorhersagemodelle mit zufälligen Forest-Regressionsbäumen erstellen, die normalerweise nicht überprüft werden, um starke Vorhersagen zu geben., Die Bootstrap-Stichprobenmethode wird für die Regressionsbäume verwendet, die nicht beschnitten werden sollten. Optimale Knoten werden aus den Gesamtknoten im Baum abgetastet, um die optimale Aufteilungsfunktion zu bilden.
Die bei der Auswahl des optimalen Splittingmerkmals verwendete Zufallsstichprobenmethode senkt die Korrelation und damit die Varianz der Regressionsbäume. Es verbessert die Vorhersagefähigkeit verschiedener Bäume im Wald. Die Stichprobe mit Bootstrap erhöht auch die Unabhängigkeit zwischen einzelnen Bäumen.,
Variable Wichtigkeit
Variablen (Features) sind wichtig für den Zufallswald, da es eine Herausforderung ist, die Modelle zu interpretieren, insbesondere aus biologischer Sicht. Der naive Ansatz zeigt die Bedeutung von Variablen, indem er einer Variablen basierend auf der Häufigkeit ihrer Aufnahme in die Stichprobe durch alle Bäume Bedeutung zuweist. Es kann leicht erreicht werden, stellt jedoch eine Herausforderung dar, da die Auswirkungen auf Kostensenkung und Genauigkeitssteigerung überflüssig sind.,
Die Permutation Wichtigkeit ist ein Maß, das Vorhersagegenauigkeit verfolgt, wo die Variablen zufällig von out-of-bag Proben permutiert werden. Der Permutationseffekt funktioniert besser als der naive Ansatz, ist aber tendenziell teurer.
Aufgrund der Herausforderungen, dass der Zufallswald Vorhersagen aus biologischer Sicht nicht gut genug interpretieren kann, stützt sich die Technik auf die naive, mittlere Abnahme Verunreinigung und die Permutation von Ansätzen, um sie direkt zu interpretieren zu den Herausforderungen., Die drei Ansätze unterstützen die Prädiktorvariablen mit mehreren Kategorien.
Bei kontinuierlichen Prädiktorvariablen mit einer ähnlichen Anzahl von Kategorien weisen jedoch sowohl die Permutationsbedeutung als auch die Ansätze zur mittleren Abnahme keine Verzerrung aufdata-Mining-Verzerrung Data-Mining-Verzerrung bezieht sich auf eine Annahme der Bedeutung, die ein Händler einem Ereignis auf dem Markt zuweist, das tatsächlich auf Zufall oder Unvorhergesehenes zurückzuführen ist. Variable Auswahl kommt oft mit Voreingenommenheit., Um dies zu vermeiden, sollte man Subsampling ohne Ersatz durchführen, und wo bedingte Inferenz verwendet wird, sollte Random Forest-Technik angewendet werden.
Oblique Random Forests
Oblique Random Forests sind insofern einzigartig, als sie schräge Splits für Entscheidungen anstelle der herkömmlichen Entscheidungssplits an den Knoten verwenden. Schräge Wälder zeigen viel Überlegenheit, indem sie folgende Eigenschaften aufweisen.
Zunächst können sie Verteilungen an den Koordinatenachsen durch die Verwendung eines einzelnen multivariaten Splits trennen, der die herkömmlicherweise benötigten tiefen achsenausgerichteten Splits enthält., Zweitens ermöglichen sie eine verringerte Verzerrung der Entscheidungsbäume für die geplotteten Einschränkungen. Die herkömmlichen achsengerichteten Splits erfordern zwei weitere Verschachtelungsebenen, wenn ähnliche Klassen mit den schrägen Splits getrennt werden, was die Verwendung einfacher und effizienter macht.
Random Forest Classifier
Der Random Forest Classifier ist eine Sammlung von Vorhersagebäumen, bei denen jeder Baum von Zufallsvektoren abhängig ist, die unabhängig voneinander abgetastet wurden, mit ähnlicher Verteilung wie jeder andere Baum im Random Forest., Ursprünglich für maschinelles Lernen entwickelt, hat der Klassifikator Popularität in der Fernerkundungsgemeinschaft gewonnen, wo er aufgrund seiner hohen Genauigkeit in der Fernerkennungsbildklassifizierung angewendet wird. Es erreicht auch die richtige Geschwindigkeit erforderlich und effiziente Parametrierung in den Prozess. Der Random Forest Classifier Bootstraps zufällige Stichproben, bei denen die Vorhersage mit der höchsten Stimme aus allen Bäumen ausgewählt ist.
Die Individualität der Bäume ist im gesamten Prozess wichtig. Die Individualität jedes Baumes ist durch folgende Eigenschaften garantiert., Erstens verwendet jedes Baumtraining in der Stichprobe zufällige Teilmengen aus den ersten Trainingsproben. Zweitens wird die optimale Aufteilung aus den zufällig ausgewählten Merkmalen der unbedruckten Baumknoten ausgewählt. Drittens wächst jeder Baum ohne Grenzen und sollte nicht beschnitten werden.
Vorteile von Random Forests
Random forests Schätzungen für die Variablen Wichtigkeit, D. H., neuronale Netze. Sie bieten auch eine überlegene Methode zum Arbeiten mit fehlenden Daten. Fehlende Werte werden durch die Variable ersetzt, die am häufigsten in einem bestimmten Knoten erscheint., Unter allen verfügbaren Klassifizierungsmethoden bieten zufällige Wälder die höchste Genauigkeit.
Die Random Forest-Technik kann auch große Daten verarbeiten, wobei zahlreiche Variablen in Tausende laufen. Es kann Datensätze automatisch ausgleichen, wenn eine Klasse seltener ist als andere Klassen in den Daten. Die Methode verarbeitet auch Variablen schnell und eignet sich daher für komplizierte Aufgaben.
Mehr Ressourcen
CFI bietet die Financial Modelling & Valuation Analyst (FMVA)™FMVA® CertificationJoin 350,600+ Studenten, die Arbeit für Unternehmen wie Amazon, J. P., Morgan und Ferrari Zertifizierungsprogramm für diejenigen, die ihre Karriere auf die nächste Stufe bringen möchten. Um weiter zu lernen und Ihre Wissensbasis zu entwickeln, erkunden Sie bitte die zusätzlichen relevanten CFI-Ressourcen unten:
- Querschnittsdaten AnalysisCross-Sectional Data AnalysisCross-sectional Data Analysis ist die Analyse von Querschnittsdatensätzen., Erhebungen und Regierungsprotokolle sind einige häufige Quellen für Querschnittsdaten
- Cluster SamplingCluster SamplingIn Statistiken ist Cluster Sampling eine Stichprobenmethode, bei der die gesamte Population der Studie in extern homogene, aber intern
- Normale Verteilungsnormale VerteilungDie Normalverteilung wird auch als Gaußsche oder Gaußsche Verteilung bezeichnet. Diese Art der Verteilung ist in den Natur-und Sozialwissenschaften weit verbreitet., Das
- Roy ’s Safety-First CriterionRoy‘ s Safety-first CriterionRoy ‚ s safety-first criterion ist eine Risikomanagementtechnik, mit der Anleger ein Portfolio anhand des Kriteriums vergleichen und auswählen können, dass die Wahrscheinlichkeit