Random Forest

Wat is Random Forest?

Random forest is een techniek die wordt gebruikt in het modelleren van voorspellingen en gedragsanalyse en is gebouwd op beslissingsbomen. Het bevat veel beslissingsbomen die een afzonderlijk exemplaar van de classificatie van gegevensinvoer in het willekeurige forest vertegenwoordigen. De random forest techniek houdt rekening met de gevallen afzonderlijk, waarbij de ene met de meerderheid van de stemmen als de geselecteerde voorspelling.

figuur 1., Random Forest Structure (Source)

elke boom in de classificaties neemt input uit steekproeven in de initiële dataset. Functies worden vervolgens willekeurig geselecteerd, die worden gebruikt bij het kweken van de boom op elk knooppunt. Elke boom in het bos moet niet worden gesnoeid tot het einde van de oefening, wanneer de voorspelling definitief is bereikt. Op deze manier stelt het willekeurige forest alle classifiers met zwakke correlaties in staat om een sterke classifier te creëren.,

Quick Summary

  • willekeurig forest is een combinatie van beslissingsbomen die kunnen worden gemodelleerd voor voorspelling en gedragsanalyse.
  • de beslissingsboom in een bos kan niet worden gesnoeid voor bemonstering en dus voor voorspellingsselectie.
  • de random forest techniek kan grote datasets verwerken vanwege de mogelijkheid om met vele variabelen te werken die tot duizenden lopen.

modelleren van voorspellingen

De random forest-methode kan voorspellingsmodellen bouwen met behulp van random forest regression trees, die meestal niet worden afgedrukt om sterke voorspellingen te geven., De bootstrap sampling methode wordt gebruikt op de regressiebomen, die niet gesnoeid mogen worden. Optimale knooppunten worden bemonsterd uit de totale knooppunten in de boom om de optimale splitsingsfunctie te vormen.

de bij de selectie van de optimale splitsing gebruikte aselecte bemonsteringstechniek verlaagt de correlatie en daarmee de variantie van de regressiebomen. Het verbetert het voorspellend vermogen van verschillende bomen in het bos. De bemonstering met behulp van bootstrap verhoogt ook de onafhankelijkheid van individuele bomen.,

variabel belang

variabelen (kenmerken) zijn belangrijk voor het willekeurige forest omdat het een uitdaging is om de modellen te interpreteren, vooral vanuit een biologisch oogpunt. De naïeve benadering toont het belang van variabelen aan door belang toe te kennen aan een variabele op basis van de frequentie van de opname ervan in de steekproef door alle bomen. Het kan gemakkelijk worden bereikt, maar vormt een uitdaging omdat de effecten op kostenreductie en nauwkeurigheidsverhoging overbodig zijn.,

het belang van de permutatie is een maat die voorspellingsnauwkeurigheid bijhoudt waarbij de variabelen willekeurig worden gepermut uit monsters die niet in de zak zitten. De permutatie belang aanpak werkt beter dan de naïeve aanpak, maar heeft de neiging om duurder te zijn.

omdat het willekeurige bos niet in staat is om voorspellingen goed genoeg te interpreteren vanuit biologisch perspectief, is de techniek gebaseerd op de naïeve, gemiddelde afname onzuiverheid, en de permutatie belang benaderingen om hen directe interpreteerbaarheid te geven aan de uitdagingen., De drie benaderingen ondersteunen de voorspellende variabelen met meerdere categorieën.

In het geval van continue variabelen predictor met een vergelijkbaar aantal categorieën, echter, zowel de permutatie belang en de gemiddelde daling van onzuiverheid benaderingen vertonen geen biasesData-Mijnbouw BiasData-mijnbouw bias verwijst naar de veronderstelling van belang een ondernemer die is toegewezen aan een gebeurtenis in de markt dat was eigenlijk een gevolg van toevallige of niet-voorzien. Variabele selectie komt vaak met bias., Om dit te voorkomen, moet men subsampling uitvoeren zonder vervanging, en waar voorwaardelijke gevolgtrekking wordt gebruikt, willekeurige forest techniek moet worden toegepast.

Oblique Random Forests

Oblique random forests zijn uniek omdat ze gebruik maken van schuine splitsingen voor beslissingen in plaats van de conventionele decision splits op de knooppunten. Schuine bossen tonen veel superioriteit door het tonen van de volgende kwaliteiten.

ten eerste kunnen ze distributies scheiden op de coördinaatassen door gebruik te maken van een enkele multivariate split die de conventioneel benodigde diepe as-uitgelijnde splitsingen zou omvatten., Ten tweede maken ze een verminderde vertekening van de beslissingsbomen mogelijk voor de uitgezet beperkingen. De conventionele as-uitgelijnde splits zou twee extra niveaus van nesting vereisen bij het scheiden van soortgelijke klassen met de schuine splits, waardoor het gemakkelijker en efficiënt te gebruiken is.

Random Forest Classifier

De random forest classifier is een verzameling voorspellingsbomen, waarbij elke boom afhankelijk is van onafhankelijke willekeurige vectoren, met een vergelijkbare verdeling met elke andere boom in het random forest., Oorspronkelijk ontworpen voor machine learning, heeft de classifier aan populariteit gewonnen in de remote-sensing gemeenschap, waar het wordt toegepast in remote-sensed imagery classificatie vanwege de hoge nauwkeurigheid. Het bereikt ook de juiste snelheid vereist en efficiënte parametrering in het proces. De random forest classifier bootstraps willekeurige monsters waar de voorspelling met de hoogste stem van alle bomen is geselecteerd.

de individualiteit van de bomen is belangrijk in het hele proces. De individualiteit van elke boom is gegarandeerd door de volgende kwaliteiten., Ten eerste maakt elke tree training in de steekproef gebruik van willekeurige deelverzamelingen uit de initiële trainingsmonsters. Ten tweede wordt de optimale splitsing gekozen uit willekeurig geselecteerde functies van de niet-afgedrukte boomknooppunten. Ten derde, elke boom groeit grenzeloos en mag helemaal niet gesnoeid worden.

voordelen van willekeurige bossen

willekeurige bossen geven schattingen voor variabel belang, d.w.z. neurale netten. Ze bieden ook een superieure methode voor het werken met ontbrekende gegevens. Ontbrekende waarden worden vervangen door de variabele die het meest voorkomt in een bepaald knooppunt., Van alle beschikbare classificatiemethoden bieden willekeurige forests de hoogste nauwkeurigheid.

De random forest-techniek kan ook big data verwerken met een groot aantal variabelen in duizenden. Het kan datasets automatisch in evenwicht brengen wanneer een klasse minder vaak voorkomt dan andere klassen in de gegevens. De methode behandelt ook variabelen snel, waardoor het geschikt is voor ingewikkelde taken.

meer middelen

CFI biedt de financiële modellering & Valuation Analyst (FMVA)™Fmva ® CertificationJoin 350.600 + studenten die werken voor bedrijven als Amazon, J. P., Morgan, en Ferrari certificeringsprogramma voor diegenen die hun carrière naar een hoger niveau willen tillen. Om uw kennisbasis te blijven leren en ontwikkelen, kunt u de volgende aanvullende relevante CFI-bronnen verkennen:

  • transversale Data AnalysisCross-Sectional data AnalysisCross-sectional data analysis is de analyse van transversale datasets., Enquêtes en overheidsregisters zijn enkele gemeenschappelijke bronnen van transversale gegevens
  • Cluster SamplingCluster SamplingIn statistieken is cluster sampling een bemonsteringsmethode waarbij de gehele populatie van het onderzoek is verdeeld in extern homogene maar intern
  • normale Distributienormale Distributiede normale distributie wordt ook Gaussian of Gauss distribution genoemd. Dit type distributie wordt veel gebruikt in de natuur-en sociale wetenschappen., Het
  • Roy ’s Safety-First CriterionRoy’ s Safety-first CriterionRoy ’s safety-first CriterionRoy’ s safety-first criterion is een risicomanagementtechniek die door beleggers wordt gebruikt om een portefeuille te vergelijken en te kiezen op basis van het criterium dat de waarschijnlijkheid

Share

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *