Random Forest (Dansk)

Hvad er Random Forest?

tilfældig skov er en teknik, der bruges til modellering af forudsigelser og adfærdsanalyse og er bygget på beslutningstræer. Det indeholder mange beslutningstræer, der repræsenterer et tydeligt eksempel på klassificeringen af datainput i den tilfældige skov. Den tilfældige skovteknik tager hensyn til forekomsterne individuelt og tager den med flertallet af stemmer som den valgte forudsigelse.

Figur 1., Random Forest Structure (Source)

hvert træ i klassificeringerne tager input fra prøver i det oprindelige datasæt. Funktioner vælges derefter tilfældigt, som bruges til dyrkning af træet ved hver knude. Hvert træ i skoven bør ikke beskæres før træningens afslutning, når forudsigelsen nås afgørende. På en sådan måde, den tilfældige skov gør det muligt for enhver klassifikator med svage korrelationer at skabe en stærk klassifikator.,

hurtigt resum.

  • tilfældig skov er en kombination af beslutningstræer, der kan modelleres til forudsigelse og adfærdsanalyse.
  • beslutningstræet i en skov kan ikke beskæres til prøveudtagning og dermed forudsigelsesvalg.
  • den tilfældige skovteknik kan håndtere store datasæt på grund af dens evne til at arbejde med mange variabler, der løber til tusinder.

Modellering Forudsigelser

Den tilfældige skov metode kan bygge modeller til forudsigelse ved hjælp af tilfældige skov regression træer, som normalt unpruned til at give stærk forudsigelser., Bootstrap-prøveudtagningsmetoden anvendes på regressionstræerne, som ikke bør beskæres. Optimale knudepunkter udtages fra de samlede knudepunkter i træet for at danne den optimale spaltningsfunktion.

den tilfældige prøveudtagningsteknik, der anvendes ved udvælgelsen af den optimale opdelingsfunktion, sænker korrelationen og dermed variansen af regressionstræerne. Det forbedrer forudsigelsesevnen for forskellige træer i skoven. Prøveudtagningen ved hjælp af bootstrap øger også uafhængigheden blandt de enkelte træer.,

Variabel Betydning

Variabler (funktioner), er vigtige for den tilfældige skov, da det er en udfordring at fortolke modeller, især ud fra et biologisk synspunkt. Den naive tilgang viser vigtigheden af variabler ved at tildele betydning til en variabel baseret på hyppigheden af dens optagelse i prøven af alle træer. Det kan let opnås, men udgør en udfordring, da virkningerne på omkostningsreduktion og nøjagtighedsstigning er overflødige.,

permutationsbetydningen er et mål, der sporer forudsigelsesnøjagtighed, hvor variablerne tilfældigt permuteres fra prøver uden for posen. Den permutation betydning tilgang fungerer bedre end den naive tilgang, men har tendens til at være dyrere.på grund af udfordringer i den tilfældige skov, der ikke er i stand til at fortolke forudsigelser godt nok ud fra de biologiske perspektiver, er teknikken afhængig af den naive, gennemsnitlige fald Urenhed og permutationsbetydningen tilgange for at give dem direkte fortolkelighed til udfordringerne., De tre tilgange understøtter forudsigelsesvariablerne med flere kategorier.

I tilfælde af kontinuerlig prædiktor-variable med et tilsvarende antal af kategorier, men både permutation betydning og den gennemsnitlige fald urenhed tilgange, der ikke udviser biasesData-Mining BiasData-mining bias refererer til en antagelse af betydning, at en erhvervsdrivende giver en forekomst på markedet, som faktisk var et resultat af tilfældigheder, eller uforudset. Variabelt valg kommer ofte med bias., For at undgå det skal man udføre undersampling uden udskiftning, og hvor betinget indledning anvendes, skal tilfældig skovteknik anvendes.

skrå tilfældige skove

skrå tilfældige skove er unikke, fordi de gør brug af skrå splittelser til beslutninger i stedet for de konventionelle beslutningsopdelinger ved knudepunkterne. Skrå skove viser masser af overlegenhed ved at udvise følgende kvaliteter.

for det første kan de adskille distributioner ved koordinatakserne ved hjælp af en enkelt multivariat split, der ville omfatte de konventionelt nødvendige dybe akseljusterede splittelser., For det andet muliggør de nedsat bias fra beslutningstræerne for de plottede begrænsninger. De konventionelle akseljusterede spalter kræver yderligere to niveauer af indlejring, når man adskiller lignende klasser med de skrå spalter, hvilket gør det lettere og effektivt at bruge.

Vilkårlige Forest-Klassifikator

Den vilkårlige forest-klassifikator er en samling af forudsigelse træer, hvor hvert træ er afhængige af tilfældige vektorer udtages uafhængigt af hinanden, med samme fordeling med hvert andet træ i tilfældig skov., Oprindeligt designet til maskinlæring, klassifikatoren har vundet popularitet i det fjernfølende samfund, hvor det anvendes i fjernfølt billedklassificering på grund af dets høje nøjagtighed. Det opnår også den rette hastighed, der kræves og effektiv parameterisering i processen. Den tilfældige skovklassifikator bootstraps tilfældige prøver, hvor forudsigelsen med den højeste stemme fra alle træer er valgt.

træernes individualitet er vigtig i hele processen. Individualiteten af hvert træ er garanteret på grund af følgende kvaliteter., For det første bruger hver trætræning i prøven tilfældige undergrupper fra de indledende træningsprøver. For det andet er den optimale split valgt fra unpruned tree noder tilfældigt udvalgte funktioner. For det tredje vokser hvert træ uden grænser og bør ikke beskæres overhovedet.

fordele ved tilfældige skove

tilfældige skove præsenterer estimater for variabel betydning, dvs.neurale net. De tilbyder også en overlegen metode til at arbejde med manglende data. Manglende værdier erstattes af den variabel, der vises mest i en bestemt node., Blandt alle de tilgængelige klassificeringsmetoder giver tilfældige skove den højeste nøjagtighed.

den tilfældige skovteknik kan også håndtere store data med adskillige variabler, der løber ind i tusinder. Det kan automatisk afbalancere datasæt, når en klasse er mere sjælden end andre klasser i dataene. Metoden håndterer også variabler hurtigt, hvilket gør den velegnet til komplicerede opgaver.

Flere Ressourcer

RETTEN giver Økonomisk Modellering & Værdiansættelse Analytiker (FMVA)™FMVA® CertificationJoin 350,600+ studerende, der arbejder for selskaber som Amazon, J. P., Morgan, og Ferrari certificeringsprogram for dem, der ønsker at tage deres karriere til det næste niveau. For at fortsætte med at lære og udvikle din videnbase, skal du undersøge de yderligere relevante CFI-ressourcer nedenfor:

  • Tværsnitsdataanalysetværsnitsdataanalysetværsnitsdataanalyse er analysen af tværsnitsdatasæt., Undersøgelser og offentlige registre er nogle almindelige kilder af cross-sectional data
  • Cluster SamplingCluster SamplingIn statistik, cluster-sampling er en prøveudtagningsmetode, hvor hele befolkningen i undersøgelsen er opdelt i eksternt ensartet, men internt
  • Normal DistributionNormal DistributionThe normale fordeling er også nævnt som Gaussisk eller Gauss fordeling. Denne type distribution er meget udbredt inden for natur-og samfundsvidenskab., Den
  • Roy ‘ s Sikkerhed Først CriterionRoy Sikkerhed-første CriterionRoy sikkerhed-første kriterium er et risk management-teknik, der anvendes af investorer mulighed for at sammenligne og vælge en portefølje, der er baseret på kriteriet om, at sandsynligheden

Share

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *