Random Forest (Norsk)

Hva er Tilfeldig Skogen?

Random forest er en teknikk som brukes i modellering spådommer og atferd analyse og er bygget på avgjørelsen av trær. Den inneholder mange nøkler som representerer et tydelig eksempel på klassifisering av data innspill til random forest. Random forest teknikk som tar hensyn til forekomster individuelt, tar en med de fleste av de stemmer som er valgt prediksjon.

Figur 1., Tilfeldig skogstruktur (Kilde)

Hver treet i klassifikasjonene tar input fra prøvene i det første datasettet. Funksjonene er så tilfeldig valgt, som er brukt i voksende treet i hver node. Hvert tre i skogen bør ikke beskjæres til slutten av øvelsen, når spådommen er nådd avgjørende. På en slik måte, random forest gjør det mulig for enhver classifiers med svake korrelasjoner for å skape en sterk classifier.,

Rask Oppsummering

  • Random forest er en kombinasjon av vedtak trær som kan bli modellert for prediksjon og atferd analyse.
  • beslutningen tre i en skog ikke kan beskjæres for prøvetaking og dermed, prediksjon utvalget.
  • random forest teknikk kan håndtere store datamengder på grunn av sin evne til å arbeide med mange variabler som kjører til tusenvis.

Modellering Spådommer

random forest metoden kan bygge prediksjon modeller ved hjelp av random forest regresjon trær, som vanligvis unpruned å gi sterke spådommer., Bootstrap sampling metoden er brukt på regresjon trær, som ikke bør beskjæres. Optimal noder er samplet fra totalt antall noder i treet for å danne den optimale splitting funksjon.

random sampling teknikk som brukes i valg av optimal splitting funksjon senker korrelasjon og dermed variansen av regresjon trær. Det forbedrer den prediktive evnen til forskjellige trær i skogen. Prøvetaking ved hjelp av bootstrap øker også uavhengighet blant enkelte trær.,

Variabel Betydningen

Variabler (funksjoner) er viktig for tilfeldige skogen siden det er en utfordring å tolke modeller, spesielt fra et biologisk synspunkt. Den naive tilnærming viser viktigheten av variabler ved å gi betydning til en variabel basert på frekvensen av inkludering i prøven av alle trær. Det kan oppnås enkelt, men presenterer en utfordring siden effekten på å redusere kostnadene og øke nøyaktigheten er overflødig.,

Det permutasjon viktig det er et mål at sporene prediktiv nøyaktighet hvor variablene er tilfeldig permutated fra ut-av-bag-prøver. Det permutasjon betydning fungerer bedre enn den naive tilnærming, men har en tendens til å bli dyrere.

på Grunn av utfordringer for den tilfeldige skogen ikke blir i stand til å tolke spådommer godt nok fra biologiske perspektiver, teknikken er avhengig av den naive, mener redusere urenhet, og den permutasjon betydning tilnærminger til å gi dem direkte interpretability til utfordringer., De tre tilnærminger støtte prediktor variabler med flere kategorier.

I tilfelle av kontinuerlig prediktor variabler med et tilsvarende antall av kategorier, men både permutasjon betydning og gjennomsnittlig nedgang urenhet tilnærminger ikke viser biasesData-Mining BiasData-mining partiskhet henviser til en antagelse av betydning for en trader gir en forekomst i markedet som faktisk var et resultat av tilfeldigheter eller uforutsette. Variabel utvalget kommer ofte med bias., For å unngå det, bør man gjennomføre subsampling uten erstatning, og hvor betinget slutning er brukt, random forest teknikken bør brukes.

Skrå Tilfeldig Skogene

Skrå tilfeldig skoger er unike i at de gjør bruk av skrå deler for beslutninger i stedet for den konvensjonelle beslutning deler på nodene. Skrå skog vis mye av overlegenhet ved å stille følgende kvaliteter.

for det Første kan de separate fordelinger på koordinering-aksene ved bruk av en enkelt multivariate split som ville inkludere konvensjonelt trengte dypt aksen justert deler., For det andre, de lar redusert bias fra beslutningstre for de plottede begrensninger. Den konvensjonelle aksen justert deler ville kreve mer enn to nivåer av hekkende ved å skille lignende klasser med skrå deler som gjør det enklere og mer effektive å bruke.

Random Forest Classifier

random forest classifier er en samling av prediksjon trær, hvor alle tre er avhengig av tilfeldige vektorer samplet uavhengig av hverandre, med lik fordeling med alle andre treet i tilfeldig skogen., Opprinnelig utviklet for maskin-læring, classifier har vunnet popularitet i fjernkontroll-sensing samfunnet, hvor det er brukt i eksternt-følte bilder klassifisering på grunn av sin høye nøyaktighet. Det oppnår også riktig hastighet nødvendig og effektiv parameterization i prosessen. Random forest classifier bootstraps stikkprøver der prediksjon med høyeste stemme fra alle trær er valgt.

individualitet av trær er viktig i hele prosessen. Individualitet av hvert tre er garantert på grunn av følgende kvaliteter., Først, alle tre opplæring i utvalget bruker tilfeldig undergrupper fra første trening prøver. For det andre, den optimale split er valgt fra unpruned tre noder’ tilfeldig valgte funksjoner. For det tredje, hver treet vokser uten grenser og bør ikke beskjæres overhodet.

Fordeler av Tilfeldige Skogene

Tilfeldig skog presentere estimater for variabel betydning, dvs., nevrale nett. De tilbyr også en overlegen metode for å arbeide med manglende data. Manglende verdier er erstattet med variabelen vises de i en bestemt node., Blant alle tilgjengelige metoder for klassifisering, tilfeldig skoger gir den høyeste nøyaktighet.

random forest teknikken kan også håndtere big data med mange variabler å kjøre inn i tusenvis. Det kan automatisk balanse datasett når en klasse er mer sjeldne enn andre klasser i dataene. Metoden håndterer også variabler fort, noe som gjør det egnet for kompliserte oppgaver.

Mer Ressurser

CFI tilbyr Finansiell Modellering & Verdivurdering Analytiker (FMVA)™FMVA® CertificationJoin 350,600+ studenter som arbeider for selskaper som Amazon, J. P., Morgan, og Ferrari sertifisering program for de som ønsker å ta sin karriere til neste nivå. For å fortsette å lære og utvikle din knowledge base, kan du utforske mer relevant CFI ressurser nedenfor:

  • tverrsnittsdata AnalysisCross-Sectional Data AnalysisCross-sectional data analyse er en analyse av cross-sectional datasett., Undersøkelser og offentlige registre er noen vanlige kilder til tverrsnittsdata
  • Klynge SamplingCluster SamplingIn statistikk, cluster sampling er en utvalgsmetode som hele befolkningen i studien er delt inn i eksternt homogen men internt
  • Normal DistributionNormal DistributionThe normal fordeling er også referert til som Gaussiske eller Gauss-fordeling. Denne typen distribusjon er mye brukt i natur-og samfunnsfag., Den
  • Roy Sikkerhet Først CriterionRoy Sikkerhet-først CriterionRoy sikkerhet-første kriteriet er en risk management teknikk som brukes av investorer for å sammenligne og velge en portefølje basert på kriteriet at sannsynligheten

Share

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *