Random Forest (Svenska)

Vad är Random Forest?

Random forest är en teknik som används i modellering förutsägelser och beteendeanalys och bygger på beslut träd. Den innehåller många beslutsträd som representerar en tydlig instans av klassificeringen av datainmatning i den slumpmässiga skogen. Den slumpmässiga skogstekniken tar hänsyn till instanserna individuellt och tar den med majoriteten av rösterna som den valda förutsägelsen.

Figur 1., Slumpmässig Skogsstruktur (källa)

varje träd i klassificeringarna tar indata från prover i den ursprungliga datauppsättningen. Funktioner väljs sedan slumpmässigt, som används för att odla trädet vid varje nod. Varje träd i skogen bör inte beskäras till slutet av träningen när förutsägelsen uppnås beslutsamt. På så sätt möjliggör den slumpmässiga skogen alla klassificerare med svaga korrelationer för att skapa en stark klassificerare.,

snabb sammanfattning

  • Random forest är en kombination av beslutsträd som kan modelleras för förutsägelse och beteendeanalys.
  • beslutsträdet i en skog kan inte beskäras för provtagning och därmed förutsägelse urval.
  • den slumpmässiga skogstekniken kan hantera stora datamängder på grund av sin förmåga att arbeta med många variabler som kör till tusentals.

Modelleringsprognoser

den slumpmässiga skogsmetoden kan bygga prediktionsmodeller med hjälp av slumpmässiga skogsregressionsträd, som vanligtvis inte är angivna för att ge starka förutsägelser., Provtagningsmetoden bootstrap används på regressionsträden, som inte bör beskäras. Optimala noder samplas från de totala noderna i trädet för att bilda den optimala splittringsfunktionen.

den slumpmässiga provtagningstekniken som används vid valet av den optimala delningsfunktionen sänker korrelationen och därmed variansen hos regressionsträden. Det förbättrar prediktiva förmåga distinkta träd i skogen. Provtagningen med bootstrap ökar också oberoende bland enskilda träd.,

variabel betydelse

variabler (funktioner) är viktiga för den slumpmässiga skogen eftersom det är en utmaning att tolka modellerna, särskilt ur biologisk synvinkel. Den naiva metoden visar betydelsen av variabler genom att tilldela betydelse till en variabel baserat på frekvensen av dess införande i provet av alla träd. Det kan uppnås enkelt men utgör en utmaning eftersom effekterna på kostnadsminskning och noggrannhetsökning är överflödiga.,

permutation betydelse är ett mått som spårar förutsägelse noggrannhet där variablerna slumpmässigt permuteras från out-of-bag prover. Permutation betydelse tillvägagångssätt fungerar bättre än naiva tillvägagångssätt men tenderar att vara dyrare.

på grund av utmaningar i den slumpmässiga skogen inte kunna tolka förutsägelser tillräckligt bra från de biologiska perspektiven, bygger tekniken på naiva, menar minska orenhet, och permutation betydelse metoder för att ge dem direkt tolkbarhet till utmaningarna., De tre tillvägagångssätten stöder prediktorvariablerna med flera kategorier.

När det gäller kontinuerliga prediktorvariabler med ett liknande antal kategorier, men både permutation betydelse och den genomsnittliga minskningen orenhet metoder inte uppvisar biasesData-Mining BiasData-mining biasdata-mining bias hänvisar till ett antagande av betydelse en näringsidkare tilldelar en händelse på marknaden som faktiskt var ett resultat av slump eller oförutsedda. Variable selection kommer ofta med bias., För att undvika det bör man genomföra subsampling utan ersättning, och där villkorlig inferens används, bör slumpmässig Skogsteknik tillämpas.

sneda slumpmässiga skogar

sneda slumpmässiga skogar är unika genom att de använder sig av sneda splittringar för beslut i stället för det konventionella beslutet splittras vid noderna. Sneda skogar visar massor av överlägsenhet genom att uppvisa följande egenskaper.

För det första kan de separera fördelningar vid koordinataxlarna med hjälp av en enda multivariat split som skulle innehålla de konventionellt nödvändiga djupa axelinriktade splittringarna., För det andra möjliggör de minskad bias från beslutsträden för de ritade begränsningarna. De konventionella axelanpassade splittringarna skulle kräva ytterligare två nivåer av häckning när man separerar liknande klasser med de sneda splittringarna vilket gör det enklare och effektivt att använda.

Random Forest Classifier

random forest classifier är en samling förutsägelse träd, där varje träd är beroende av slumpmässiga vektorer samplas oberoende, med liknande fördelning med alla andra träd i den slumpmässiga skogen., Ursprungligen utformad för maskininlärning har klassificeraren blivit populär i fjärranalysgemenskapen, där den appliceras i fjärravkännad bildklassificering på grund av sin höga noggrannhet. Det uppnår också rätt hastighet som krävs och effektiv parameterisering i processen. Random forest classifier bootstraps slumpmässiga prover där förutsägelsen med högsta röst från alla träd väljs.

trädens individualitet är viktig i hela processen. Individualiteten hos varje träd garanteras på grund av följande egenskaper., För det första använder varje trädutbildning i provet slumpmässiga delmängder från de ursprungliga träningsproverna. För det andra väljs den optimala splittringen från de obeskrivna trädnoderna slumpmässigt utvalda funktioner. För det tredje växer varje träd utan gränser och bör inte beskäras alls.

fördelar med slumpmässiga skogar

slumpmässiga skogar presenterar uppskattningar för varierande betydelse, dvs. neurala nät. De erbjuder också en överlägsen metod för att arbeta med saknade data. Saknade värden ersätts av variabeln som visas mest i en viss nod., Bland alla tillgängliga klassificeringsmetoder ger slumpmässiga skogar högsta noggrannhet.

den slumpmässiga skogstekniken kan också hantera stora data med många variabler som går in i tusentals. Det kan automatiskt balansera datamängder när en klass är mer sällsynt än andra klasser i data. Metoden hanterar också variabler snabbt, vilket gör den lämplig för komplicerade uppgifter.

Mer Resurser

FÖRSTAINSTANSRÄTTEN erbjuder Finansiell Modellering & Värderingen Analytiker (FMVA)™FMVA® CertificationJoin 350,600+ studenter som jobbar för att företag som Amazon, J. P., Morgan, och Ferrari certifieringsprogram för dem som vill ta sin karriär till nästa nivå. För att fortsätta lära och utveckla din kunskapsbas, vänligen utforska de ytterligare relevanta CFI-resurserna nedan:

  • Tvärsnittsdataanalys Tvärsnittsdataanalys är analysen av tvärsnittsdatauppsättningar., Undersökningar och offentliga handlingar är några vanliga källor av tvärsnittsdata
  • Kluster SamplingCluster SamplingIn statistik, kluster provtagning är ett urval metod som hela befolkningen i studien är uppdelad i externt homogen men internt
  • Normal DistributionNormal DistributionThe normalfördelning är också kallas Gaussian eller Gauss-fördelningen. Denna typ av distribution används ofta i naturvetenskap och samhällsvetenskap., Den
  • Roys säkerhet-Första Criterionroys säkerhet-första Criterionroys säkerhet-första kriteriet är en riskhanteringsteknik som används av investerare för att jämföra och välja en portfölj baserat på kriteriet att sannolikheten

Share

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *