Che cos’è la foresta casuale?
La foresta casuale è una tecnica utilizzata nella modellazione delle previsioni e dell’analisi del comportamento ed è costruita su alberi decisionali. Contiene molti alberi decisionali che rappresentano un’istanza distinta della classificazione dell’input di dati nella foresta casuale. La tecnica random forest prende in considerazione le istanze individualmente, prendendo quella con la maggioranza dei voti come previsione selezionata.
Ogni albero nelle classificazioni prende input da campioni nel set di dati iniziale. Le caratteristiche vengono quindi selezionate casualmente, che vengono utilizzate per far crescere l’albero in ciascun nodo. Ogni albero nella foresta non dovrebbe essere potato fino alla fine dell’esercizio quando la previsione viene raggiunta in modo decisivo. In tal modo, la foresta casuale consente a qualsiasi classificatore con correlazioni deboli di creare un classificatore forte.,
Riepilogo rapido
- La foresta casuale è una combinazione di alberi decisionali che possono essere modellati per la previsione e l’analisi del comportamento.
- L’albero decisionale in una foresta non può essere potato per il campionamento e, quindi, la selezione della previsione.
- La tecnica random forest può gestire set di dati di grandi dimensioni grazie alla sua capacità di lavorare con molte variabili in esecuzione a migliaia.
Modellazione delle previsioni
Il metodo random forest può creare modelli di previsione utilizzando alberi di regressione random forest, che di solito non vengono eseguiti per fornire previsioni forti., Il metodo di campionamento bootstrap viene utilizzato sugli alberi di regressione, che non devono essere potati. I nodi ottimali vengono campionati dai nodi totali nell’albero per formare la funzione di suddivisione ottimale.
La tecnica di campionamento casuale utilizzata nella selezione della funzione di suddivisione ottimale riduce la correlazione e quindi la varianza degli alberi di regressione. Migliora la capacità predittiva di alberi distinti nella foresta. Il campionamento utilizzando bootstrap aumenta anche l’indipendenza tra i singoli alberi.,
Importanza variabile
Le variabili (caratteristiche) sono importanti per la foresta casuale poiché è una sfida interpretare i modelli, specialmente da un punto di vista biologico. L’approccio naïve mostra l’importanza delle variabili attribuendo importanza a una variabile in base alla frequenza della sua inclusione nel campione da parte di tutti gli alberi. Può essere raggiunto facilmente, ma rappresenta una sfida poiché gli effetti sulla riduzione dei costi e sull’aumento della precisione sono ridondanti.,
L’importanza della permutazione è una misura che tiene traccia dell’accuratezza della previsione in cui le variabili vengono permutate casualmente da campioni fuori borsa. L’approccio di importanza della permutazione funziona meglio dell’approccio naïve, ma tende ad essere più costoso.
A causa delle sfide della foresta casuale che non sono in grado di interpretare abbastanza bene le previsioni dalle prospettive biologiche, la tecnica si basa sull’ingenua, media diminuzione dell’impurità e l’importanza della permutazione si avvicina per dare loro un’interpretabilità diretta alle sfide., I tre approcci supportano le variabili predittive con più categorie.
Nel caso di variabili predittive continue con un numero simile di categorie, tuttavia, sia l’importanza della permutazione che gli approcci di impurità di diminuzione media non presentano biasesData-Mining Biasdata-mining si riferisce a un’ipotesi di importanza che un trader assegna a un evento nel mercato che in realtà è stato il risultato di un caso o imprevisto. La selezione variabile spesso viene fornita con bias., Per evitarlo, si dovrebbe condurre il sottocampionamento senza sostituzione, e dove viene utilizzata l’inferenza condizionale, dovrebbe essere applicata la tecnica della foresta casuale.
Foreste casuali oblique
Le foreste casuali oblique sono uniche in quanto fanno uso di spaccature oblique per le decisioni al posto delle divisioni decisionali convenzionali nei nodi. Le foreste oblique mostrano molta superiorità esibendo le seguenti qualità.
In primo luogo, possono separare le distribuzioni sugli assi delle coordinate mediante l’uso di una singola divisione multivariata che includerebbe le divisioni allineate sugli assi profondi convenzionalmente necessarie., In secondo luogo, consentono una riduzione del pregiudizio dagli alberi decisionali per i vincoli tracciati. Le spaccature allineate agli assi convenzionali richiederebbero altri due livelli di nidificazione quando si separano classi simili con le spaccature oblique che lo rendono più facile ed efficiente da usare.
Classificatore di foresta casuale
Il classificatore di foresta casuale è una raccolta di alberi di previsione, in cui ogni albero dipende da vettori casuali campionati in modo indipendente, con distribuzione simile con ogni altro albero nella foresta casuale., Originariamente progettato per l’apprendimento automatico, il classificatore ha guadagnato popolarità nella comunità di telerilevamento, dove viene applicato nella classificazione delle immagini a distanza grazie alla sua elevata precisione. Inoltre raggiunge la velocità adeguata richiesta e la parametrizzazione efficiente nel processo. Il classificatore foresta casuale avvia campioni casuali in cui è selezionata la previsione con il voto più alto da tutti gli alberi.
L’individualità degli alberi è importante nell’intero processo. L’individualità di ogni albero è garantita dalle seguenti qualità., Innanzitutto, ogni allenamento ad albero nel campione utilizza sottoinsiemi casuali dai campioni di allenamento iniziale. In secondo luogo, la divisione ottimale viene scelta tra le caratteristiche selezionate casualmente dei nodi dell’albero non perforati. In terzo luogo, ogni albero cresce senza limiti e non dovrebbe essere potato.
Vantaggi delle foreste casuali
Le foreste casuali presentano stime per importanza variabile, cioè reti neurali. Offrono anche un metodo superiore per lavorare con i dati mancanti. I valori mancanti vengono sostituiti dalla variabile che appare di più in un particolare nodo., Tra tutti i metodi di classificazione disponibili, le foreste casuali forniscono la massima precisione.
La tecnica della foresta casuale può anche gestire big data con numerose variabili che si aggirano su migliaia. Può bilanciare automaticamente i set di dati quando una classe è più rara di altre classi nei dati. Il metodo gestisce anche le variabili velocemente, rendendolo adatto a compiti complicati.
Più risorse
CFI offre la modellazione finanziaria& Valuation Analyst (FMVA)™FMVA® CertificationJoin 350,600+ studenti che lavorano per aziende come Amazon, J. P., Morgan, e Ferrari programma di certificazione per coloro che cercano di prendere la loro carriera al livello successivo. Per continuare a imparare e sviluppare la tua knowledge base, esplora le risorse CFI aggiuntive di seguito:
- Analisi dei dati cross-Sectional Analisi dei dati cross-Sectional L’analisi dei dati cross-sectional è l’analisi dei set di dati cross-sectional., Le indagini e le registrazioni governative sono alcune fonti comuni di dati trasversali
- Cluster SamplingCluster SamplingIn statistiche, il campionamento del cluster è un metodo di campionamento in cui l’intera popolazione dello studio è divisa in esternamente omogenea ma internamente
- Distribuzione normaledistribuzione normalela distribuzione normale è anche indicata come distribuzione gaussiana o Gauss. Questo tipo di distribuzione è ampiamente usato nelle scienze naturali e sociali., Il
- Roy’s Safety-First Criterionroy’s Safety-first Criterionroy’s safety-first criterion è una tecnica di gestione del rischio utilizzata dagli investitori per confrontare e scegliere un portafoglio in base al criterio che la probabilità