Random Forest (Português)

What is Random Forest?

Floresta Aleatória é uma técnica usada na modelagem de previsões e análise de comportamento e é construída sobre árvores de decisão. Contém muitas árvores de decisão que representam uma instância distinta da Classificação dos dados introduzidos na floresta aleatória. A técnica da floresta aleatória leva em consideração as instâncias individualmente, tomando a que tem a maioria dos votos como previsão selecionada.

Figura 1., Estrutura florestal aleatória (fonte)

cada árvore nas classificações retira dados de amostras no conjunto de dados inicial. As características são então selecionadas aleatoriamente, que são usadas no crescimento da árvore em cada nó. Cada árvore na floresta não deve ser podada até o final do exercício, quando a previsão é alcançada de forma decisiva. De tal forma, a floresta aleatória permite que qualquer classificador com correlações fracas crie um classificador forte.,

resumo rápido

  • Floresta Aleatória é uma combinação de árvores de decisão que podem ser modeladas para a previsão e análise de comportamento.a árvore de decisão numa floresta não pode ser podada para amostragem e, por conseguinte, para selecção de previsões.
  • a técnica da floresta aleatória pode lidar com grandes conjuntos de dados devido à sua capacidade de trabalhar com muitas variáveis correndo para milhares.

Modelagem de Predições

o método da floresta aleatória pode construir modelos de predição usando árvores de regressão florestal aleatória, que geralmente não são corrigidas para dar previsões fortes., Utiliza-se o método de recolha de amostras nas árvores de regressão, que não devem ser podadas. Nós ótimos são amostrados a partir dos nós totais na árvore para formar a característica de separação ideal.

A técnica de amostragem aleatória utilizada na selecção da característica de separação óptima reduz a correlação e, consequentemente, a variância das árvores de regressão. Melhora a capacidade preditiva de árvores distintas na floresta. A amostragem usando bootstrap também aumenta a independência entre árvores individuais.,

variável importância

variáveis (características) são importantes para a floresta Aleatória, uma vez que é um desafio para interpretar os modelos, especialmente do ponto de vista biológico. A abordagem ingênua mostra a importância das variáveis atribuindo importância a uma variável baseada na frequência de sua inclusão na amostra por todas as árvores. Pode ser facilmente alcançado, mas representa um desafio, uma vez que os efeitos na redução de custos e no aumento da precisão são redundantes.,

a importância da permutação é uma medida que rastreia a precisão da Previsão onde as variáveis são permutadas aleatoriamente a partir de amostras fora de saco. A abordagem de importância de permutação funciona melhor do que a abordagem ingênua, mas tende a ser mais caro.devido aos desafios da floresta aleatória não ser capaz de interpretar as previsões suficientemente bem a partir das perspectivas biológicas, a técnica baseia-se na ingênua, média diminuição da impureza, e as abordagens de importância de permutação para dar-lhes interpretação direta para os desafios., As três abordagens suportam as variáveis de predictor com várias categorias.

no caso de variáveis de predictor contínuos com um número similar de categorias, no entanto, tanto a importância da permutação como as abordagens de impureza média da impureza da impureza não exibem viés Biasesdata-Mining BiasData-mining refere-se a uma assunção de importância que um comerciante atribui a uma ocorrência no mercado que foi realmente um resultado de acaso ou imprevisto. Seleção variável muitas vezes vem com viés., Para evitá-lo, deve-se realizar subamostras sem substituição e, quando se utiliza uma inferência condicional, deve-se aplicar uma técnica florestal aleatória.

florestas aleatórias oblíquas

florestas aleatórias oblíquas são únicas na medida em que fazem uso de divisões oblíquas para decisões no lugar das divisões de decisão convencionais nos nós. Florestas oblíquas mostram muita superioridade exibindo as seguintes qualidades.

primeiro, eles podem separar distribuições nos eixos de coordenadas pelo uso de uma única divisão multivariada que incluiria as divisões convencionalmente necessárias alinhadas com eixos profundos., Em segundo lugar, permitem uma diminuição do viés das árvores de decisão para as restrições plotadas. As divisões convencionais alinhadas com o eixo exigiriam mais dois níveis de nidificação ao separar classes semelhantes com as divisões oblíquas tornando mais fácil e eficiente de usar.

classificador de floresta aleatória

o classificador de floresta aleatória é uma coleção de árvores de previsão, onde cada árvore é dependente de vetores aleatórios amostrados independentemente, com distribuição semelhante com todas as outras árvores na floresta aleatória., Originalmente projetado para a aprendizagem de máquinas, o classificador ganhou popularidade na comunidade de teledetecção, onde é aplicado na classificação de imagens sensadas remotamente devido à sua alta precisão. Ele também alcança a velocidade adequada necessária e parametrização eficiente no processo. O classificador da floresta aleatória bootstraps amostras aleatórias onde a previsão com o maior voto de todas as árvores é selecionada.a individualidade das árvores é importante em todo o processo. A individualidade de cada árvore é garantida devido às seguintes qualidades., Em primeiro lugar, cada formação em árvores na amostra utiliza subconjuntos aleatórios das amostras de formação inicial. Em segundo lugar, a divisão ideal é escolhida a partir das características selecionadas aleatoriamente dos nós de árvore não corrigidos. Em terceiro lugar, todas as árvores crescem sem limites e não devem ser podadas.

vantagens de florestas aleatórias

florestas aleatórias apresentam estimativas de importância variável, ou seja, redes neurais. Eles também oferecem um método superior para trabalhar com dados em falta. Os valores em falta são substituídos pela variável que aparece mais num determinado nó., Entre todos os métodos de classificação disponíveis, as florestas aleatórias fornecem a maior precisão.

a técnica da floresta aleatória também pode lidar com grandes dados com inúmeras variáveis que vão em milhares. Ele pode Balancear automaticamente conjuntos de dados quando uma classe é mais infrequente do que outras classes nos dados. O método também lida com variáveis rápidas, tornando-o adequado para tarefas complicadas.

More Resources

CFI offers the Financial Modeling & Valuation Analyst (FMVA)™FMVA® CertificationJoin 350,600 + students who work for companies like Amazon, J. P., Morgan, and Ferrari certification program for those looking to take their careers to the next level. Para continuar a aprender e desenvolver a sua base de conhecimentos, por favor explore os recursos adicionais relevantes do CFI abaixo:

  • Análise de dados transversais Análise de dados transversais Análise de dados transversais análise de dados transversais é a análise de conjuntos de dados transversais., Inquéritos e registos governamentais são algumas fontes comuns de dados transversais
  • amostras de clusters amostrando amostras em estatísticas, amostragem de clusters é um método de amostragem em que toda a população do estudo é dividida em externamente homogénea, mas internamente
  • distribuição normal distribuição normal a distribuição normal é também referida como distribuição gaussiana ou Gauss. Este tipo de distribuição é amplamente utilizado nas ciências naturais e sociais., O
  • Roy Segurança-Primeiro CriterionRoy de Segurança do primeiro CriterionRoy de segurança do primeiro critério é o risco de gestão técnica usada pelos investidores para comparar e escolher uma carteira com base no critério de que a probabilidade

Share

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *