Random Forest (Español)

¿qué es Random Forest?

bosque Aleatorio es una técnica utilizada en el modelado de predicciones y análisis de comportamiento y se basa en árboles de decisión. Contiene muchos árboles de decisión que representan una instancia distinta de la clasificación de la entrada de datos en el bosque Aleatorio. La técnica de bosque Aleatorio toma en consideración las instancias individualmente, tomando la que tenga la mayoría de votos como la predicción seleccionada.

Figura 1., Random Forest Structure (Source)

cada árbol en las clasificaciones toma la entrada de muestras en el conjunto de datos inicial. Las características se seleccionan al azar, que se utilizan en el crecimiento del árbol en cada nodo. Cada árbol en el bosque no debe podarse hasta el final del ejercicio cuando se alcanza la predicción de manera decisiva. De esta manera, el bosque Aleatorio permite a cualquier clasificador con correlaciones débiles crear un clasificador fuerte.,

resumen rápido

  • Random forest es una combinación de árboles de decisión que se pueden modelar para la predicción y el análisis del comportamiento.
  • El árbol de decisión en un bosque no puede podarse para el muestreo y, por lo tanto, la selección de predicción.
  • La técnica random forest puede manejar grandes conjuntos de datos debido a su capacidad para trabajar con muchas variables que se ejecutan a miles.

Modeling Predictions

el método random forest puede construir modelos de predicción utilizando árboles de regresión de bosques aleatorios, que generalmente no se imprimen para dar predicciones sólidas., El método de muestreo bootstrap se utiliza en los árboles de regresión, que no deben podarse. Los nodos óptimos se muestrean del total de nodos en el árbol para formar la característica de división óptima.

la técnica de muestreo aleatorio utilizada en la selección de la característica de división óptima disminuye la correlación y, por lo tanto, la varianza de los árboles de regresión. Mejora la capacidad predictiva de distintos árboles en el bosque. El muestreo utilizando bootstrap también aumenta la Independencia entre los árboles individuales.,

importancia de la Variable

las Variables (características) son importantes para el bosque aleatorio ya que es un desafío interpretar los modelos, especialmente desde un punto de vista biológico. El enfoque naïve muestra la importancia de las variables asignando importancia a una variable basada en la frecuencia de su inclusión en la muestra por todos los árboles. Se puede lograr fácilmente, pero presenta un desafío ya que los efectos en la reducción de costos y el aumento de la precisión son redundantes.,

la importancia de la permutación es una medida que rastrea la precisión de la predicción donde las variables se permutan aleatoriamente a partir de muestras fuera de bolsa. El enfoque de la importancia de la permutación funciona mejor que el enfoque ingenuo, pero tiende a ser más caro.

debido a los desafíos del bosque Aleatorio no ser capaz de interpretar las predicciones lo suficientemente bien desde las perspectivas biológicas, la técnica se basa en los enfoques ingenuos, disminución de impurezas medias y la importancia de la permutación para darles interpretabilidad directa a los desafíos., Los tres enfoques admiten las variables predictoras con múltiples categorías.

en el caso de variables predictoras continuas con un número similar de categorías, Sin embargo, tanto la importancia de la permutación como los enfoques de disminución media de impurezas no exhiben biasesData-Mining biasdata-mining bias se refiere a una suposición de importancia que un comerciante asigna a una ocurrencia en el mercado que realmente fue resultado de la casualidad o imprevisto. La selección de variables a menudo viene con sesgo., Para evitarlo, se debe realizar un submuestreo sin reemplazo, y cuando se utiliza la inferencia condicional, se debe aplicar una técnica de bosque Aleatorio.

bosques aleatorios oblicuos

Los bosques aleatorios oblicuos son únicos en que hacen uso de divisiones oblicuas para las decisiones en lugar de las divisiones de decisión convencionales en los nodos. Los bosques oblicuos muestran mucha superioridad al exhibir las siguientes cualidades.

primero, pueden separar distribuciones en los ejes de coordenadas mediante el uso de una única división multivariante que incluiría las divisiones alineadas con ejes profundos convencionalmente necesarias., En segundo lugar, permiten reducir el sesgo de los árboles de decisión para las restricciones trazadas. Las divisiones convencionales alineadas con el eje requerirían dos niveles más de anidamiento al separar clases similares con las divisiones oblicuas que lo hacen más fácil y eficiente de usar.

Random Forest Classifier

El Random forest classifier es una colección de árboles de predicción, donde cada árbol depende de vectores aleatorios muestreados de forma independiente, con una distribución similar con cada otro árbol en el bosque Aleatorio., Originalmente diseñado para el aprendizaje automático, el clasificador ha ganado popularidad en la comunidad de la teledetección, donde se aplica en la clasificación de imágenes de teledetección debido a su alta precisión. También logra la velocidad adecuada requerida y la parametrización eficiente en el proceso. El clasificador de bosque Aleatorio arranca muestras aleatorias donde se selecciona la predicción con el voto más alto de todos los árboles.

La individualidad de los árboles es importante en todo el proceso. La individualidad de cada árbol está garantizada debido a las siguientes cualidades., Primero, cada entrenamiento de árbol en la muestra utiliza subconjuntos aleatorios de las muestras de entrenamiento inicial. En segundo lugar, la división óptima se elige de las características seleccionadas al azar de los nodos de árbol sin imprimir. En tercer lugar, Todo árbol crece sin límites y no debe podarse en absoluto.

ventajas de los bosques aleatorios

Los bosques aleatorios presentan estimaciones de importancia variable, es decir, Redes Neuronales. También ofrecen un método superior para trabajar con datos faltantes. Los valores faltantes se sustituyen por la variable que aparece más en un nodo en particular., Entre todos los métodos de clasificación disponibles, los bosques aleatorios proporcionan la mayor precisión.

la técnica random forest también puede manejar big data con numerosas variables que se ejecutan en miles. Puede equilibrar automáticamente conjuntos de datos cuando una clase es más infrecuente que otras clases en los datos. El método también maneja variables rápidamente, lo que lo hace adecuado para tareas complicadas.

más recursos

CFI ofrece el modelado financiero & Valuation Analyst (FMVA)™FMVA® CertificationJoin 350,600 + estudiantes que trabajan para empresas como Amazon, J. P., Morgan, y Ferrari programa de certificación para aquellos que buscan llevar sus carreras al siguiente nivel. Para seguir aprendiendo y desarrollando su base de conocimientos, explore los recursos adicionales relevantes de CFI a continuación:

  • Análisis de datos transversales análisis de datos transversales el análisis de datos transversales es el análisis de conjuntos de datos transversales., Las encuestas y los registros gubernamentales son algunas fuentes comunes de datos transversales
  • muestreo de clústeres en las estadísticas, el muestreo de clústeres es un método de muestreo en el que toda la población del estudio se divide en externamente homogénea pero internamente
  • Distribución normalla distribución normal también se conoce como distribución gaussiana o Gauss. Este tipo de distribución es ampliamente utilizado en las ciencias naturales y sociales., El
  • Roy’s Safety-First Criterionroy’s Safety-first criterionroy’s safety-first criterion es una técnica de gestión de riesgos utilizada por los inversores para comparar y elegir una cartera basada en el criterio de que la probabilidad

Share

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *