Qu’est-ce que la forêt aléatoire?
La forêt aléatoire est une technique utilisée dans la modélisation des prédictions et l’analyse du comportement et est construite sur des arbres de décision. Il contient de nombreux arbres de décision qui représentent une instance distincte de la classification des données entrées dans la forêt aléatoire. La technique de la forêt aléatoire prend en compte les instances individuellement, en prenant celle avec la majorité des votes comme prédiction sélectionnée.
chaque arbre dans les classifications prend en entrée des échantillons dans l’ensemble de données initial. Les caractéristiques sont ensuite sélectionnées au hasard, qui sont utilisées dans la croissance de l’arbre à chaque nœud. Chaque arbre de la forêt ne doit pas être élagué avant la fin de l’exercice, lorsque la prédiction est atteinte de manière décisive. De cette manière, la forêt aléatoire permet à tous les classificateurs avec des corrélations faibles de créer un classificateur fort.,
résumé rapide
- La forêt aléatoire est une combinaison d’arbres de décision qui peuvent être modélisés pour la prédiction et l’analyse du comportement.
- l’arbre de décision dans une forêt ne peut pas être taillé pour l’échantillonnage et donc, la sélection de prédiction.
- La technique de la forêt aléatoire peut gérer de grands ensembles de données en raison de sa capacité à travailler avec de nombreuses variables s’exécutant sur des milliers.
modélisation des prédictions
La méthode de la forêt aléatoire peut construire des modèles de prédiction en utilisant des arbres de régression de forêt aléatoire, qui sont généralement non découpés pour donner des prédictions solides., La méthode d’échantillonnage bootstrap est utilisée sur les arbres de régression, qui ne doivent pas être taillés. Les nœuds optimaux sont échantillonnés à partir du nombre total de nœuds dans l’arborescence pour former l’entité de fractionnement optimale.
la technique d’échantillonnage aléatoire utilisée dans la sélection de la caractéristique de fractionnement optimale réduit la corrélation et, par conséquent, la variance des arbres de régression. Il améliore la capacité prédictive d’arbres distincts dans la forêt. L’échantillonnage à l’aide de bootstrap augmente également l’indépendance entre les arbres.,
importance des variables
Les Variables (caractéristiques) sont importantes pour la forêt aléatoire car il est difficile d’interpréter les modèles, en particulier d’un point de vue biologique. L’approche naïve montre l’importance des variables par l’affectation de l’importance à une variable en fonction de la fréquence de son inclusion dans l’échantillon par tous les arbres. Il peut être réalisé facilement, mais présente un défi car les effets sur la réduction des coûts et l’augmentation de la précision sont redondants.,
l’importance de la permutation est une mesure qui suit la précision de la prédiction lorsque les variables sont permutées aléatoirement à partir d’échantillons hors sac. L’approche de l’importance de la permutation fonctionne mieux que l’approche naïve, mais a tendance à être plus coûteuse.
en raison des défis de la forêt aléatoire ne pouvant pas interpréter suffisamment bien les prédictions du point de vue biologique, la technique repose sur les approches naïves de diminution moyenne de l’impureté et de l’importance de la permutation pour leur donner une interprétabilité directe aux défis., Les trois approches prennent en charge les variables prédictives avec plusieurs catégories.
dans le cas de variables prédictives continues avec un nombre similaire de catégories, cependant, les approches de l’importance de la permutation et de la diminution moyenne de l’impureté ne présentent pas de biais. La sélection des variables est souvent accompagnée d’un biais., Pour l’éviter, il faut procéder à un sous-échantillonnage sans remplacement, et lorsque l’inférence conditionnelle est utilisée, la technique de la forêt aléatoire doit être appliquée.
forêts aléatoires obliques
Les forêts aléatoires obliques sont uniques en ce sens qu’elles utilisent des divisions obliques pour les décisions à la place des divisions de décision conventionnelles aux nœuds. Les forêts obliques montrent beaucoup de supériorité en présentant les qualités suivantes.
Tout d’abord, ils peuvent séparer les distributions au niveau des axes de coordonnées en utilisant une seule division multivariée qui inclurait les divisions alignées sur les axes profonds classiquement nécessaires., Deuxièmement, ils permettent de réduire le biais des arbres de décision pour les contraintes tracées. Les séparations conventionnelles alignées sur l’axe nécessiteraient deux niveaux d’imbrication supplémentaires lors de la séparation de classes similaires avec les séparations obliques, ce qui rend l’utilisation plus facile et efficace.
Classificateur de forêt aléatoire
Le classificateur de forêt aléatoire est une collection d’arbres de prédiction, où chaque arbre dépend de vecteurs aléatoires échantillonnés indépendamment, avec une distribution similaire à tous les autres arbres de la forêt aléatoire., Conçu à l’origine pour l’apprentissage automatique, le classificateur a gagné en popularité dans la communauté de la télédétection, où il est appliqué dans la classification des images télédétectées en raison de sa grande précision. Il atteint également la vitesse appropriée requise et un paramétrage efficace dans le processus. Le classificateur de forêt aléatoire démarre des échantillons aléatoires où la prédiction avec le vote le plus élevé de tous les arbres est sélectionnée.
L’individualité des arbres est importante dans l’ensemble du processus. L’individualité de chaque arbre est garantie grâce aux qualités suivantes., Tout d’abord, chaque formation d’arbre dans l’échantillon utilise des sous-ensembles aléatoires des échantillons de formation initiale. Deuxièmement, la division optimale est choisie parmi les entités sélectionnées au hasard des nœuds d’arbre non découpés. Troisièmement, chaque arbre pousse sans limites et ne doit pas être taillé.
avantages des forêts aléatoires
Les forêts aléatoires présentent des estimations d’importance variable, c’est-à-dire des réseaux neuronaux. Ils offrent également une méthode supérieure pour travailler avec des données manquantes. Les valeurs manquantes sont remplacées par la variable apparaissant le plus dans un nœud particulier., Parmi toutes les méthodes de classification disponibles, les forêts aléatoires offrent la plus grande précision.
la technique de la forêt aléatoire peut également gérer des données volumineuses avec de nombreuses variables pouvant atteindre des milliers. Il peut équilibrer automatiquement les ensembles de données lorsqu’une classe est plus rare que les autres classes dans les données. La méthode gère également les variables rapidement, ce qui la rend adaptée aux tâches compliquées.
plus de ressources
CFI propose la modélisation financière& Evaluation Analyst (FMVA)™FMVA® CertificationJoin 350,600 + étudiants qui travaillent pour des entreprises comme Amazon, J. P., Morgan ,et Ferrari programme de certification pour ceux qui cherchent à faire passer leur carrière au niveau supérieur. Pour continuer à apprendre et à développer votre base de connaissances, veuillez explorer les ressources supplémentaires pertinentes de la FCI ci-dessous:
- analyse de données Transversalesanalyse de données Transversalel’analyse de données transversal est l’analyse d’ensembles de données transversaux., Les enquêtes et les dossiers gouvernementaux sont des sources courantes de données transversales
- échantillonnage en grappes échantillonnage en grappes dans les statistiques, l’échantillonnage en grappes est une méthode d’échantillonnage dans laquelle toute la population de l’étude est divisée en homogènes externes mais internes
- distribution normalela distribution normale est également appelée distribution gaussienne ou Gauss. Ce type de distribution est largement utilisé dans les sciences naturelles et sociales., Le
- Roy’s Safety-First Criterion’s Safety-first Criterion’s safety-first criterion’s safety-first criteria est une technique de gestion des risques utilisée par les investisseurs pour comparer et choisir un portefeuille en fonction du critère selon lequel la probabilité