Durée: 12 mois
Rubrique: Ingénieur IA
Les forêts aléatoires sont une méthode d'apprentissage supervisé utilisée à la fois pour la régression et la classification. Elles ont été introduites par Leo Breiman dans les années 2000 et se basent sur la combinaison de plusieurs arbres de décision pour améliorer la précision et le contrôle du surapprentissage (overfitting).
Une forêt aléatoire est constituée de plusieurs arbres de décision (généralement des centaines) construits sur des souséchantillons aléatoires du jeu de données d'entraînement. Chaque arbre décide indépendamment et la forêt en sort une prédiction finale par vote majoritaire (pour la classification) ou par moyenne (pour la régression).
À la différence des arbres de décision simples, les forêts aléatoires utilisent deux concepts clés lors de la construction des arbres : Bootstrap Aggregating (Bagging): Chaque arbre est entraîné sur un échantillon aléatoire avec remplacement du jeu de données d'entraînement. Cela signifie que certains points de données peuvent apparaître plusieurs fois dans l'échantillon d'entraînement d'un arbre donné, tandis que d'autres points peuvent être exclus. Sélection aléatoire des caractéristiques: Au lieu de considérer toutes les caractéristiques à chaque fractionnement, seules un sousensemble aléatoire de caractéristiques est évalué, ce qui augmente la diversité des arbres.
Le modèle de forêt aléatoire procède comme suit : 1. Tirage par Bootstrap : Génération de plusieurs souséchantillons avec remplacement à partir du jeu de données d'entraînement. 2. Construction des arbres : Chaque arbre est construit en utilisant l'échantillon Bootstrap de données et à chaque nœud de décision, un sousensemble aléatoire de caractéristiques est utilisé pour trouver la meilleure coupure. 3. Agrégation des prédictions : Pour prédire une nouvelle instance, chaque arbre de la forêt fait une prédiction et la forêt aléatoire agrège ces prédictions pour produire une décision finale. Pour la classification, c'est souvent le vote majoritaire ; pour la régression, c'est la moyenne des prédictions.
Les forêts aléatoires offrent plusieurs avantages : Robustesse au surapprentissage : En combinant les prédictions de multiples arbres, les forêts aléatoires réduisent la variance sans augmenter le biais, ce qui limite le risque de surapprentissage. Flexibilité : Elles peuvent gérer de grands jeux de données avec un grand nombre de caractéristiques et d'observations. Exactitude : Elles ont tendance à produire des modèles très précis pour de nombreux types de données et tâches de prédiction.
En résumé, les forêts aléatoires utilisent des principes d'échantillonnage aléatoire et de combinaison de modèles pour produire des prédictions robustes et précises. Elles sont devenues une technique de choix dans de nombreux domaines en raison de leur efficacité et de leur capacité à gérer des données complexes.