Table des matières

1. Régression linéaire
1.1. Principes et mathématiques de base
1.2. Implémentation et exemples d'usage
1.3. Interprétation des résultats
2. Régression logistique
2.1. Principes et mathématiques de base
2.2. Implémentation et exemples d'usage
2.3. Interprétation des résultats
3. Arbres de décision
3.1. Principes et construction d'un arbre
3.2. Implémentation et exemples d'usage
3.3. Avantages et limites
4. Forêts aléatoires
4.1. Principes et fonctionnement
4.2. Implémentation et exemples d'usage
4.3. Avantages et limites
5. Machines à vecteurs de support (SVM)
5.1. Principes et mathématiques de base
5.2. Implémentation et exemples d'usage
5.3. Avantages et limites
6. k-plus proches voisins (k-NN)
6.1. Principes et fonctionnement
6.2. Implémentation et exemples d'usage
6.3. Avantages et limites

Principes et fonctionnement

4. Forêts aléatoires

4.1 Principes et fonctionnement

Les forêts aléatoires sont une méthode d'apprentissage supervisé utilisée à la fois pour la régression et la classification. Elles ont été introduites par Leo Breiman dans les années 2000 et se basent sur la combinaison de plusieurs arbres de décision pour améliorer la précision et le contrôle du surapprentissage (overfitting).

Principe de base

Une forêt aléatoire est constituée de plusieurs arbres de décision (généralement des centaines) construits sur des souséchantillons aléatoires du jeu de données d'entraînement. Chaque arbre décide indépendamment et la forêt en sort une prédiction finale par vote majoritaire (pour la classification) ou par moyenne (pour la régression).

Construction des arbres

À la différence des arbres de décision simples, les forêts aléatoires utilisent deux concepts clés lors de la construction des arbres : Bootstrap Aggregating (Bagging): Chaque arbre est entraîné sur un échantillon aléatoire avec remplacement du jeu de données d'entraînement. Cela signifie que certains points de données peuvent apparaître plusieurs fois dans l'échantillon d'entraînement d'un arbre donné, tandis que d'autres points peuvent être exclus. Sélection aléatoire des caractéristiques: Au lieu de considérer toutes les caractéristiques à chaque fractionnement, seules un sousensemble aléatoire de caractéristiques est évalué, ce qui augmente la diversité des arbres.

Fonctionnement

Le modèle de forêt aléatoire procède comme suit : 1. Tirage par Bootstrap : Génération de plusieurs souséchantillons avec remplacement à partir du jeu de données d'entraînement. 2. Construction des arbres : Chaque arbre est construit en utilisant l'échantillon Bootstrap de données et à chaque nœud de décision, un sousensemble aléatoire de caractéristiques est utilisé pour trouver la meilleure coupure. 3. Agrégation des prédictions : Pour prédire une nouvelle instance, chaque arbre de la forêt fait une prédiction et la forêt aléatoire agrège ces prédictions pour produire une décision finale. Pour la classification, c'est souvent le vote majoritaire ; pour la régression, c'est la moyenne des prédictions.

Avantages

Les forêts aléatoires offrent plusieurs avantages : Robustesse au surapprentissage : En combinant les prédictions de multiples arbres, les forêts aléatoires réduisent la variance sans augmenter le biais, ce qui limite le risque de surapprentissage. Flexibilité : Elles peuvent gérer de grands jeux de données avec un grand nombre de caractéristiques et d'observations. Exactitude : Elles ont tendance à produire des modèles très précis pour de nombreux types de données et tâches de prédiction.

Conclusion

En résumé, les forêts aléatoires utilisent des principes d'échantillonnage aléatoire et de combinaison de modèles pour produire des prédictions robustes et précises. Elles sont devenues une technique de choix dans de nombreux domaines en raison de leur efficacité et de leur capacité à gérer des données complexes.

Algorithmes de Machine Learning courants