Table des matières

1. Régression linéaire
1.1. Principes et mathématiques de base
1.2. Implémentation et exemples d'usage
1.3. Interprétation des résultats
2. Régression logistique
2.1. Principes et mathématiques de base
2.2. Implémentation et exemples d'usage
2.3. Interprétation des résultats
3. Arbres de décision
3.1. Principes et construction d'un arbre
3.2. Implémentation et exemples d'usage
3.3. Avantages et limites
4. Forêts aléatoires
4.1. Principes et fonctionnement
4.2. Implémentation et exemples d'usage
4.3. Avantages et limites
5. Machines à vecteurs de support (SVM)
5.1. Principes et mathématiques de base
5.2. Implémentation et exemples d'usage
5.3. Avantages et limites
6. k-plus proches voisins (k-NN)
6.1. Principes et fonctionnement
6.2. Implémentation et exemples d'usage
6.3. Avantages et limites

Principes et construction d'un arbre

3.1. Principes et construction d'un arbre

Introduction aux arbres de décision

Les arbres de décision sont des modèles de machine learning non paramétriques utilisés à la fois pour les tâches de classification et de régression. Un arbre de décision est structuré comme un arbre, où chaque nœud interne représente un "test" sur une caractéristique (par exemple, estce que la température est supérieure à 30°C ?). Chaque branche représente le résultat du test, et chaque feuille représente une étiquette de classe ou une valeur de régression.

Racines des arbres et nœuds

La racine de l'arbre est le premier nœud et le plus important.
Les nœuds internes sont les points de décision intermédiaires.
Les feuilles de l'arbre sont les points de sortie où se trouve la prédiction finale.

Principe de division (splitting)

La construction d'un arbre de décision implique de récursivement séparer les données en sousensembles basés sur l'attribut qui offre la meilleure séparation. Ce processus est souvent basé sur des métriques comme :

L'entropie: Une mesure de l'incertitude ou de la pureté des segments.
Le gain d'information: La réduction de l'entropie après un split.
L'indice de Gini: Un critère de classification qui mesure l'impureté des éléments.

Algorithme de construction

Un exemple d'algorithme utilisé pour bâtir un arbre de décision est l'ID3 (Iterative Dichotomiser 3), qui utilise l'entropie et le gain d'information pour effectuer les splits. Voici une description simplifiée :

Sélectionner l'attribut le plus pertinent pour diviser les données.
Créer un nœud pour cet attribut.
Répartir les sousensembles de données aux branches du nœud.
Répéter le processus pour chaque sousensemble récursivement jusqu'à atteindre un critère d'arrêt (comme la profondeur maximale de l'arbre).

Profondeur de l'arbre et surapprentissage

Un arbre profond peut trop s'adapter (overfitting) aux données d'entraînement et ne pas généraliser bien sur des nouvelles données.
Un arbre peu profond peut sousapprendre (underfitting) et ne pas capter les tendances importantes des données.

Critères d’arrêt

Pour empêcher l'arbre de devenir trop complexe, des critères d'arrêt sont souvent imposés : Profondeur maximale: Limite le nombre de niveaux de l'arbre. Nombre minimum d’échantillons par feuille: Limite le nombre minimum d’échantillons requis pour créer une feuille.

Règles de décision

Les feuilles de l’arbre peuvent fournir des règles de décision basées sur les branches et les nœuds traversés. Par exemple, une règle pourrait être : "Si la température > 30°C et si l'humidité < 50%, alors il va faire soleil".

Importance des variables

Les arbres de décision peuvent également être utilisés pour estimer l'importance relative des variables en fonction de leur contribution à la pureté des splits.

Racine, Nœud, Feuille, Divison, Gain d'information

Algorithmes de Machine Learning courants