Table des matières

1. Introduction au Machine Learning
1.1. Qu'est-ce que le Machine Learning ?
1.2. Pourquoi utiliser le Machine Learning ?
2. Types de Machine Learning
2.1. Apprentissage supervisé
2.2. Apprentissage non supervisé
2.3. Apprentissage semi-supervisé
2.4. Apprentissage par renforcement
3. Algorithmes de Machine Learning courants
3.1. Régression linéaire
3.2. Régression logistique
3.3. Arbres de décision
3.4. Forêts aléatoires
3.5. Machines à vecteurs de support (SVM)
3.6. k-plus proches voisins (k-NN)
4. Évaluation des modèles de Machine Learning
4.1. Métriques de performance
4.2. Matrice de confusion
4.3. Courbe ROC et AUC
5. Techniques de validation croisée
5.1. Principes de la validation croisée
5.2. Techniques courantes : k-fold, LOOCV

Techniques de validation croisée

5. Techniques de validation croisée

Les techniques de validation croisée sont essentielles pour évaluer la performance des modèles de Machine Learning. Elles permettent de s'assurer que les modèles ne se contentent pas de bien fonctionner sur les données d'entraînement, mais qu'ils généralisent bien à des données nouvelles et inconnues. Dans cette leçon, nous explorerons les principes de la validation croisée ainsi que certaines techniques courantes comme le kfold et le LOOCV (LeaveOneOut Cross Validation).

5.1 Principes de la validation croisée

La validation croisée est une technique qui consiste à diviser les données disponibles en plusieurs sousensembles. Le modèle est ensuite entraîné sur certains de ces sousensembles et testé sur les sousensembles restants. Ce processus est répété plusieurs fois, en changeant les sousensembles d'entraînement et de test à chaque itération. Ce processus vise à évaluer la capacité du modèle à généraliser sur un jeu de données indépendant. La métrique de performance finale est généralement calculée en prenant la moyenne des performances obtenues lors de chaque itération.

La validation croisée permet également de diminuer le risque de surapprentissage (ou overfitting) et de sousapprentissage (ou underfitting). En alternant les portions du jeu de données utilisées pour l'entraînement et le test, le modèle est mis à l'épreuve de manière plus robuste.

5.2 Techniques courantes : kfold, LOOCV

KFold Cross Validation

La validation croisée kfold est une des méthodes les plus courantes. Elle consiste à diviser le jeu de données en k sousensembles (ou folds). Le modèle est alors entraîné k fois, chaque fois avec un fold différent utilisé comme jeu de test et les k1 folds restants utilisés pour l'entraînement.

Par exemple, si k=5, le jeu de données est divisé en 5 sousensembles. Le modèle est d'abord entraîné sur les 4 premiers sousensembles et testé sur le 5ème. Ensuite, il est entraîné sur un autre ensemble de 4 sousensembles et testé sur le sousensemble restant, et ainsi de suite. Les résultats de performance sont ensuite moyennés pour obtenir une estimation finale.

LeaveOneOut Cross Validation (LOOCV)

La validation croisée LOOCV est une forme particulière de kfold où k est égal au nombre d'échantillons dans le jeu de données. Cela signifie que le modèle est entraîné plusieurs fois, chaque fois avec un seul échantillon laissé de côté comme jeu de test et tous les autres échantillons utilisés pour l'entraînement.

Cette technique est plus exhaustive, car elle utilise presque toutes les données disponibles pour entraîner le modèle à chaque itération. Cependant, elle est aussi plus coûteuse en termes de temps de calcul, surtout pour de grands jeux de données.

La validation croisée est donc un outil indispensable pour évaluer de manière fiable les performances des modèles de Machine Learning, contribuant à éviter les pièges du surapprentissage et à valider la capacité de généralisation des modèles.