Durée: 12 mois
Rubrique: Ingénieur IA
Les techniques de validation croisée sont essentielles pour évaluer la performance des modèles de Machine Learning. Elles permettent de s'assurer que les modèles ne se contentent pas de bien fonctionner sur les données d'entraînement, mais qu'ils généralisent bien à des données nouvelles et inconnues. Dans cette leçon, nous explorerons les principes de la validation croisée ainsi que certaines techniques courantes comme le kfold et le LOOCV (LeaveOneOut Cross Validation).
La validation croisée est une technique qui consiste à diviser les données disponibles en plusieurs sousensembles. Le modèle est ensuite entraîné sur certains de ces sousensembles et testé sur les sousensembles restants. Ce processus est répété plusieurs fois, en changeant les sousensembles d'entraînement et de test à chaque itération. Ce processus vise à évaluer la capacité du modèle à généraliser sur un jeu de données indépendant. La métrique de performance finale est généralement calculée en prenant la moyenne des performances obtenues lors de chaque itération.
La validation croisée permet également de diminuer le risque de surapprentissage (ou overfitting) et de sousapprentissage (ou underfitting). En alternant les portions du jeu de données utilisées pour l'entraînement et le test, le modèle est mis à l'épreuve de manière plus robuste.
La validation croisée kfold est une des méthodes les plus courantes. Elle consiste à diviser le jeu de données en k sousensembles (ou folds). Le modèle est alors entraîné k fois, chaque fois avec un fold différent utilisé comme jeu de test et les k1 folds restants utilisés pour l'entraînement.
Par exemple, si k=5, le jeu de données est divisé en 5 sousensembles. Le modèle est d'abord entraîné sur les 4 premiers sousensembles et testé sur le 5ème. Ensuite, il est entraîné sur un autre ensemble de 4 sousensembles et testé sur le sousensemble restant, et ainsi de suite. Les résultats de performance sont ensuite moyennés pour obtenir une estimation finale.
La validation croisée LOOCV est une forme particulière de kfold où k est égal au nombre d'échantillons dans le jeu de données. Cela signifie que le modèle est entraîné plusieurs fois, chaque fois avec un seul échantillon laissé de côté comme jeu de test et tous les autres échantillons utilisés pour l'entraînement.
Cette technique est plus exhaustive, car elle utilise presque toutes les données disponibles pour entraîner le modèle à chaque itération. Cependant, elle est aussi plus coûteuse en termes de temps de calcul, surtout pour de grands jeux de données.
La validation croisée est donc un outil indispensable pour évaluer de manière fiable les performances des modèles de Machine Learning, contribuant à éviter les pièges du surapprentissage et à valider la capacité de généralisation des modèles.