Techniques courantes : k-fold, LOOCV
5.2. Techniques courantes : kfold, LOOCV
Introduction
Dans cette leçon, nous explorerons les techniques courantes de validation croisée utilisées en Machine Learning pour évaluer la performance des modèles. Deux techniques très populaires sont le kfold crossvalidation et le LeaveOneOut CrossValidation (LOOCV).
kfold CrossValidation
La validation croisée kfold est une méthode où le jeu de données est divisé en k sousensembles ou "folds" de même taille. Le processus consiste à entraîner le modèle k fois, chaque itération utilisant k1 folds pour l'entraînement et le fold restant pour le test. Voici les étapes principales :
- Division du jeu de données : Le jeu de données est divisé en k folds égaux.
- Entraînement et test : Pour chaque itération, un fold différent est utilisé pour tester le modèle tandis que les k1 autres folds sont utilisés pour l'entraîner.
- Agrégation des résultats : À la fin des k itérations, les résultats sont agrégés pour évaluer la performance globale du modèle.
Avantages du kfold CrossValidation
- Réduction de la variance : Comme le modèle est testé sur plusieurs partitions, les résultats sont plus stables et moins sensibles aux fluctuations du jeu de données.
- Utilisation efficace des données : Chaque observation est utilisée à la fois pour l'entraînement et le test, maximisant ainsi l'exploitation des données.
Inconvénients
- Coût computationnel : Surtout pour des grandes valeurs de k, le processus peut devenir lourd en termes de temps de calcul.
LeaveOneOut CrossValidation (LOOCV)
La validation croisée LeaveOneOut (LOOCV) est un cas particulier de la validation croisée kfold où k est égal au nombre total d'observations dans le jeu de données. Autrement dit, chaque observation est utilisée une fois comme jeu de test et les autres comme jeu d'entraînement.
Avantages du LOOCV
- Moins de biais : L'utilisation maximale des observations pour l'entraînement permet d'obtenir une estimation avec peu de biais.
- Exploitation complète des données : Chaque observation y contribue pleinement, ce qui est précieux quand les données sont rares.
Inconvénients du LOOCV
- Coût computationnel élevé : Comme chaque observation nécessite un entraînement séparé, la complexité est très élevée, surtout pour de grands jeux de données.
- Variabilité des résultats : Les performances peuvent être plus variables car chaque modèle est testé sur un seul point de données.
Conclusion
Choisir entre kfold crossvalidation et LOOCV dépend des contraintes spécifiques du projet, telles que le temps de calcul disponible et la taille du jeu de données. Tandis que kfold offre un bon compromis entre biais et variance, LOOCV est plus exhaustif mais au prix d'un coût computationnel plus élevé.
kfold, LOOCV, validation croisée, biais, variance
Récapitulatif
- kfold crossvalidation divise le jeu de données en k folds et itère sur chaque fold.
- LOOCV utilise chaque observation une fois pour le test et le reste pour l'entraînement.
- Chaque méthode a ses propres avantages et inconvénients, notamment en termes de biais, variance et coût computationnel.
Bravo, vous avez terminé toutes les leçons de ce programme !