k-fold Cross-Validation
2.1. kfold CrossValidation
La validation croisée kfold est une technique couramment utilisée pour évaluer la performance de modèles de machine learning. Elle consiste à diviser l'ensemble de données d'entraînement en k sousensembles (ou plis) de tailles à peu près égales. Voici le processus détaillé :
- Diviser les Données : On commence par diviser l'ensemble de données en k plis égaux.
- Entraînement et Validation : Pour chaque pli, on utilise k1 plis pour entraîner le modèle et le pli restant pour valider (tester) le modèle.
- Répétitions : Ce processus est répété k fois, chaque pli servant une fois de jeu de validation.
- Agrégation des Résultats : On agrège ensuite les erreurs ou les scores de performance des k itérations pour obtenir une mesure d'évaluation globale.
Avantages du kfold CrossValidation
- Utilisation Efficace des Données : Toutes les observations sont utilisées pour l'entraînement et la validation, assurant une utilisation complète des données.
- Évaluation Plus Robuste : En répétant l'évaluation k fois, on obtient une estimation plus fiable de la performance du modèle comparé à une simple division en un ensemble d'entraînement et un ensemble de test.
Illustration avec un Exemple
Prenons un exemple où k=5 (souvent appelé 5fold crossvalidation). Supposons que nous avons un ensemble de données de 1000 observations. Cet ensemble est divisé en 5 sousensembles de 200 observations chacun. Le processus ressemblera à ceci :
- Groupe 1 : Entraînement (Groupe2, Groupe3, Groupe4, Groupe5), Validation (Groupe1)
- Groupe 2 : Entraînement (Groupe1, Groupe3, Groupe4, Groupe5), Validation (Groupe2)
- Groupe 3 : Entraînement (Groupe1, Groupe2, Groupe4, Groupe5), Validation (Groupe3)
- Groupe 4 : Entraînement (Groupe1, Groupe2, Groupe3, Groupe5), Validation (Groupe4)
- Groupe 5 : Entraînement (Groupe1, Groupe2, Groupe3, Groupe4), Validation (Groupe5)
À la fin de ces 5 itérations, nous aurons 5 scores de validation que nous pourrons moyenniser pour obtenir une estimation finale de la performance du modèle.
Considérations
Le choix de k est crucial et souvent, une valeur de k=10 est recommencée car elle équilibre bien le biais et la variance. Cependant, pour des ensembles de données plus grands, des valeurs de k plus petites comme 5 ou même 3 peuvent suffire.
Conclusion
En résumé, la validation croisée kfold est une méthode solide et polyvalente pour évaluer les performances de modèles de machine learning, assurant une évaluation plus robuste et une réduction du biais par rapport aux méthodes traditionnelles.