Learnr, pour apprendre autrement

Table des matières

1. Introduction au Machine Learning
1.1. Qu'est-ce que le Machine Learning ?
1.2. Pourquoi utiliser le Machine Learning ?
2. Types de Machine Learning
2.1. Apprentissage supervisé
2.2. Apprentissage non supervisé
2.3. Apprentissage semi-supervisé
2.4. Apprentissage par renforcement
3. Algorithmes de Machine Learning courants
3.1. Régression linéaire
3.2. Régression logistique
3.3. Arbres de décision
3.4. Forêts aléatoires
3.5. Machines à vecteurs de support (SVM)
3.6. k-plus proches voisins (k-NN)
4. Évaluation des modèles de Machine Learning
4.1. Métriques de performance
4.2. Matrice de confusion
4.3. Courbe ROC et AUC
5. Techniques de validation croisée
5.1. Principes de la validation croisée
5.2. Techniques courantes : k-fold, LOOCV

Principes de la validation croisée

5.1. Principes de la validation croisée

La validation croisée est une technique essentielle en machine learning pour évaluer la performance et la généralisation des modèles d'apprentissage. Elle consiste à diviser l'ensemble de données en plusieurs sousensembles ou "folds" (pliages), puis à entraîner le modèle sur un ou plusieurs de ces sousensembles tout en le testant sur les sousensembles restants.

Pourquoi la validation croisée ?

La validation croisée est cruciale pour plusieurs raisons : Estimation de la performance : Elle fournit une estimation plus précise de la performance du modèle sur des données non vues. Réduction du surapprentissage : En utilisant différentes partitions de l'ensemble de données, on peut mieux détecter et réduire le surapprentissage (ou overfitting). Utilisation efficace des données : Elle permet de maximiser l'utilisation des données disponibles en exploitant plusieurs fois l'ensemble de données pour l'entraînement et le test.

Procédure de validation croisée

Diviser les données : L'ensemble de données est divisé en k sousensembles ou folds.
Former et tester : Un des sousensembles est utilisé comme ensemble de test, et les k1 autres sousensembles sont utilisés comme ensemble d'entraînement. Cette étape est répétée k fois, chaque sousensemble servant une fois de test.
Calculer la performance générale : Les résultats obtenus lors de chaque itération sont agrégés pour fournir une estimation de la performance globale du modèle.

Types de validation croisée

Il existe plusieurs types de techniques de validation croisée, mais les plus courantes sont :

kfold CrossValidation : La méthode la plus populaire où l'ensemble de données est divisé en k sousensembles, et le processus décrit cidessus est suivi.
LeaveOneOut CrossValidation (LOOCV) : Une version extrême de kfold où k est égal au nombre d'exemples dans l'ensemble de données. Chaque exemple est utilisé une fois comme ensemble de test, ce qui signifie que chaque modèle est entraîné sur les k1 autres exemples.
Stratified kfold CrossValidation : Une variation de kfold où chaque pli conserve la même proportion de chaque classe cible que l'ensemble de données complet. Ceci est particulièrement utile lorsque les classes sont déséquilibrées.

Avantages et inconvénients

Avantages : Utilisation optimale des données : Aucune donnée n'est gaspillée ; chaque exemple est utilisé à la fois pour l'entraînement et pour le test. Estimation plus fiable : Permet d'obtenir une estimation plus fiable de la performance du modèle.

Inconvénients : Coût computationnel élevé : Peut être très coûteux en termes de calcul, particulièrement pour de grands ensembles de données ou des modèles complexes. Risque de corrélation entre partitions : Si les données ne sont pas correctement mélangées, il peut y avoir une corrélation entre les partitions, ce qui peut biaiser l'évaluation.

à retenir

La validation croisée est une méthode incontournable en machine learning pour obtenir des modèles robustes et bien généralisés. Elle permet de mieux évaluer la performance d’un modèle, de minimiser les risques de surapprentissage et d'utiliser efficacement les données disponibles.

Machine Learning