Table des matières

1. Introduction à l'évaluation des modèles
1.1. Importance de l'évaluation
1.2. Processus général d'évaluation
2. Métriques de performance pour la classification
2.1. Exactitude (Accuracy)
2.2. Précision (Precision)
2.3. Rappel (Recall)
2.4. Score F1
3. Métriques de performance pour la régression
3.1. Erreur quadratique moyenne (MSE)
3.2. Erreur absolue moyenne (MAE)
3.3. Coefficient de détermination (R²)
4. Techniques d'évaluation avancées
4.1. Validation croisée (Cross-validation)
4.2. Courbes ROC et AUC
5. Analyse des erreurs et amélioration des modèles
5.1. Diagnostiquer les problèmes de surajustement et de sous-ajustement
5.2. Stratégies pour l'amélioration des modèles

Métriques de performance pour la régression

3. Métriques de performance pour la régression

Pour évaluer les performances des modèles de régression, il est essentiel de comprendre et d'utiliser correctement certaines métriques de performance. Ces métriques fournissent des indications claires sur la précision et la fiabilité de nos modèles prédictifs.

3.1. Erreur quadratique moyenne (MSE)

L'Erreur quadratique moyenne (MSE) mesure la moyenne des carrés des erreurs, c'estàdire les écarts au carré entre les valeurs prédites et les valeurs réelles. Elle est donnée par la formule suivante : [ MSE = \frac{1}{n} \sum{i=1}^{n} (yi \hat{y}i)^2 ] où ( n ) est le nombre de points de données, ( yi ) est la valeur réelle et ( \hat{y}i ) est la valeur prédite.

Avantages : Pénalise fortement les grandes erreurs en raison du carré des écarts. Couramment utilisée en raison de sa simplicité.

Inconvénients : Sensible aux outliers (valeurs aberrantes).

3.2. Erreur absolue moyenne (MAE)

L'Erreur absolue moyenne (MAE) représente la moyenne des valeurs absolues des erreurs. Sa formule est : [ MAE = \frac{1}{n} \sum{i=1}^{n} |yi \hat{y}i| ]

Avantages : Plus robuste visàvis des outliers. Facile à interpréter.

Inconvénients : Peut ne pas pénaliser suffisamment les grandes erreurs.

3.3. Coefficient de détermination (R²)

Le Coefficient de détermination (R²) mesure la proportion de la variance dans les données dépendantes qui est prévisible à partir des variables indépendantes. Il est donné par : [ R^2 = 1 \frac{SSR}{SST} ] où (SSR) est la somme des résidus au carré et (SST) est la somme totale des erreurs au carré.

Avantages : Offre une évaluation intuitive du pourcentage de variation expliquée par le modèle. Indique l'efficacité du modèle.

Inconvénients : Peut être trompeur pour les modèles nonlinéaires. Ne pénalise pas suffisamment les modèles complexes.

Résumé

Les métriques comme le MSE, le MAE, et le R² jouent des rôles cruciaux pour évaluer la performance des modèles de régression. Chacune a ses avantages et ses limitations, et il est souvent bénéfique d’en utiliser plusieurs en complément pour obtenir une évaluation plus complète.

Évaluation des modèles de Machine Learning