Learnr, pour apprendre autrement

Table des matières

1. Introduction au Machine Learning
1.1. Qu'est-ce que le Machine Learning ?
1.2. Pourquoi utiliser le Machine Learning ?
2. Types de Machine Learning
2.1. Apprentissage supervisé
2.2. Apprentissage non supervisé
2.3. Apprentissage semi-supervisé
2.4. Apprentissage par renforcement
3. Algorithmes de Machine Learning courants
3.1. Régression linéaire
3.2. Régression logistique
3.3. Arbres de décision
3.4. Forêts aléatoires
3.5. Machines à vecteurs de support (SVM)
3.6. k-plus proches voisins (k-NN)
4. Évaluation des modèles de Machine Learning
4.1. Métriques de performance
4.2. Matrice de confusion
4.3. Courbe ROC et AUC
5. Techniques de validation croisée
5.1. Principes de la validation croisée
5.2. Techniques courantes : k-fold, LOOCV

Métriques de performance

4.1. Métriques de performance

Les métriques de performance sont essentielles pour évaluer l'efficacité d'un modèle de Machine Learning. Elles permettent de quantifier la qualité de prédiction du modèle et de comparer différents modèles entre eux. Plusieurs métriques sont couramment utilisées dans la communauté du Machine Learning.

Précision (Accuracy)

La précision est l'une des métriques les plus simples et les plus courantes. Elle est définie comme le rapport entre le nombre de prédictions correctes et le nombre total de prédictions. Formellement, si TP représente les vrais positifs et TN les vrais négatifs, ainsi que FP les faux positifs et FN les faux négatifs, alors la précision est calculée comme suit :

[ \text{Précision} = \frac{TP + TN}{TP + TN + FP + FN} ]

Rappel (Recall) et Précision (Precision)

Le rappel et la précision sont particulièrement utiles dans le contexte des données déséquilibrées.

Précision : Proportion des instances correctement identifiées parmi celles qui ont été prédites positives.

[ \text{Précision} = \frac{TP}{TP + FP} ]

Rappel : Proportion des instances correctement identifiées parmi celles qui sont réellement positives.

[ \text{Rappel} = \frac{TP}{TP + FN} ]

F1Score

L'F1Score est une métrique qui combine la précision et le rappel pour fournir une seule valeur, particulièrement utile lorsque l'on a un compromis entre précision et rappel. Il est défini comme :

[ \text{F1Score} = 2 \times \frac{\text{Précision} \times \text{Rappel}}{\text{Précision} + \text{Rappel}} ]

AUC et ROC

La courbe ROC (Receiver Operating Characteristic) est un graphique qui représente la performance d'un modèle de classification en fonction de sa sensibilité (rappel) et de sa spécificité. L'aire sous la courbe (AUC Area Under Curve) est un nombre compris entre 0 et 1 qui quantifie la capacité du modèle à distinguer entre les classes. Plus l'AUC est proche de 1, mieux c'est.

Conclusion

Il est crucial de choisir les bonnes métriques de performance en tenant compte du contexte et des objectifs du modèle. Par exemple, dans un contexte médical, le rappel pourrait être plus important que la précision, car les faux négatifs peuvent avoir des conséquences plus graves que les faux positifs.