Learnr, pour apprendre autrement

Table des matières

1. Introduction au Machine Learning
1.1. Qu'est-ce que le Machine Learning ?
1.2. Pourquoi utiliser le Machine Learning ?
2. Types de Machine Learning
2.1. Apprentissage supervisé
2.2. Apprentissage non supervisé
2.3. Apprentissage semi-supervisé
2.4. Apprentissage par renforcement
3. Algorithmes de Machine Learning courants
3.1. Régression linéaire
3.2. Régression logistique
3.3. Arbres de décision
3.4. Forêts aléatoires
3.5. Machines à vecteurs de support (SVM)
3.6. k-plus proches voisins (k-NN)
4. Évaluation des modèles de Machine Learning
4.1. Métriques de performance
4.2. Matrice de confusion
4.3. Courbe ROC et AUC
5. Techniques de validation croisée
5.1. Principes de la validation croisée
5.2. Techniques courantes : k-fold, LOOCV

Machines à vecteurs de support (SVM)

3.5. Machines à vecteurs de support (SVM)

Les Machines à vecteurs de support (SVM) sont des algorithmes de Machine Learning largement utilisés pour la classification et la régression. Le principe fondamental des SVM est de trouver un hyperplan dans un espace multidimensionnel qui sépare les différentes classes. Pour les problèmes linéaires, cet hyperplan est une ligne ou un plan (dans un espace à deux ou trois dimensions), mais il peut avoir des formes plus complexes lorsque les classes ne sont pas séparables linéairement.

Principe de base des SVM

L'objectif principal d'un SVM est de maximiser la marge entre les classes. La marge est définie comme la distance entre l'hyperplan de séparation et les points les plus proches de chaque classe, appelés "vecteurs de support". En maximisant cette marge, on obtient un modèle plus robuste et moins susceptible de surapprentissage (overfitting).

SVM linéaires vs SVM non linéaires

SVM linéaires: Efficaces pour les problèmes où les données sont séparables par une ligne droite (ou un plan, etc.). Faciles à interpréter et rapides à exécuter.

SVM non linéaires: Utilisent des fonctions de noyau (kernel) pour transformer les données dans un espace de plus grande dimension où elles deviennent linéairement séparables. Parmi les noyaux les plus courants, on trouve le noyau polynomial et le noyau gaussien (RBF).

Fonction de noyau

Les fonctions de noyau permettent de transformer les données d'entrée pour qu'elles soient séparables linéairement dans un espace de dimension supérieure, sans avoir à calculer cette transformation explicitement. Les noyaux courants incluent: Noyau polynomial: Capable de modéliser des relations non linéaires complexes. Noyau gaussien (RBF): Extrêmement puissant pour les données avec une frontière de décision complexe.

Avantages et inconvénients

Avantages des SVM: Efficacité: Performants même avec un grand nombre de dimensions et de caractéristiques. Flexibilité: Grâce aux différents noyaux, les SVM peuvent s'adapter à une variété de problèmes.

Inconvénients des SVM: Complexité de l'entraînement: Peut être gourmand en termes de temps et de ressources mémoire, surtout avec des noyaux complexes. Choix du noyau: Nécessite souvent une expérimentation pour trouver le noyau le plus adapté et les bons hyperparamètres.

Applications des SVM

Les SVM sont utilisés dans divers domaines comme: Bioinformatique: Pour la classification de gènes et de protéines. Reconnaissance faciale: Identification et vérification des visages. Finances: Prévision des marchés et détection de fraudes.

Les SVM sont puissants mais nécessitent une compréhension approfondie des données et des noyaux appropriés pour chaque problème spécifique. En résumé, ils offrent une méthodologie robuste pour divers problèmes de classification et de régression lorsqu'ils sont correctement configurés.