Learnr, pour apprendre autrement

Table des matières

1. Introduction au Machine Learning
1.1. Qu'est-ce que le Machine Learning ?
1.2. Pourquoi utiliser le Machine Learning ?
2. Types de Machine Learning
2.1. Apprentissage supervisé
2.2. Apprentissage non supervisé
2.3. Apprentissage semi-supervisé
2.4. Apprentissage par renforcement
3. Algorithmes de Machine Learning courants
3.1. Régression linéaire
3.2. Régression logistique
3.3. Arbres de décision
3.4. Forêts aléatoires
3.5. Machines à vecteurs de support (SVM)
3.6. k-plus proches voisins (k-NN)
4. Évaluation des modèles de Machine Learning
4.1. Métriques de performance
4.2. Matrice de confusion
4.3. Courbe ROC et AUC
5. Techniques de validation croisée
5.1. Principes de la validation croisée
5.2. Techniques courantes : k-fold, LOOCV

Algorithmes de Machine Learning courants

3. Algorithmes de Machine Learning courants

Les algorithmes de Machine Learning sont les outils fondamentaux qui permettent aux machines de tirer des conclusions sur des données et de prédire des résultats. Voici une introduction à quelquesuns des algorithmes les plus couramment utilisés en Machine Learning.

3.1. Régression linéaire

La régression linéaire est un algorithme simple mais puissant utilisé principalement pour les problèmes de prédiction continue. Elle vise à modéliser la relation entre une variable indépendante (ou plusieurs) et une variable dépendante en ajustant une ligne droite (ou hyperplan dans le cas de multiples variables indépendantes). L'équation générale est de la forme: [ y = mx + c ] où y est la variable dépendante, x la variable indépendante, m est le coefficient de pente et c est l'ordonnée à l'origine.

3.2. Régression logistique

La régression logistique est principalement utilisée pour les problèmes de classification binaire. Contrairement à la régression linéaire, elle prédit la probabilité d'une occurrence plutôt qu'une valeur continue. Sa fonction de décision est de la forme : [ f(x) = \frac{1}{1 + e^{(mx + c)}} ] Ce qui signifie qu'elle produit une sortie comprise entre 0 et 1, représentant des probabilités.

3.3. Arbres de décision

Les arbres de décision sont des modèles non paramétriques utilisés pour la classification et la régression. Ils fonctionnent en partitionnant les données en segments basés sur des questions successives, chaque noeud représentant une feature sur laquelle la donnée est partitionnée. Le modèle final est une arborescence de décisions qui mène à une prédiction.

3.4. Forêts aléatoires

Une forêt aléatoire est une collection d'arbres de décision indépendants et non corrélés dont les éléments sont moyennés pour améliorer la précision de la prédiction. Chaque arbre dans la forêt est entraîné sur un souséchantillon différent des données, ce qui permet de réduire le risque de surajustement.

3.5. Machines à vecteurs de support (SVM)

Les machines à vecteurs de support (SVM) sont des modèles utilisés principalement pour les tâches de classification, qui cherchent à trouver l'hyperplan qui maximise la marge entre les classes de données. Elles sont très efficaces pour des espaces de caractéristiques élevés et offrent de bons résultats avec une petite quantité de données étiquetées.

3.6. kplus proches voisins (kNN)

L'algorithme kplus proches voisins (kNN) est une méthode simple de classification qui classe une entrée en fonction de ses k voisins les plus proches dans l'ensemble de données. La classe la plus fréquente parmi les k voisins déterminera la classe de l'entrée testée. C'est un algorithme non paramétrique qui fonctionne bien pour des petits jeux de données.