Learnr, pour apprendre autrement

Table des matières

1. Introduction au Machine Learning
1.1. Qu'est-ce que le Machine Learning ?
1.2. Pourquoi utiliser le Machine Learning ?
2. Types de Machine Learning
2.1. Apprentissage supervisé
2.2. Apprentissage non supervisé
2.3. Apprentissage semi-supervisé
2.4. Apprentissage par renforcement
3. Algorithmes de Machine Learning courants
3.1. Régression linéaire
3.2. Régression logistique
3.3. Arbres de décision
3.4. Forêts aléatoires
3.5. Machines à vecteurs de support (SVM)
3.6. k-plus proches voisins (k-NN)
4. Évaluation des modèles de Machine Learning
4.1. Métriques de performance
4.2. Matrice de confusion
4.3. Courbe ROC et AUC
5. Techniques de validation croisée
5.1. Principes de la validation croisée
5.2. Techniques courantes : k-fold, LOOCV

Régression logistique

3.2. Régression logistique

La régression logistique est un algorithme de Machine Learning souvent utilisé pour les tâches de classification binaire. Contrairement à la régression linéaire qui est employée pour prédire des valeurs continues, la régression logistique prédit la probabilité d'appartenance à une classe particulière.

Fonction Sigmoïde

La régression logistique repose sur la fonction sigmoïde, qui est une fonction mathématique permettant de transformer une valeur quelconque en une probabilité comprise entre 0 et 1. La fonction sigmoïde est définie comme suit :

[ \sigma(z) = \frac{1}{1 + e^{z}} ]

où ( z ) représente la combinaison linéaire des caractéristiques d'entrée. Cette transformation permet d'interpréter la sortie du modèle comme une probabilité.

Fonction de Coût LogLoss

Pour entraîner un modèle de régression logistique, nous avons besoin d'une fonction de coût qui évalue la différence entre les prédictions du modèle et les valeurs réelles. La fonction de coût utilisée est la logloss ou entropie croisée, définie comme suit :

[ J(\theta) = \frac{1}{m} \sum{i=1}^{m} [yi \log(h\theta(xi)) + (1 yi) \log(1 h\theta(xi))] ]

où ( h\theta(xi) ) est la sortie du modèle pour l'exemple ( i ), ( yi ) est la valeur réelle, et ( m ) est le nombre total d'exemples.

Entraînement du Modèle

L'objectif est de minimiser cette fonction de coût pour obtenir les meilleurs paramètres (\theta). Pour cela, on utilise des techniques d'optimisation telles que la descente du gradient. À chaque itération, les valeurs des paramètres sont mises à jour pour réduire la fonction de coût.

Applications

La régression logistique est largement utilisée dans divers domaines pour des tâches de classification telles que : La détection de fraude Le filtrage du spam La prédiction de maladies La segmentation de marché

Avantages et Limitations

L'un des avantages de la régression logistique est sa simplicité d'implémentation et d'interprétation. Cependant, elle suppose une relation linéaire entre les caractéristiques d'entrée et le logarithme des probabilités de sortie, ce qui peut être une limitation si la relation est non linéaire.