Durée: 12 mois
Rubrique: Ingénieur IA
La régression logistique est un algorithme de Machine Learning souvent utilisé pour les tâches de classification binaire. Contrairement à la régression linéaire qui est employée pour prédire des valeurs continues, la régression logistique prédit la probabilité d'appartenance à une classe particulière.
La régression logistique repose sur la fonction sigmoïde, qui est une fonction mathématique permettant de transformer une valeur quelconque en une probabilité comprise entre 0 et 1. La fonction sigmoïde est définie comme suit :
[ \sigma(z) = \frac{1}{1 + e^{z}} ]
où ( z ) représente la combinaison linéaire des caractéristiques d'entrée. Cette transformation permet d'interpréter la sortie du modèle comme une probabilité.
Pour entraîner un modèle de régression logistique, nous avons besoin d'une fonction de coût qui évalue la différence entre les prédictions du modèle et les valeurs réelles. La fonction de coût utilisée est la logloss ou entropie croisée, définie comme suit :
[ J(\theta) = \frac{1}{m} \sum{i=1}^{m} [yi \log(h\theta(xi)) + (1 yi) \log(1 h\theta(xi))] ]
où ( h\theta(xi) ) est la sortie du modèle pour l'exemple ( i ), ( yi ) est la valeur réelle, et ( m ) est le nombre total d'exemples.
L'objectif est de minimiser cette fonction de coût pour obtenir les meilleurs paramètres (\theta). Pour cela, on utilise des techniques d'optimisation telles que la descente du gradient. À chaque itération, les valeurs des paramètres sont mises à jour pour réduire la fonction de coût.
La régression logistique est largement utilisée dans divers domaines pour des tâches de classification telles que : La détection de fraude Le filtrage du spam La prédiction de maladies La segmentation de marché
L'un des avantages de la régression logistique est sa simplicité d'implémentation et d'interprétation. Cependant, elle suppose une relation linéaire entre les caractéristiques d'entrée et le logarithme des probabilités de sortie, ce qui peut être une limitation si la relation est non linéaire.