Table des matières

1. Régression linéaire
1.1. Principes et mathématiques de base
1.2. Implémentation et exemples d'usage
1.3. Interprétation des résultats
2. Régression logistique
2.1. Principes et mathématiques de base
2.2. Implémentation et exemples d'usage
2.3. Interprétation des résultats
3. Arbres de décision
3.1. Principes et construction d'un arbre
3.2. Implémentation et exemples d'usage
3.3. Avantages et limites
4. Forêts aléatoires
4.1. Principes et fonctionnement
4.2. Implémentation et exemples d'usage
4.3. Avantages et limites
5. Machines à vecteurs de support (SVM)
5.1. Principes et mathématiques de base
5.2. Implémentation et exemples d'usage
5.3. Avantages et limites
6. k-plus proches voisins (k-NN)
6.1. Principes et fonctionnement
6.2. Implémentation et exemples d'usage
6.3. Avantages et limites

Régression logistique

Régression Logistique

2.1 Principes et mathématiques de base

La régression logistique est une technique d'analyse statistique utilisée principalement pour la classification binaire. Contrairement à la régression linéaire qui prédit des valeurs continues, la régression logistique prédit des probabilités de classe pour des variables catégorielles.

Le modèle logistique est basé sur la fonction logistique (fonction sigmoïde), qui est définie par la formule suivante :

[ \sigma(z) = \frac{1}{1 + e^{z}} ]

où : ( \sigma(z) ) est la sortie de la fonction logistique. ( z ) est une combinaison linéaire des caractéristiques d'entrée, souvent noté ( z = \beta0 + \beta1 x1 + \beta2 x2 + ... + \betan xn ), où ( \betai ) sont les coefficients du modèle et ( xi ) les variables d'entrée.

L'objectif est de trouver les coefficients (( \beta0, \beta1, ..., \betan )) qui minimisent la fonction de coût, souvent définie comme la logvraisemblance négative.

2.2 Implémentation et exemples d'usage

L'implémentation de la régression logistique peut être effectuée en utilisant divers outils et bibliothèques, comme scikitlearn en Python. Voici un exemple illustratif d'implémentation en Python :

```python from sklearn.modelselection import traintestsplit from sklearn.linearmodel import LogisticRegression from sklearn.metrics import accuracyscore

Chargement des données

X = [...] y = [...]

Séparation des données en ensembles d'entraînement et de test

Xtrain, Xtest, ytrain, ytest = traintestsplit(X, y, testsize=0.3, randomstate=42)

Initialisation du modèle

model = LogisticRegression()

Entraînement du modèle

model.fit(Xtrain, ytrain)

Prédiction sur l'ensemble de test

ypred = model.predict(Xtest)

Évaluation des performances du modèle

accuracy = accuracyscore(ytest, ypred) print(f"Accuracy: {accuracy}") ```

Exemples d'usage

Détection de la fraude : Classification des transactions en frauduleuses ou non.
Analyse médicale : Prédiction de la présence de certaines maladies en fonction des symptômes.
Marketing : Prédiction de la probabilité qu'un client achète un produit en fonction de ses caractéristiques démographiques.

2.3 Interprétation des résultats

Interpréter les résultats d'une régression logistique implique plusieurs étapes :

Coefficients (( \betai )) : Ils indiquent la force et la direction de l'influence des variables d'entrée (( xi )) sur la sortie. Par exemple, un coefficient positif indique qu'une augmentation de la variable d'entrée augmente la probabilité de la classe positive.
Odds ratio : Il exprime la quantité par laquelle les odds changent pour une unité d'augmentation de la variable d'entrée.
Score de probabilité : Les valeurs prédites par le modèle peuvent être interprétées comme des probabilités d'appartenance à la classe positive. Une valeur proche de 1 indique une forte probabilité, tandis qu'une valeur proche de 0 indique une faible probabilité.
Métriques de performance : L'accuracy, l'aire sous la courbe ROC (AUC), la précision, le rappel sont des métriques couramment utilisées pour évaluer les performances d'un modèle de régression logistique.

Il est aussi crucial de vérifier l'absence de multicolinéarité entre les variables d'entrée et de s'assurer que les hypothèses sousjacentes du modèle sont respectées pour des résultats valides.

Algorithmes de Machine Learning courants

Table des matières