Table des matières

1. Régression linéaire
1.1. Principes et mathématiques de base
1.2. Implémentation et exemples d'usage
1.3. Interprétation des résultats
2. Régression logistique
2.1. Principes et mathématiques de base
2.2. Implémentation et exemples d'usage
2.3. Interprétation des résultats
3. Arbres de décision
3.1. Principes et construction d'un arbre
3.2. Implémentation et exemples d'usage
3.3. Avantages et limites
4. Forêts aléatoires
4.1. Principes et fonctionnement
4.2. Implémentation et exemples d'usage
4.3. Avantages et limites
5. Machines à vecteurs de support (SVM)
5.1. Principes et mathématiques de base
5.2. Implémentation et exemples d'usage
5.3. Avantages et limites
6. k-plus proches voisins (k-NN)
6.1. Principes et fonctionnement
6.2. Implémentation et exemples d'usage
6.3. Avantages et limites

Principes et mathématiques de base

1.1. Principes et mathématiques de base

La régression linéaire est l'une des techniques d'analyse statistique les plus utilisées, employée pour modéliser la relation entre une variable dépendante (ou variable réponse) et une ou plusieurs variables indépendantes (ou variables prédictrices).

Objectif de la régression linéaire

L'objectif principal de la régression linéaire est de trouver la meilleure droite d'ajustement qui minimise l'écart entre les valeurs observées et les valeurs prédites par le modèle. Cela se fait en utilisant la méthode des moindres carrés.

Équation de la régression linéaire

L'équation de base de la régression linéaire simple, où l'on a une seule variable indépendante, est donnée par: [ y = \beta0 + \beta1 x + \epsilon ] où : ( y ) est la variable dépendante. ( x ) est la variable indépendante. ( \beta0 ) est l'interception (ou ordonnée à l'origine). ( \beta1 ) est la pente de la droite de régression. ( \epsilon ) est le terme d'erreur.

Dans le cas de la régression linéaire multiple, l'équation s'étend pour inclure plusieurs variables indépendantes : [ y = \beta0 + \beta1 x1 + \beta2 x2 + \cdots + \betan xn + \epsilon ]

Méthode des moindres carrés

La méthode des moindres carrés consiste à minimiser la somme des carrés des résidus (différences entre les valeurs observées et les valeurs prédites par le modèle). La formule de la somme des carrés des résidus est: [ \sum{i=1}^n (yi \hat{y}i)^2 ] où ( yi ) représente les valeurs observées et ( \hat{y}i ) représente les valeurs prédites par le modèle.

Interprétation des coefficients

Chaque coefficient (\beta) dans une régression linéaire a une signification particulière : (\beta0) : C'est l'ordonnée à l'origine de la droite de régression. Elle représente la valeur prédit de (y) quand toutes les variables indépendantes (xi) sont égales à zéro. (\beta1, \beta2, \ldots, \betan) : Ces coefficients représentent l'impact unitaire de chaque variable indépendante sur la variable dépendante (y). Par exemple, (\beta1) indique l'augmentation moyenne de (y) pour une augmentation d'une unité de (x1), en gardant les autres variables constantes.

Hypothèses de la régression linéaire

Pour que les résultats du modèle de régression linéaire soient fiables, certaines hypothèses doivent être vérifiées : 1. Linéarité : La relation entre les variables indépendantes et la variable dépendante est linéaire. 2. Normalité des résidus : Les résidus doivent être normalement distribués. 3. Homoscedasticité : La variance des résidus est constante sur toutes les valeurs des variables indépendantes. 4. Indépendance des résidus : Les erreurs de prédiction doivent être indépendantes les unes des autres.

En respectant ces principes fondamentaux et mathématiques de base, la régression linéaire peut être un puissant outil pour faire des prédictions et analyser les relations entre les variables.

Algorithmes de Machine Learning courants