Learnr, pour apprendre autrement

Table des matières

1. Introduction au Machine Learning
1.1. Qu'est-ce que le Machine Learning ?
1.2. Pourquoi utiliser le Machine Learning ?
2. Types de Machine Learning
2.1. Apprentissage supervisé
2.2. Apprentissage non supervisé
2.3. Apprentissage semi-supervisé
2.4. Apprentissage par renforcement
3. Algorithmes de Machine Learning courants
3.1. Régression linéaire
3.2. Régression logistique
3.3. Arbres de décision
3.4. Forêts aléatoires
3.5. Machines à vecteurs de support (SVM)
3.6. k-plus proches voisins (k-NN)
4. Évaluation des modèles de Machine Learning
4.1. Métriques de performance
4.2. Matrice de confusion
4.3. Courbe ROC et AUC
5. Techniques de validation croisée
5.1. Principes de la validation croisée
5.2. Techniques courantes : k-fold, LOOCV

Régression linéaire

3.1. Régression linéaire

La régression linéaire est l'une des méthodes les plus simples et les plus couramment utilisées en Machine Learning. Elle vise à modéliser la relation entre une variable dépendante continue (souvent notée ( y )) et une ou plusieurs variables indépendantes (notées ( X )). Le but est de trouver la meilleure ligne droite (ou hyperplan dans des dimensions plus élevées) qui décrit cette relation.

Principe de la Régression Linéaire

Le modèle de régression linéaire prend la forme : [ y = \beta0 + \beta1 X1 + \beta2 X2 + ... + \betan Xn + \epsilon ] où : ( y ) est la variable cible. ( X1, X2, ..., Xn ) sont les variables indépendantes (ou caractéristiques). ( \beta0 ) est l'intercept (ordonnée à l'origine). ( \beta1, \beta2, ..., \betan ) sont les coefficients de régression (pentes). ( \epsilon ) est le terme d'erreur, qui représente la variabilité non expliquée par le modèle.

Le but est de minimiser la somme des carrés des erreurs (Sum of Squared Errors, SSE), qui se traduit par la minimisation de la différence entre les valeurs prédites et les valeurs observées.

Méthode des Moindres Carrés Ordinaires

Pour estimer les coefficients de régression (\beta), on utilise souvent la méthode des moindres carrés ordinaires (Ordinary Least Squares, OLS). Cette méthode cherche à minimiser la somme des carrés des écarts entre les valeurs observées et les valeurs prédites par le modèle. Mathématiquement, c'est la solution de : [ \min{\beta} \sum{i=1}^{m} (yi \hat{y}i)^2 ]

Hypothèses de la Régression Linéaire

Pour que les estimations soient fiables, certaines hypothèses doivent être respectées : 1. Linéarité : La relation entre les variables indépendantes et la variable dépendante doit être linéaire. 2. Indépendance des erreurs : Les erreurs doivent être indépendantes les unes des autres. 3. Homoscedasticité : Les erreurs doivent avoir une variance constante. 4. Normalité des erreurs : Les erreurs doivent être normalement distribuées (surtout important pour les tests d'hypothèses).

Avantages et Inconvénients

Avantages : Simplicité : Facile à comprendre et à interpréter. Efficacité : Computationally léger et rapide à s'exécuter. Transparence : Les coefficients sont directement interprétables.

Inconvénients : Précision limitée : Peut avoir une performance médiocre pour des relations non linéaires. Sensibilité aux valeurs aberrantes : Les valeurs anormales peuvent avoir une influence disproportionnée sur le modèle.

Applications

La régression linéaire est utilisée dans divers domaines tels que : Économie : Prévoir les ventes, la croissance économique. Biostatistique : Analyser les relations entre variables biologiques. Sciences sociales : Étudier les relations entre variables démographiques.