Table des matières

1. Régression linéaire
1.1. Principes et mathématiques de base
1.2. Implémentation et exemples d'usage
1.3. Interprétation des résultats
2. Régression logistique
2.1. Principes et mathématiques de base
2.2. Implémentation et exemples d'usage
2.3. Interprétation des résultats
3. Arbres de décision
3.1. Principes et construction d'un arbre
3.2. Implémentation et exemples d'usage
3.3. Avantages et limites
4. Forêts aléatoires
4.1. Principes et fonctionnement
4.2. Implémentation et exemples d'usage
4.3. Avantages et limites
5. Machines à vecteurs de support (SVM)
5.1. Principes et mathématiques de base
5.2. Implémentation et exemples d'usage
5.3. Avantages et limites
6. k-plus proches voisins (k-NN)
6.1. Principes et fonctionnement
6.2. Implémentation et exemples d'usage
6.3. Avantages et limites

Principes et fonctionnement

6.1. Principes et fonctionnement

Le kplus proches voisins (kNN) est un algorithme simple mais puissant, couramment utilisé pour des tâches de classification et de régression. Le principe de base repose sur la supposition que des données similaires se trouvent près l'une de l'autre dans l'espace des caractéristiques.

Principe de base

Le kNN fonctionne en calculant la distance entre un point de données à prédire et tous les autres points de données d’un ensemble donné, puis en sélectionnant les k points les plus proches. Parmi ces voisins, la classe majoritaire (pour les tâches de classification) ou la moyenne des valeurs (pour les tâches de régression) est utilisée comme prédiction.

Fonctionnement détaillé

Choix de k: Le choix de k, le nombre de voisins, est crucial. Un petit k peut rendre le modèle sensible au bruit dans les données, tandis qu’un k trop grand peut lisser les frontières entre les classes.
Mesure de la distance: Le kNN utilise généralement la distance Euclidienne pour calculer la proximité entre les points: [ d(x, y) = \sqrt{\sum (xi yi)^2} ] Cependant, d'autres mesures de distance comme la distance de Manhattan peuvent également être utilisées.
Classification: Pour classifier un nouveau point de données, l'algorithme:
Calcule la distance entre le nouveau point et tous les points de l’ensemble d’entraînement.
Trie les distances croissantes.
Choisit les k plus proches voisins.
Compte le nombre de votes de chaque classe parmi les voisins et attribue la classe majoritaire.
Régression: Pour une tâche de régression, la prédiction est simplement la moyenne des valeurs des k plus proches voisins.

Avantages et limites

Avantages

Facilité d'implémentation: kNN est facile à comprendre et à mettre en œuvre.
Pas de phase d'apprentissage: L'algorithme est non paramétrique et ne nécessite donc pas de phase d'apprentissage complexe.

Limites

Complexité de calcul: La recherche des k plus proches voisins peut être coûteuse en termes de calcul, surtout pour de grands ensembles de données.
Sensibilité aux données: kNN est sensible aux valeurs aberrantes et au bruit dans les données.
Importance de la normalisation: Les résultats peuvent être fortement influencés par l'échelle des caractéristiques, nécessitant souvent une normalisation préalable des données.

L'algorithme kNN est efficace pour des applications où la relation locale entre les données est importante et où un modèle simple est suffisant.

Principe de base, k, Mesure de la distance, Classification, Régression

Algorithmes de Machine Learning courants