Durée: 12 mois
Rubrique: Ingénieur IA
Le kplus proches voisins (kNN) est un algorithme simple mais puissant, couramment utilisé pour des tâches de classification et de régression. Le principe de base repose sur la supposition que des données similaires se trouvent près l'une de l'autre dans l'espace des caractéristiques.
Le kNN fonctionne en calculant la distance entre un point de données à prédire et tous les autres points de données d’un ensemble donné, puis en sélectionnant les k points les plus proches. Parmi ces voisins, la classe majoritaire (pour les tâches de classification) ou la moyenne des valeurs (pour les tâches de régression) est utilisée comme prédiction.
Choix de k: Le choix de k, le nombre de voisins, est crucial. Un petit k peut rendre le modèle sensible au bruit dans les données, tandis qu’un k trop grand peut lisser les frontières entre les classes.
Mesure de la distance: Le kNN utilise généralement la distance Euclidienne pour calculer la proximité entre les points: [ d(x, y) = \sqrt{\sum (xi yi)^2} ] Cependant, d'autres mesures de distance comme la distance de Manhattan peuvent également être utilisées.
Classification: Pour classifier un nouveau point de données, l'algorithme:
Compte le nombre de votes de chaque classe parmi les voisins et attribue la classe majoritaire.
Régression: Pour une tâche de régression, la prédiction est simplement la moyenne des valeurs des k plus proches voisins.
L'algorithme kNN est efficace pour des applications où la relation locale entre les données est importante et où un modèle simple est suffisant.
Principe de base, k, Mesure de la distance, Classification, Régression