Durée: 12 mois
Rubrique: Ingénieur IA
1. Simplicité et Facilité d'Implémentation
Le kNN est reconnu pour sa simplicité. Il fonctionne en effectuant des comparaisons directes entre les points de données. L'algorithme ne nécessite pas de formation, ce qui signifie qu'il est instantanément prêt à prédire une fois que les données sont disponibles. Les nouvelles données peuvent être aisément ajoutées sans nécessiter une reformation complète du modèle.
2. Polyvalence
Le kNN peut être utilisé pour des tâches de classification ainsi que de régression. Cela le rend très polyvalent et utile dans divers types de problèmes pratiques.
3. Capacité à Se Débarrasser des Outliers
En sélectionnant un nombre k approprié de voisins, l'algorithme peut réduire l'impact des points aberrants (outliers) et ainsi fournir des prédictions plus robustes.
4. Intuition
Les résultats sont relativement faciles à comprendre pour les utilisateurs finaux car le concept de "proximité" de voisins est intuitif.
5. Aucune Hypothèse
Contrairement à d'autres algorithmes (comme la régression linéaire qui suppose une relation linéaire entre les variables indépendantes et dépendantes), le kNN ne fait aucune hypothèse sur la distribution des données.
1. Complexité de Calcul Elevée
Le principal inconvénient du kNN est sa complexité de calcul, en particulier pour les grands ensembles de données. Comme chaque prévision nécessite une comparaison avec chaque point de données dans l'ensemble d'entraînement, cela peut devenir extrêmement coûteux en termes de temps de calcul et de mémoire.
2. Sensibilité à la Dimensionnalité
L'algorithme kNN souffre du problème de la "malédiction de la dimensionnalité". Plus le nombre de caractéristiques (dimensions) augmente, plus il devient difficile pour l'algorithme de calculer des distances utiles, ce qui peut dégrader la performance.
3. Sensibilité au Bruit
Le kNN peut être influencé de manière disproportionnée par le bruit dans les données. Les points de données erronés ou les outliers peuvent fausser les résultats si la distribution n'est pas uniformément claire.
4. Choix du k
Le choix de la valeur de k est critique et peut affecter les performances. Un k trop petit peut rendre les prédictions sensibles aux bruits, tandis qu'un k trop grand peut inclure des points qui ne sont pas pertinents pour la prédiction.
5. Nécessité de Normalisation
Les variables doivent être mises à l'échelle (normalisées) pour que le calcul des distances soit uniforme, car des échelles différentes pourraient entraîner une importance disproportionnée de certaines variables.
Bravo, vous avez terminé toutes les leçons de ce programme !