Durée: illimité
Rubrique: A propos de Learnr...
La terminologie utilisée dans le domaine du Machine Learning (ML) est essentielle pour comprendre et communiquer efficacement sur le sujet. Voici quelques termes clés qu’il est important de maîtriser :
Un algorithme est une série d'instructions ou de règles qu'un ordinateur suit pour effectuer une tâche spécifique. En ML, les algorithmes sont utilisés pour créer des modèles qui peuvent prédire des résultats ou trouver des motifs dans les données.
Un modèle est l'artefact que nous développons après avoir formé un algorithme sur des données. Il représente les connaissances acquises et peut être utilisé pour faire des prédictions ou reconnaître des motifs dans de nouvelles données.
Les données d'entraînement sont le sousensemble des données utilisé pour nourrir l'algorithme d'apprentissage. Ces données contiennent des exemples connus qui permettent au modèle d'apprendre et de s'ajuster.
Les données de test sont utilisées pour évaluer la performance du modèle. Elles ne sont pas présentées à l'algorithme pendant l’entraînement. L'évaluation avec des données de test permet de vérifier que le modèle fonctionne bien avec des données qu'il n'a pas encore vues.
Le surapprentissage se produit lorsque le modèle est trop complexe et capture le bruit des données d'entraînement plutôt que les véritables motifs. Un modèle surappris performera très bien sur les données d'entraînement mais échouera sur les nouvelles données.
Le sousapprentissage survient lorsque le modèle est trop simple pour capturer les motifs des données. Un modèle sousappris ne performe pas bien ni sur les données d'entraînement ni sur les nouvelles données.
La validation croisée est une technique utilisée pour évaluer la performance d'un modèle. Elle consiste à diviser les données en plusieurs sousensembles et à entraîner/tester le modèle plusieurs fois, chaque sousensemble servant tour à tour de données de test.
Les hyperparamètres sont des paramètres de contrôle externe à l'algorithme qui doivent être définis avant l'entraînement. Ils diffèrent des paramètres internes du modèle qui sont ajustés pendant l'entraînement.
La fonction de coût est utilisée pour mesurer l'erreur entre les prédictions du modèle et les valeurs réelles des données. L'objectif de l'algorithme est de minimiser cette fonction de coût.
Le Gradient Descent est une méthode d'optimisation utilisée pour ajuster les paramètres du modèle dans l'objectif de minimiser la fonction de coût. Elle travaille en ajustant les paramètres en fonction de la dérivée de la fonction de coût.
En comprenant ces termes clés, vous aurez une meilleure base pour plonger plus profondément dans le Machine Learning et interpréter les résultats des modèles que vous développerez.