Learnr, pour apprendre autrement

Table des matières

1. Apprentissage supervisé
1.1. Définition et principes de base
1.2. Exemples d'algorithmes et applications
1.3. Avantages et limites
2. Apprentissage non supervisé
2.1. Définition et principes de base
2.2. Exemples d'algorithmes et applications
2.3. Avantages et limites
3. Apprentissage semi-supervisé
3.1. Définition et principes de base
3.2. Exemples d'algorithmes et applications
3.3. Avantages et limites
4. Apprentissage par renforcement
4.1. Définition et principes de base
4.2. Exemples d'algorithmes et applications
4.3. Avantages et limites

Définition et principes de base

4.1. Définition et principes de base

L'apprentissage par renforcement (AR) est une branche du Machine Learning où un agent apprend à prendre des décisions en interagissant avec un environnement dynamique. Contrairement aux méthodes supervisées et non supervisées, AR se base sur le principe de récompense et de punition pour guider l'apprentissage.

Définition

La définition de base de l'apprentissage par renforcement repose sur trois concepts principaux: 1. Agent : L'entité qui apprend et prend des actions. 2. Environnement : Le monde dans lequel l'agent agit. 3. Politique : La stratégie que l'agent utilise pour choisir ses actions.

Principes de base

État ((S)) : Une représentation de la situation actuelle de l'agent dans son environnement.
Action ((A)) : Un ensemble de décisions possibles que l'agent peut prendre.
Récompense ((R)) : Le feedback obtenu après avoir pris une action spécifique. Elle peut être positive ou négative.
Fonction de valeur ((V)) : Une estimation de la récompense future que l'on peut obtenir en étant dans un certain état.
Fonction de valeur d'action ((Q)) : Une estimation de la récompense attendue en prenant une action spécifique dans un certain état.

Processus d'apprentissage

L'apprentissage par renforcement suit typiquement un processus itératif dans lequel l'agent: 1. Observe l'état actuel ((St)). 2. Choisit une action ((At)) basée sur une politique. 3. Reçoit une récompense ((Rt)) pour l'action choisie. 4. Observe le nouvel état ((S{t+1})) après l'action. 5. Met à jour ses politiques et fonctions de valeur en utilisant des algorithmes comme Qlearning ou l'entropie croisée.

Exemple concret

Imaginons un robot apprenant à naviguer dans une pièce pour atteindre une destination. À chaque pas, il reçoit une récompense positive pour se rapprocher de la cible et une récompense négative pour heurter un obstacle. Au fil du temps, le robot modifie sa politique pour maximiser les récompenses positives et minimiser les négatives.

Importance

Cette méthode est particulièrement avantageuse dans les situations où le bon comportement est difficile à spécifier explicitement et où les actions doivent être affinées par essais et erreurs.

Types de Machine Learning : supervisé, non supervisé, semi-supervisé, apprentissage par renforcement