Durée: 12 mois
Rubrique: Ingénieur IA
Les LSTM (Long ShortTerm Memory) sont une forme avancée de Réseaux de Neurones Récurrents (RNN) conçus pour mieux gérer les dépendances temporelles à long terme et les problèmes de gradient. Leur architecture unique permet de surmonter certaines limitations des RNN traditionnels. Dans cette leçon, nous examinerons en détail l’architecture des cellules LSTM.
Les cellules LSTM comprennent plusieurs composants essentiels qui les distinguent des RNN classiques :
Porte d'entrée : Elle décide quelles nouvelles informations doivent être retenues dans l'état de la cellule. C'est une couche de réseau neuronal qui produit une valeur comprise entre 0 et 1, où 1 signifie "retenir complètement cette information" et 0 signifie "ignorer cette information".
Porte d'oubli : Elle détermine quelles informations de l'état de la cellule doivent être oubliées. Comme la porte d'entrée, elle génère une valeur entre 0 et 1 pour chaque numéro de l'état de la cellule précédente, où 1 signifie "garder complètement cette information" et 0 signifie "oublier complètement cette information".
Porte de sortie : Elle influence les informations à la sortie de la cellule. Elle décide quelles parties de l'état de la cellule doivent être envoyées à la sortie en utilisant une couche sigmoïde.
Ces portes permettent ensemble de réguler le flux d’informations à travers la cellule, permettant ainsi de minimiser l'effet des gradients disparus ou explosifs, tout en permettant au réseau de conserver les informations utiles sur de longues périodes.
Le flux de données au sein d’une cellule LSTM peut être décomposé en plusieurs étapes :
Prise de décision sur les informations à oublier : La porte d'oubli utilise l'état précédent et l'entrée actuelle pour décider quelles informations de l'ancien état doivent être oubliées.
Décision sur les nouvelles informations à stocker : La porte d'entrée décide des nouvelles informations à ajouter à la cellule. Une candidate à l'état est générée et scalée par l'entrée de l'utilisateur.
Mise à jour de l'état de cellule : Les informations pertinentes retenues par la porte d'oubli sont combinées avec les nouvelles informations pertinentes de la porte d'entrée pour mettre à jour l'état de la cellule.
Décision de ce qui sortira de la cellule : La porte de sortie utilise l'état mis à jour de la cellule et l'entrée actuelle pour générer la sortie de cellule.
En combinant ces étapes, les cellules LSTM peuvent sélectionner, stocker et restituer des informations sur plusieurs intervalles de temps, ce qui les rend particulièrement efficaces pour les séries temporelles et les tâches séquentielles.
Porte d'entrée, Porte d'oubli, Porte de sortie, État de cellule, Flux de données