Durée: 12 mois
Rubrique: Ingénieur IA
Les Long ShortTerm Memory (LSTM) et les Gated Recurrent Unit (GRU) sont des types avancés de réseaux de neurones récurrents (RNN). Ces architectures ont été développées pour surmonter certaines limitations des RNN traditionnels, notamment la difficulté à capturer les dépendances à long terme dans des séquences de données.
Les cellules LSTM sont une forme spéciale de RNN, initialement introduites par Hochreiter et Schmidhuber en 1997. Contrairement aux RNN standards, qui souffrent souvent de problèmes de gradient (vanishing gradient), les LSTM utilisent une architecture avec des "portes" permettant de préserver ou oublier certaines informations sur des intervalles de temps plus longs.
Les composants principaux d'une cellule LSTM incluent : La porte d'entrée (input gate) : contrôle les nouvelles informations à ajouter à l'état de la cellule. La porte d'oubli (forget gate) : détermine quelles informations de l'état de la cellule doivent être oubliées. La porte de sortie (output gate) : régule l'information qui sera utilisée pour la sortie de chaque étape de temps.
Introduits plus tard par Cho et al. en 2014, les GRU sont une version simplifiée des LSTM. Les GRU combinent les portes d’entrée et d’oubli en une seule porte, et simplifient ainsi la structure. Cela permet aux GRU d’être souvent plus rapides à entraîner et à exécuter, tout en conservant une performance élevée comparable à celle des LSTM.
Les GRU utilisent deux portes principales : La porte de mise à jour (update gate) : qui détermine la quantité de données passées à transporter. La porte de réinitialisation (reset gate) : qui décide de la quantité d’informations anciennes à oublier.
Pourquoi LSTM et GRU sontils importants ?
En tant que méthodes évolutives et robustes pour le traitement des données séquentielles, les LSTM et les GRU continuent d'être des choix privilégiés dans diverses applications d'intelligence artificielle et d'apprentissage automatique.