Durée: 12 mois
Rubrique: Ingénieur IA
Les Gated Recurrent Units (GRU) sont une variante avancée et largement utilisée des Réseaux Neuronaux Récurrents (RNN). Ils ont été introduits pour adresser certains des problèmes majeurs associés aux RNN standards, tels que la disparition du gradient. Les GRU simplifient l'architecture des LSTM tout en offrant des performances comparables dans de nombreuses applications.
Les GRU présentent une structure plus simplifiée par rapport aux LSTM. Un GRU combine l'état caché et la cellule de LSTM en un seul vecteur, ce qui réduit le nombre de paramètres et de portes nécessaires pour son fonctionnement. Un GRU se compose de deux portes principales : la porte de mise à jour (update gate) et la porte de réinitialisation (reset gate).
La porte de mise à jour détermine le poids des informations passées par rapport aux nouvelles informations entrantes. En d'autres termes, cette porte contrôle la quantité d'ancienne information à conserver et la quantité de nouvelle information à ajouter. La formule mathématique pour la porte de mise à jour est donnée par:
zt = σ(Wz·[ht1, xt])
où zt est le vecteur de mise à jour, σ est la fonction sigmoïde, Wz est le poids associé aux vecteurs d'état précédents (ht1) et l'entrée actuelle (xt).
La porte de réinitialisation décide de l'importance de l'état précédent dans la génération du nouveau contenu candidat. Cette porte permet au modèle d'oublier le contexte passé en fonction de l'entrée courante. La formule mathématique pour la porte de réinitialisation est:
rt = σ(Wr·[ht1, xt])
où rt est le vecteur de réinitialisation, Wr est le poids associé aux vecteurs d'état précédents et l'entrée actuelle.
L'état actuel (ht) des GRU est alors dérivé en utilisant les vecteurs de leurs portes de mise à jour et de réinitialisation. La formule combinée est:
ht = (1 zt) ⋅ ht1 + zt ⋅ h̃t
où h̃t est le vecteur d'état candidat, représentant le nouvel état potentiel calculé comme suit:
h̃t = tanh(W·[rt ⋅ ht1, xt])
Cette combinaison permet aux GRU de conserver les informations nécessaires tout en actualisant de manière dynamique les états avec les nouvelles entrées.
En résumé, les GRU représentent une évolution importante des RNN, équilibrant complexité et efficacité, et sont largement adoptés dans les applications modernes de machine learning.