Durée: 12 mois
Rubrique: Ingénieur IA
Les Transformers sont une architecture révolutionnaire en machine learning, particulièrement dans le domaine du traitement du langage naturel (NLP). Contrairement aux réseaux de neurones classiques, les Transformers n'utilisent pas de séquences récurrentes, mais se basent sur un mécanisme appelé Attention. Ce mécanisme permet aux modèles de se concentrer sur différentes parties de l'entrée simultanément, ce qui accélère considérablement le processus de calcul et améliore les performances.
Le concept central des Transformers est le mécanisme d'Attention, spécifiquement l'Attention Multitête, qui permet au modèle de peser l'importance de différents mots de manière parallèle. Ce mécanisme se compose principalement de trois matrices : Q (Query), K (Key) et V (Value). Ces trois matrices sont dérivées des vecteurs de mots en multipliant les vecteurs de mots avec des matrices de poids apprises pendant l'entraînement.
Les Transformers sont constitués de plusieurs couches d'encodeurs et de décodeurs. Chaque encodeur prend des séquences d'entrée et génère des représentations contextuelles, tandis que chaque décodeur utilise ces représentations pour générer des sorties séquentielles. Typiquement, un encodeur est composé de :
De même, le décodeur suit une structure similaire, avec une couche d'Attention supplémentaire pour intégrer les sorties générées.
Les Transformers présentent plusieurs avantages par rapport aux architectures précédentes telles que les RNN (Réseaux de Neurones Récurrents) et les LSTM (Long ShortTerm Memory) :
Cela fait des Transformers une option supérieure pour les diverses applications de traitement du langage naturel et bien audelà.