Durée: 12 mois
Rubrique: Ingénieur IA
Les Transformers ont révolutionné le domaine de l'intelligence artificielle, en particulier dans le traitement du langage naturel (NLP). Conçus pour surmonter les limites des architectures précédentes telles que les réseaux de neurones récurrents (RNN) et les réseaux de neurones convolutifs (CNN), les Transformers offrent une meilleure capacité de parallélisation et une efficience accrue.
Les Transformers se composent de deux parties principales : l'encodeur et le décodeur. Chacune de ces parties est constituée de plusieurs couches identiques empilées.
Encodeur : L'encodeur est responsable de la transformation de l'entrée en une série de représentations continues. Chaque couche d’encodeur est composée de deux souscouches :
Décodeur : Le décodeur génère l'output étape par étape, souvent pour des tâches comme la traduction. Chaque couche de décodeur comprend trois souscouches :
L'une des innovations majeures des Transformers est l'utilisation de mécanismes d'attention et surtout de selfattention. La selfattention permet au modèle de peser l'importance de chaque mot dans une séquence par rapport aux autres mots de cette même séquence, indépendamment de la distance entre eux.
Attention : Considérons la phrase "Le chat sur le tapis". Pour comprendre "chat", le modèle peut prêter attention à "tapis" pour fournir une meilleure représentation de "chat". Ceci est crucial pour la génération de contextes précis.
SelfAttention : Il calcule trois vecteurs query, key, et value pour chaque mot en même temps. Ces vecteurs permettent de déterminer combien chaque mot dans une séquence doit être pris en compte lors de la représentation d'un autre mot.
Les Transformers représentent une avancée significative dans le traitement du langage naturel et d'autres domaines liés à l'intelligence artificielle. Leur architecture, en particulier l'attention multitête et les réseaux de neurones feedforward, leur permet d'atteindre des performances sans précédent.