Table des matières

1. Introduction aux modèles de langage vectoriels
1.1. Qu'est-ce qu'un modèle de langage vectoriel ?
1.2. Importance et applications dans le NLP
2. Word2Vec
2.1. Présentation de Word2Vec
2.2. Architecture CBOW et Skip-gram
2.3. Entraînement et optimisation du modèle Word2Vec
3. GloVe (Global Vectors for Word Representation)
3.1. Présentation de GloVe
3.2. Méthodologie de GloVe et différences avec Word2Vec
3.3. Applications et cas d'usage de GloVe
4. FastText
4.1. Introduction à FastText
4.2. Avantages de FastText sur les mots hors vocabulaire
4.3. Utilisation de FastText dans les langues complexes
5. Comparaison des modèles
5.1. Comparaison des performances : Word2Vec vs GloVe vs FastText
5.2. Choix du modèle selon le contexte du projet
6. Intégration des modèles dans des projets de NLP
6.1. Exemples pratiques d'intégration
6.2. Conseils pour l'optimisation et la mise à l'échelle

Word2Vec

2. Word2Vec

2.1 Présentation de Word2Vec

Word2Vec est une technique de modélisation de langage inventée par une équipe dirigée par Tomas Mikolov chez Google en 2013. Ce modèle est utilisé pour générer des représentations vectorielles continues de mots dans un espace vectoriel de haute dimension. L'idée principale est de capturer les similitudes sémantiques entre les mots en fonction de leur contexte dans un large corpus de texte.

Les représentations vectorielles générées par Word2Vec permettent ainsi de réaliser des tâches telles que la découverte de synonymes ou la compréhension des relations sémantiques entre des mots.

2.2 Architecture CBOW et Skipgram

Word2Vec utilise deux architectures principales pour créer des vecteurs de mots : CBOW (Continuous Bag of Words) et Skipgram.

CBOW (Continuous Bag of Words)

L'architecture CBOW prédit le mot central (mot cible) à partir des mots contextuels environnants. Par exemple, dans la phrase "Le chat est sur le tapis", pour prédire le mot "est", CBOW utilise les mots contextuels "Le", "chat", "sur", et "le".

Skipgram

L'architecture Skipgram, à l'inverse, prédit les mots contextuels à partir du mot central. En reprenant le même exemple, pour le mot central "est", le modèle essayera de prédire les mots "Le", "chat", "sur", et "le".

Les deux architectures apprennent de manière efficace des représentations vectorielles, mais le choix entre CBOW et Skipgram dépend souvent du type de données et du contexte de l'entraînement.

2.3 Entraînement et optimisation du modèle Word2Vec

L'entraînement de Word2Vec repose fondamentalement sur un réseau de neurones peu profond. Le modèle essaie de maximiser la proximité entre les vecteurs de mots sémantiquement similaires et de minimiser celle entre les mots sémantiquement différents, en se basant sur le concept de neighbor prediction. Deux des algorithmes couramment utilisés pour cette optimisation sont Negative Sampling et Hierarchical Softmax.

Negative Sampling réduit la complexité de l'optimisation en échantillonnant quelques mots négatifs pour chaque mise à jour du gradient.
Hierarchical Softmax emploie une structure d'arbre binaire pour rendre plus efficace le calcul du softmax.

Ces méthodes permettent une accélération significative de l'entraînement par rapport à une simple approche de softmax classique.

Modèles de Langage : Word2Vec, GloVe, FastText