Learnr, pour apprendre autrement

Table des matières

1. Introduction aux modèles de langage vectoriels
1.1. Qu'est-ce qu'un modèle de langage vectoriel ?
1.2. Importance et applications dans le NLP
2. Word2Vec
2.1. Présentation de Word2Vec
2.2. Architecture CBOW et Skip-gram
2.3. Entraînement et optimisation du modèle Word2Vec
3. GloVe (Global Vectors for Word Representation)
3.1. Présentation de GloVe
3.2. Méthodologie de GloVe et différences avec Word2Vec
3.3. Applications et cas d'usage de GloVe
4. FastText
4.1. Introduction à FastText
4.2. Avantages de FastText sur les mots hors vocabulaire
4.3. Utilisation de FastText dans les langues complexes
5. Comparaison des modèles
5.1. Comparaison des performances : Word2Vec vs GloVe vs FastText
5.2. Choix du modèle selon le contexte du projet
6. Intégration des modèles dans des projets de NLP
6.1. Exemples pratiques d'intégration
6.2. Conseils pour l'optimisation et la mise à l'échelle

Méthodologie de GloVe et différences avec Word2Vec

3.2. Méthodologie de GloVe et différences avec Word2Vec

Méthodologie de GloVe

GloVe (Global Vectors for Word Representation) est une méthode de représentation vectorielle des mots qui combine les avantages des approches de cooccurrence globale et locale. Contrairement aux modèles purement prédictifs comme Word2Vec, GloVe se base sur la construction d'une matrice de cooccurrence qui capture la statistique globale des mots dans un large corpus de texte.

La méthode GloVe s'articule autour des étapes suivantes :

Collecte des cooccurrences : Pour chaque mot (i) dans le corpus, GloVe compile les fréquences de cooccurrence avec chaque mot (j) dans une matrice. Chaque cellule ((i, j)) contient le nombre de fois que les mots (i) et (j) apparaissent ensemble dans une fenêtre de contexte définie.
Normalisation des cooccurrences : Les fréquences cooccurrentes sont normalisées pour réduire l'influence des mots très fréquents ou très rares.
Factorisation de la matrice : Une fonction d'objectif est définie pour minimiser la différence entre les produits scalaires des vecteurs de mots et les logarithmes des comptes de cooccurrence. Des techniques de factorisation de matrice, telles que la décomposition en valeurs singulières (SVD), sont utilisées pour apprendre des représentations vectorielles compactes des mots.
Optimisation : L'optimisation est effectuée pour ajuster les vecteurs de mots afin que leurs points produits approchent les logcooccurrences dans la matrice. Les algorithmes d'optimisation courants comprennent AdaGrad et Adam.

Différences avec Word2Vec

La principale différence entre GloVe et Word2Vec réside dans leur approche de l'apprentissage des représentations vectorielles des mots :

Perspective Globale vs Locale : GloVe est basé sur une analyse globale de la cooccurrence des mots dans le corpus, tandis que Word2Vec utilise une approche locale en apprenant à partir des contextes immédiats des mots individuels via les architectures CBOW (Continuous Bag of Words) et Skipgram.
Construction de matrice de cooccurrence : GloVe explicite une matrice de cooccurrence dense et la factorise, ce qui peut être gourmand en mémoire pour de grands corpus. À l'inverse, Word2Vec fonctionne de façon plus efficace en termes de mémoire en utilisant des paires de mots et des échantillons négatifs.
Objectif de l'Optimisation : Word2Vec optimise ses vecteurs pour prédire le mot dans un contexte donné (ou vice versa). GloVe optimise les vecteurs pour qu'ils capturent les relations de cooccurrence globales dans la matrice.

Conclusion

En résumé, GloVe offre une approche matricielle globale pour la représentation des mots, se distinguant de l'approche prédictive locale de Word2Vec. Choisir entre GloVe et Word2Vec dépendra de la nature du projet NLP et des contraintes spécifiques, telles que la mémoire et la précision requises.

Modèles de Langage : Word2Vec, GloVe, FastText