Table des matières

1. Introduction aux techniques de prétraitement
1.1. Importance du prétraitement dans le NLP
1.2. Objectifs du prétraitement du texte
2. Nettoyage du texte
2.1. Suppression des balises HTML et du bruit
2.2. Normalisation des textes (minuscules, suppression de la ponctuation)
3. Gestion des mots fréquents et rares
3.1. Stop words : définition et suppression
3.2. Traitement des mots rares et de leur impact
4. Tokenisation
4.1. Découpage en phrases et en mots
4.2. Méthodes et outils de tokenisation
5. Stemming et Lemmatisation
5.1. Différences et utilisations
5.2. Outils et techniques de lemmatisation
6. Extraction des caractéristiques
6.1. Techniques de vectorisation : Bag of Words, TF-IDF
6.2. Utilisation de vecteurs de mots pré-entraînés
7. Cas pratiques de prétraitement
7.1. Exemples d'application du prétraitement dans des projets de NLP
7.2. Astuces pour optimiser le prétraitement pour différents types de textes

Extraction des caractéristiques

6. Extraction des caractéristiques

L'extraction des caractéristiques est une étape cruciale dans le prétraitement du texte pour les projets de traitement du langage naturel (NLP). Cette phase permet de transformer les textes bruts en représentations numériques qui peuvent être facilement traitées par des algorithmes de machine learning. Voici un survol des principales techniques utilisées pour cette tâche.

6.1 Techniques de vectorisation

Bag of Words (BoW)

La technique Bag of Words (BoW) consiste à représenter un document comme un ensemble de mots qui apparaissent dans ce document, sans tenir compte de l'ordre des mots. Chaque document est converti en un vecteur de fréquence de mots, où chaque dimension du vecteur correspond à un mot spécifique du vocabulaire global, et la valeur représente le nombre de fois que ce mot apparaît dans le document.

Avantages de BoW :

Simple à comprendre et à implémenter.
Efficace pour les tâches de classification de texte où la sémantique contextuelle n'est pas cruciale.

Inconvénients de BoW :

Ignore le contexte des mots.
Génère de très grands vecteurs pour des vocabulaires étendus, entraînant une sparsite des données.

TFIDF

La méthode Term FrequencyInverse Document Frequency (TFIDF) améliore BoW en pondérant l'importance des mots en fonction de leur fréquence dans un document et leur rareté à travers l'ensemble de documents. La fréquence du terme (TF) mesure combien de fois un mot apparaît dans un document, tandis que la fréquence inverse de document (IDF) mesure l'importance de ce mot dans le corpus entier.

Avantages de TFIDF :

Réduit l'impact des mots courants qui apparaissent dans presque tous les documents.
Fournit une meilleure représentation des mots pertinents pour un document spécifique.

Inconvénients de TFIDF :

Ne capture toujours pas les relations contextuelles entre les mots.
Peut engendrer des vecteurs de grande dimension pour de grands corpus.

6.2 Utilisation de vecteurs de mots préentraînés

Une autre technique avancée pour l'extraction des caractéristiques est l'utilisation de vecteurs de mots préentraînés comme Word2Vec, GloVe ou FastText. Ces méthodes apprennent des vecteurs de mots basés sur le contexte dans lequel les mots apparaissent, capturant ainsi des relations sémantiques et syntaxiques entre les mots.

Avantages des vecteurs de mots préentraînés :

Capturent les relations contextuelles entre les mots.
Les vecteurs sont de dimensions fixes, ce qui réduit la sparsite des données.

Inconvénients des vecteurs de mots préentraînés :

Requiert des ressources computationnelles élevées pour l'entraînement.
Peut nécessiter un ajustement fin pour différentes tâches de NLP.

L'extraction des caractéristiques est donc une étape qui nécessite un choix judicieux des techniques en fonction des spécificités des tâches de NLP à réaliser. Adapter et combiner ces techniques peut souvent mener à une meilleure performance des modèles.

Techniques de Prétraitement du Texte