Durée: 12 mois
Rubrique: Ingénieur IA
Le prétraitement du texte est une étape cruciale dans le Traitement du Langage Naturel (NLP). Avant de pouvoir analyser ou modéliser des textes, il est essentiel de les préparer en nettoyant et en normalisant les données pour qu’elles soient uniformes. Cette section présente les différentes techniques utilisées pour prétraiter le texte.
Le nettoyage du texte est la première étape du prétraitement. Il s'agit d'éliminer les éléments indésirables qui peuvent perturber l'analyse des données. Cela inclut :
Le texte "Bonjour! Comment ça va aujourd'hui?" devient "bonjour comment ça va aujourd'hui" après nettoyage.
La tokenisation consiste à segmenter un texte en unités linguistiques appelées "tokens", qui peuvent être des mots, des phrases ou des symboles. C'est une technique cruciale pour identifier les unités d'analyse dans le texte.
La lemmatisation, quant à elle, vise à réduire les mots à leur forme racine ou lemme. Contrairement à la stemming, qui se contente de tronquer les suffixes pour obtenir une forme de base, la lemmatisation utilise des règles linguistiques pour garantir que la forme racine est un mot valide.
Pour le verbe "manger", les formes "mange", "mangeait", et "mangé" sont toutes réduites au lemme "manger".
Une fois le texte nettoyé et tokenisé, l'étape suivante est l'extraction des caractéristiques et la vectorisation. Cela consiste à convertir le texte en représentations numériques que les algorithmes peuvent traiter.
Le Bag of Words est une méthode simple qui transforme le texte en un vecteur de fréquence des mots. Chaque mot unique du texte devient une dimension dans un vecteur, et la valeur de chaque dimension représente la fréquence d'apparition de ce mot.
Le TFIDF (Term FrequencyInverse Document Frequency) améliore le BoW en pondérant les mots en fonction de leur importance. Il réduit l'importance des mots fréquents et non informatifs et augmente celle des mots rares mais pertinents.
Les embeddings de mots, tels que Word2Vec et GloVe, sont des méthodes avancées de vectorisation qui capturent la sémantique en plaçant les mots dans un espace vectoriel de haute dimension.
La phrase "le chat mange la souris" peut être représentée par des vecteurs numériques qui conservent les relations de sens entre "chat" et "souris".
Nettoyage texte, Tokenisation, Lemmatisation, Vectorisation, TFIDF