Durée: 12 mois
Rubrique: Ingénieur IA
Les réseaux de neurones convolutifs (CNN, pour Convolutional Neural Networks en anglais) sont composés de plusieurs couches qui leur confèrent leur capacité exceptionnelle de traitement d'images et autres types de données structurées. Ces composants clés sont: la convolution, le pooling et les couches entièrement connectées. Chacun joue un rôle essentiel dans l'extraction et l'interprétation des features des données d'entrée.
La convolution est une opération mathématique qui permet de capturer les relations spatiales dans une image en appliquant des filtres ou kernels. Chaque filtre traverse l'image et effectue une multiplication élément par élément suivie d'une addition des résultats, produisant ainsi une feature map. Ces cartes de caractéristiques représentent différentes descripteurs de l'image, tels que les bords, les textures et plus encore.
Par exemple :
math
x{ij} = \sum{k,l} w{kl} \cdot I{i+k,j+l}
Le pooling, ou souséchantillonnage, suit généralement une couche de convolution pour réduire la dimensionnalité des feature maps tout en conservant les informations essentielles. Cela permet de diminuer la charge computationnelle et de contrôler le surapprentissage. Il existe plusieurs types de pooling:
Exemple d'une opération de max pooling :
text
|1 3| > 3
|2 4|
Les couches entièrement connectées (Fully Connected Layers ou FC Layers) apparaissent généralement dans les dernières étapes d'un CNN. Elles transforment les cartes de caractéristiques 2D en un vecteur qui peut être traité par des classifieurs ou d'autres modules décisionnels. C'est ici que la discrimination finale entre les différentes classes ou catégories de l'image a lieu.
Dans cette phase, chaque neurone de la couche précédente est connecté à chaque neurone de la couche suivante, ce qui permet une interprétation globale des features extraites.
Chaque composant d'un CNN a un rôle distinct mais complémentaire, travaillant ensemble pour extraire, réduire, et interpréter les caractéristiques d'une image de la manière la plus efficace et précise possible.
Convolution, Pooling, Fully Connected Layers, feature map, kernel