Normalisation et fonctions d'activation spécifiques aux CNN
2.3. Normalisation et fonctions d'activation spécifiques aux CNN
Dans cette leçon, nous allons explorer deux aspects cruciaux du réseau de neurones convolutifs (CNN) : la normalisation et les fonctions d'activation spécifiques. Ces éléments jouent un rôle important dans l'amélioration de la capacité d'apprentissage et de la performance des CNN.
Normalisation
La normalisation est une technique utilisée pour scaler les valeurs de données d'entrée afin de les amener dans une plage plus petite et contrôlée. Cela permet d'accélérer le processus d'apprentissage et d'améliorer la précision en assurant que le gradient descent converge plus rapidement :
- Batch Normalization : Introduite en 2015, cette méthode normalise la sortie de chaque couche pour chaque minilot dans le réseau. Elle accélère l'apprentissage et stabilise les performances, en ajustant et en réinitialisant les activations des couches.
- Layer Normalization : Cette approche normalise les entrées sur chaque couche individuelle, utile dans les réseaux récurrents ou dans des architectures plus complexes où l'ordre des éléments d'entrée est important.
- Instance Normalization : Principalement utilisée dans les réseaux de génération d'images (par exemple, GAN), elle normalise chaque instance d'entrée individuellement.
- Group Normalization : Divise les canaux en groupes et normalise chacun ; efficace lorsque le lot de données est de petite taille.
Fonctions d'activation
Les fonctions d'activation sont utilisées pour introduire de la nonlinéarité dans le réseau, permettant la modélisation de données complexes. Quelques fonctions d'activation couramment utilisées dans les CNN incluent :
- ReLU (Rectified Linear Unit) : La fonction d'activation la plus populaire, qui applique une transformation f(x) = max(0, x). Elle aide à résoudre le problème du gradient évanescent en apportant de la sparsité et une convergence rapide.
- Leaky ReLU : Une variante de ReLU qui permet un petit gradient lorsqu'une unité est inactive, contrairement à ReLU qui fixe les valeurs négatives à zéro.
- Sigmoid : Transforme les valeurs en une plage située entre 0 et 1, principalement utilisée dans les couches de sortie pour les tâches de classification binaire.
- Tanh : Similaire à Sigmoid mais échelle les valeurs entre 1 et 1, souvent utilisée dans les couches cachées grâce à une gradation centrée sur zéro.
- Softmax : Utilisée principalement dans les couches de sortie pour les tâches de classification multiclasses, elle convertit les logits en probabilités respectant les proportions relatives.
Conclusion
La normalisation et les fonctions d'activation sont essentielles pour optimiser les performances d'un CNN. La maîtrise de ces techniques peut grandement influencer la vitesse de convergence et la précision des modèles, ouvrant la voie à des applications pratiques plus performantes.