Table des matières

1. Introduction au Machine Learning
1.1. Qu'est-ce que le Machine Learning ?
1.2. Pourquoi utiliser le Machine Learning ?
2. Types de Machine Learning
2.1. Apprentissage supervisé
2.2. Apprentissage non supervisé
2.3. Apprentissage semi-supervisé
2.4. Apprentissage par renforcement
3. Algorithmes de Machine Learning courants
3.1. Régression linéaire
3.2. Régression logistique
3.3. Arbres de décision
3.4. Forêts aléatoires
3.5. Machines à vecteurs de support (SVM)
3.6. k-plus proches voisins (k-NN)
4. Évaluation des modèles de Machine Learning
4.1. Métriques de performance
4.2. Matrice de confusion
4.3. Courbe ROC et AUC
5. Techniques de validation croisée
5.1. Principes de la validation croisée
5.2. Techniques courantes : k-fold, LOOCV

Apprentissage non supervisé

2.2 Apprentissage non supervisé

L'apprentissage non supervisé est une branche fondamentale du Machine Learning où les algorithmes apprennent des données sans étiquettes. Contrairement à l'apprentissage supervisé, il n'y a pas de ( \text{variable cible} ) ou de ( \text{sortie prédéfinie} ). Les algorithmes d'apprentissage non supervisé explorent les structures cachées dans les données pour les regrouper ou les associer selon des similarités inhérentes et des schémas sousjacents.

Objectifs de l'apprentissage non supervisé

L'objectif principal est de découvrir des motifs et des relations dans les données sans intervention humaine directe. Quelques tâches clés incluent :

Clustering (Regroupement): Segmenter un ensemble de données en groupes homogènes appelés clusters. Chaque cluster contient des éléments similaires entre eux selon certaines caractéristiques.
Association et Recommandation: Identifier des relations intéressantes entre différentes variables à l'intérieur de larges ensembles de données, couramment utilisé dans les systèmes de recommandation.
Réduction de dimensionnalité: Réduire le nombre de variables aléatoires sousjacentes pour simplifier l'analyse et la visualisation des données.

Algorithmes courants

Quelques algorithmes couramment utilisés en apprentissage non supervisé sont :

Kmeans Clustering :
Algorithme de regroupement qui partitionne n observations en k clusters où chaque observation appartient au cluster avec la moyenne la plus proche.
Hierarchical Clustering :
Méthode de regroupement qui construit une hiérarchie de clusters.
Principal Component Analysis (PCA) :
Technique de réduction de dimensionnalité qui identifie les directions d'une plus grande variance dans les données.
Apriori Algorithm :
Utilisé pour miner les règles d'association, il est fréquemment utilisé pour déceler des motifs fréquents dans les bases de données transactionnelles.

Avantages et Limites

Avantages :

Découverte de schémas: Permet de détecter des structures cachées dans les données sans supervision humaine explicite.
Exploration des données: Utile pour explorer et comprendre des données complexes et grande dimension.
Flexibilité: Peut être appliqué à des données non étiquetées provenant de diverses sources.

Limites :

Explication des résultats: Interpréter les résultats peut parfois être difficile et non intuitif.
Nombre de clusters: La détermination du nombre approprié de clusters est souvent subjective et peut nécessiter plusieurs essais.
Calcul intensif: Certains algorithmes peuvent être gourmands en ressources de calcul.

Applications

L'apprentissage non supervisé est largement utilisé dans divers domaines :

Segmentation de la clientèle: Regrouper des clients en segments basés sur leurs comportements d'achat.
Filtrage et recommandation: Dans les systèmes de recommandation comme ceux utilisés par Netflix ou Amazon.
Détection d'anomalies: Identifier des transactions frauduleuses dans les systèmes bancaires.