Table des matières

1. Régression linéaire
1.1. Principes et mathématiques de base
1.2. Implémentation et exemples d'usage
1.3. Interprétation des résultats
2. Régression logistique
2.1. Principes et mathématiques de base
2.2. Implémentation et exemples d'usage
2.3. Interprétation des résultats
3. Arbres de décision
3.1. Principes et construction d'un arbre
3.2. Implémentation et exemples d'usage
3.3. Avantages et limites
4. Forêts aléatoires
4.1. Principes et fonctionnement
4.2. Implémentation et exemples d'usage
4.3. Avantages et limites
5. Machines à vecteurs de support (SVM)
5.1. Principes et mathématiques de base
5.2. Implémentation et exemples d'usage
5.3. Avantages et limites
6. k-plus proches voisins (k-NN)
6.1. Principes et fonctionnement
6.2. Implémentation et exemples d'usage
6.3. Avantages et limites

Arbres de décision

3. Arbres de décision

3.1. Principes et construction d'un arbre

Les arbres de décision sont des modèles de prédiction utilisés pour des tâches de classification et de régression. Leur principe repose sur la décomposition des données en sousensembles basés sur des tests de conditions spécifiques. L'arbre commence par un nœud racine, qui se scinde en plusieurs branches, chacune menant à un autre nœud ou à une feuille (un résultat final).

La construction d'un arbre de décision se fait généralement par un algorithme de division récursive, comme l'algorithme CART (Classification and Regression Tree). Ce dernier cherche à minimiser une métrique d'impureté comme l'indice de Gini ou l'entropie dans les cas de classification, et l'erreur quadratique moyenne dans les cas de régression. Le processus de division continue jusqu'à ce que toutes les feuilles contiennent des échantillons homogènes ou qu'un critère d'arrêt soit atteint, comme une profondeur maximale de l'arbre.

3.2. Implémentation et exemples d'usage

L'implémentation des arbres de décision est simplifiée grâce à des bibliothèques en Python comme scikitlearn. Voici un exemple de code pour implémenter un arbre de décision pour une tâche de classification :

```python from sklearn.tree import DecisionTreeClassifier from sklearn.datasets import loadiris from sklearn.modelselection import traintestsplit

Chargement des données

iris = loadiris() X, y = iris.data, iris.target

Séparation des données en ensemble d'entraînement et de test

Xtrain, Xtest, ytrain, ytest = traintestsplit(X, y, testsize=0.3, randomstate=42)

Création et entraînement de l'arbre de décision

clf = DecisionTreeClassifier() clf.fit(Xtrain, ytrain)

Prédiction

ypred = clf.predict(Xtest) ```

Les arbres de décision sont largement utilisés dans divers domaines : en finance pour la prédiction de défaillance des entreprises, en médecine pour le diagnostic de maladies, et en marketing pour la segmentation des clients et la détection de fraudes.

3.3. Avantages et limites

Avantages des arbres de décision : 1. Interprétabilité : Un arbre de décision peut être facilement visualisé, ce qui aide à comprendre comment les décisions sont prises. 2. Peu de prétraitement des données requis : Les arbres de décision peuvent gérer des données aussi bien numériques que catégorielles sans nécessiter une transformation particulière. 3. Robustesse aux données manquantes et bruitées : Les algorithmes de construction d'arbres savent faire face à une certaine hétérogénéité des données.

Limites des arbres de décision : 1. Surapprentissage (overfitting) : Les arbres peuvent devenir très complexes et capter le bruit du jeu de données d'entraînement, ce qui réduit leur capacité de généralisation sur de nouvelles données. 2. Instabilité : Une petite variation dans les données peut entraîner la construction d'un arbre tout à fait différent. 3. Nonlinéarité : Les arbres de décision peuvent échouer à modéliser certains types de relations nonlinéaires entre les variables.

Algorithmes de Machine Learning courants