Statistiques Descriptives
3. Statistiques Descriptives
3.1. Mesures de tendance centrale
Les mesures de tendance centrale sont des valeurs statistiques qui désignent le centre d'un ensemble de données. Les mesures les plus courantes sont la moyenne, la médiane, et le mode.
- La moyenne est calculée en additionnant tous les éléments et en les divisant par le nombre total de ces éléments.
- La médiane est la valeur qui sépare la moitié supérieure des valeurs de la moitié inférieure. Pour un nombre impair de données, c’est le point central ; pour un nombre pair, c’est la moyenne des deux valeurs centrales.
- Le mode est la valeur la plus fréquemment observée dans un ensemble de données.
Il est essentiel de comprendre ces mesures pour faire des analyses préliminaires sur les données.
3.2. Mesures de dispersion
Les mesures de dispersion servent à quantifier l’étendue ou la variabilité de l’ensemble de données. Les mesures courantes incluent l'étendue, la variance, l’écarttype et l'écart interquartile.
- L'étendue est la différence entre la valeur maximale et la valeur minimale.
- La variance mesure la dispersion des données par rapport à la moyenne, en calculant la moyenne des carrés des écarts par rapport à cette moyenne.
- L’écarttype est la racine carrée de la variance et fournit une indication de la dispersion des données par rapport à la moyenne.
- L'écart interquartile est la différence entre le troisième quartile (Q3) et le premier quartile (Q1), qui mesure la dispersion des valeurs centrales des données.
3.3. Corrélation et régression
La corrélation et la régression sont deux outils essentiels pour examiner les relations entre les variables.
- La corrélation mesure la force et la direction de la relation linéaire entre deux variables. Le coefficient de corrélation (r) varie entre 1 et 1. Une corrélation proche de 1 indique une relation positive forte, proche de 1 une relation négative forte, et proche de 0, une absence de relation.
- La régression cherche à modéliser la relation entre une variable dépendante et une ou plusieurs variables indépendantes. Le modèle de régression linéaire simple est souvent utilisé, où l'équation de la droite de régression est (y = mx + c), avec (y) la variable dépendante, (x) la variable indépendante, (m) la pente et (c) l'ordonnée à l'origine.
Ces outils sont cruciaux pour identifier et quantifier les relations entre les variables, ce qui aide à faire des prévisions et des inférences.