Durée: 12 mois
Rubrique: Ingénieur IA
Pandas est une bibliothèque puissante pour le traitement des données en Python, particulièrement utile pour les DataFrames et les Séries. Cette leçon se concentre sur la manipulation de DataFrames et Séries, des structures de données essentielles pour toute analyse de données.
Un DataFrame est une structure de données bidimensionnelle, similaire à une table SQL ou une feuille de calcul Excel, où les données sont alignées en rangées et colonnes. Les DataFrames sont au cœur de la manipulation des données avec Pandas.
Pour créer un DataFrame, vous pouvez utiliser diverses sources de données telles que des dictionnaires, des listes de listes, ou même directement depuis des fichiers CSV.
```python import pandas as pd
data = { 'Nom': ['Alice', 'Bob', 'Charlie'], 'Âge': [25, 30, 35], 'Ville': ['Paris', 'Londres', 'Berlin'] }
df = pd.DataFrame(data) print(df) ```
Une Série est un array unidimensionnel capable de contenir des données de différents types (entiers, chaînes de caractères, etc.). Elle ressemble beaucoup à une colonne dans un DataFrame.
```python
serie = pd.Series([1, 2, 3, 4]) print(serie) ```
Une des forces de Pandas est la facilité avec laquelle on peut manipuler les DataFrames et Séries pour des analyses complexes.
Utilisez les étiquettes de colonnes et d'index pour sélectionner précisément les données que vous souhaitez analyser. Vous pouvez utiliser des notations similaires à celles utilisées pour les tableaux numpy.
```python
print(df['Nom'])
print(df.iloc[0])
print(df[df['Âge'] > 25]) ```
Pandas offre de nombreuses fonctions pour manipuler et transformer les données, telles que apply()
, map()
, et applymap()
, permettant une application facile de fonctions à divers niveaux du DataFrame.
```python
df['Année de Naissance'] = 2021 df['Âge'] print(df)
df['Âge en Mois'] = df['Âge'].apply(lambda x: x 12) print(df) ```
Vous pouvez combiner plusieurs DataFrames en utilisant des opérations de fusion et de jointure, similaires à SQL.
```python
df1 = pd.DataFrame({'col1': [1, 2], 'col2': ['A', 'B']}) df2 = pd.DataFrame({'col1': [1, 2], 'col3': ['C', 'D']})
merged = pd.merge(df1, df2, on='col1') print(merged) ```
Ainsi, la manipulation de DataFrames et Séries avec Pandas vous permet de gérer et d'analyser des ensembles de données complexes de manière efficace. En maîtrisant ces opérations, vous serez mieux préparé pour des analyses de données avancées et pour le travail en intelligence artificielle.