Pandas 数据处理技巧
· 阅读需 9 分钟


1. 导入 Pandas 库
import pandas as pd
2. 读取 CSV 文件
df = pd.read_csv('data.csv')
3. 查看数据前几行
df.head()
4. 查看数据列信息
df.columns
5. 查看数据基本信息
df.info()
6. 查看数据描述统计信息
df.describe()
7. 选择单列
df['column_name']
8. 选择多列
df[['column1', 'column2']]
9. 添加新列
df['new_column'] = df['column1'] + df['column2']
10. 删除列
df.drop('column_name', axis=1, inplace=True)
11. 选择行(基于索引)
df.loc[0]
12. 选择行(基于条件)
df[df['column_name'] > 10]
13. 更改列名
df.rename(columns={'old_name': 'new_name'}, inplace=True)
14. 删除行
df.drop(index=0, inplace=True)
15. 检查是否有缺失值
df.isnull().sum()
16. 删除缺失值
df.dropna(inplace=True)
17. 填充缺失值
df.fillna(0, inplace=True)
18. 替换值
df.replace(to_replace=10, value=20, inplace=True)
19. 数据类型转换
df['column_name'] = df['column_name'].astype('float')
20. 排序数据
df.sort_values(by='column_name', inplace=True)
21. 去重
df.drop_duplicates(inplace=True)
22. 设置索引
df.set_index('column_name', inplace=True)
23. 重置索引
df.reset_index(inplace=True)
24. 合并数据框(内连接)
pd.merge(df1, df2, on='common_column')
25. 合并数据框(左连接)
pd.merge(df1, df2, on='common_column', how='left')
26. 合并数据框(右连接)
pd.merge(df1, df2, on='common_column', how='right')
27. 合并数据框(外连接)
pd.merge(df1, df2, on='common_column', how='outer')
28. 连接数据框(行)
pd.concat([df1, df2], axis=0)
29. 连接数据框(列)
pd.concat([df1, df2], axis=1)
30. 分组操作
df.groupby('column_name').sum()
31. 聚合操作
df.groupby('column_name').agg({'column1': 'sum', 'column2': 'mean'})