本文最后更新于32 天前,其中的信息可能已经过时,如有错误请发送邮件到liumiao0429@foxmail.com
pandas
是 Python 中一个强大且广泛使用的开源数据分析和处理库,它提供了高效、灵活且易于使用的数据结构和数据操作工具,被广泛应用于数据科学、机器学习、金融分析、统计学等领域。
安装
如果你使用的是 pip
包管理工具,可以通过以下命令安装 pandas
:
pip install pandas
主要数据结构
pandas
有两种主要的数据结构:Series
和 DataFrame
。
1. Series
Series
是一维的带标签数组,可存储任意数据类型(整数、字符串、浮点数等)。它由数据和索引两部分组成。
import pandas as pd
# 创建一个 Series
data = [10, 20, 30, 40]
s = pd.Series(data, index=['a', 'b', 'c', 'd'])
print(s)
2. DataFrame
DataFrame
是二维的表格型数据结构,类似于 Excel 表格或 SQL 表。它由行索引和列索引组成,每列可以是不同的数据类型。
import pandas as pd
# 创建一个 DataFrame
data = {
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)
数据读取与写入
数据读取
pandas
支持从多种文件格式中读取数据,也可以将数据写入这些文件格式。
# 从 CSV 文件中读取数据
df = pd.read_csv('data.csv')
# 从 Excel 文件中读取数据
df = pd.read_excel('data.xlsx')
写入数据
# 将 DataFrame 写入 CSV 文件
df.to_csv('output.csv', index=False)
# 将 DataFrame 写入 Excel 文件
df.to_excel('output.xlsx', index=False)
数据选择与过滤
# 选择单列
ages = df['Age']
# 选择多列
subset = df[['Name', 'Age']]
数据处理与转换
缺失值处理
# 检查缺失值
has_missing = df.isnull().any()
# 删除包含缺失值的行
df = df.dropna()
# 填充缺失值
df = df.fillna(0)
数据排序
# 按年龄升序排序
df = df.sort_values(by='Age')
不错呀