Python库-pandas – 淼淼の小站

本文最后更新于359 天前，其中的信息可能已经过时，如有错误请发送邮件到liumiao0429@foxmail.com

pandas 是 Python 中一个强大且广泛使用的开源数据分析和处理库，它提供了高效、灵活且易于使用的数据结构和数据操作工具，被广泛应用于数据科学、机器学习、金融分析、统计学等领域。

安装

如果你使用的是 pip 包管理工具，可以通过以下命令安装 pandas：

pip install pandas

主要数据结构

pandas 有两种主要的数据结构：Series 和 DataFrame。

1. `Series`

Series 是一维的带标签数组，可存储任意数据类型（整数、字符串、浮点数等）。它由数据和索引两部分组成。

import pandas as pd

# 创建一个 Series
data = [10, 20, 30, 40]
s = pd.Series(data, index=['a', 'b', 'c', 'd'])
print(s)

2. `DataFrame`

DataFrame 是二维的表格型数据结构，类似于 Excel 表格或 SQL 表。它由行索引和列索引组成，每列可以是不同的数据类型。

import pandas as pd

# 创建一个 DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)

数据读取与写入

数据读取

pandas 支持从多种文件格式中读取数据，也可以将数据写入这些文件格式。

# 从 CSV 文件中读取数据
df = pd.read_csv('data.csv')

# 从 Excel 文件中读取数据
df = pd.read_excel('data.xlsx')

写入数据

# 将 DataFrame 写入 CSV 文件
df.to_csv('output.csv', index=False)

# 将 DataFrame 写入 Excel 文件
df.to_excel('output.xlsx', index=False)

数据选择与过滤

# 选择单列
ages = df['Age']

# 选择多列
subset = df[['Name', 'Age']]

数据处理与转换

缺失值处理

# 检查缺失值
has_missing = df.isnull().any()

# 删除包含缺失值的行
df = df.dropna()

# 填充缺失值
df = df.fillna(0)

数据排序

# 按年龄升序排序
df = df.sort_values(by='Age')

网页访问

安装

主要数据结构

1. `Series`

2. `DataFrame`

数据读取与写入

评论

发送评论编辑评论

安装

主要数据结构

1. Series

2. DataFrame

数据读取与写入

评论

发送评论 编辑评论

推荐文章

1. `Series`

2. `DataFrame`

发送评论编辑评论