Pandas读取与导出Excel

前言

Pandas是Python中处理数据的强大库，提供了丰富的功能来读取和导出Excel文件。本文将详细介绍如何使用Pandas读取和导出Excel文件，包括各种参数的使用、最佳实践和常见问题解决方案。

安装必要的依赖

在使用Pandas处理Excel文件之前，需要安装相应的依赖库：

# 安装pandas
pip install pandas

# 安装Excel读取库
pip install openpyxl  # 用于读取和写入xlsx文件
pip install xlrd      # 用于读取xls文件
pip install xlsxwriter # 用于写入xlsx文件

读取Excel文件

基本读取

import pandas as pd

# 读取Excel文件
df = pd.read_excel('data.xlsx')
print(df.head())

读取指定工作表

# 读取指定工作表
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')

# 读取多个工作表
dfs = pd.read_excel('data.xlsx', sheet_name=['Sheet1', 'Sheet2'])
print(dfs['Sheet1'].head())
print(dfs['Sheet2'].head())

# 读取所有工作表
dfs = pd.read_excel('data.xlsx', sheet_name=None)
for sheet_name, df in dfs.items():
    print(f"Sheet: {sheet_name}")
    print(df.head())

高级读取选项

# 自定义表头
df = pd.read_excel('data.xlsx', header=1)  # 使用第二行作为表头

# 自定义列名
df = pd.read_excel('data.xlsx', names=['列1', '列2', '列3'])

# 设置索引列
df = pd.read_excel('data.xlsx', index_col=0)  # 使用第一列作为索引

# 读取指定列
df = pd.read_excel('data.xlsx', usecols=['列1', '列3'])  # 只读取指定列
df = pd.read_excel('data.xlsx', usecols='A:C')  # 使用Excel列范围

# 跳过行
df = pd.read_excel('data.xlsx', skiprows=2)  # 跳过前两行

# 限制读取行数
df = pd.read_excel('data.xlsx', nrows=100)  # 只读取前100行

# 处理缺失值
df = pd.read_excel('data.xlsx', na_values=['NA', 'null', ''])

# 解析日期
df = pd.read_excel('data.xlsx', parse_dates=['日期列'])

# 自定义日期解析器
from datetime import datetime
def date_parser(date_str):
    return datetime.strptime(date_str, '%Y年%m月%d日')

df = pd.read_excel('data.xlsx', parse_dates=['日期列'], date_parser=date_parser)

读取大文件

对于大文件，可以使用分块读取的方式：

# 分块读取
excel_reader = pd.read_excel('large_file.xlsx', chunksize=1000)

for chunk in excel_reader:
    # 处理每个块
    print(f"处理块大小: {len(chunk)}")
    # 进行数据处理...

导出Excel文件

基本导出

import pandas as pd

# 创建示例数据
data = {
    '姓名': ['张三', '李四', '王五'],
    '年龄': [25, 30, 35],
    '城市': ['北京', '上海', '广州']
}
df = pd.DataFrame(data)

# 导出到Excel
df.to_excel('output.xlsx', index=False)
print("导出成功！")

导出到多个工作表

# 创建ExcelWriter对象
with pd.ExcelWriter('output.xlsx') as writer:
    # 导出到不同工作表
    df1.to_excel(writer, sheet_name='Sheet1', index=False)
    df2.to_excel(writer, sheet_name='Sheet2', index=False)

print("导出成功！")

高级导出选项

# 自定义工作表名称
df.to_excel('output.xlsx', sheet_name='数据', index=False)

# 处理缺失值
df.to_excel('output.xlsx', na_rep='-', index=False)

# 浮点数格式
df.to_excel('output.xlsx', float_format='%.2f', index=False)

# 指定起始位置
df.to_excel('output.xlsx', startrow=1, startcol=2, index=False)

# 冻结窗格
df.to_excel('output.xlsx', freeze_panes=(1, 0), index=False)  # 冻结首行

# 导出指定列
df.to_excel('output.xlsx', columns=['姓名', '年龄'], index=False)

# 自定义表头
df.to_excel('output.xlsx', header=['Name', 'Age', 'City'], index=False)

样式和格式化

使用XlsxWriter添加样式

import pandas as pd
import xlsxwriter

# 创建数据
df = pd.DataFrame({
    '产品': ['A', 'B', 'C'],
    '销量': [100, 200, 150],
    '销售额': [1000, 2500, 1800]
})

# 创建ExcelWriter对象
with pd.ExcelWriter('styled_output.xlsx', engine='xlsxwriter') as writer:
    # 导出数据
    df.to_excel(writer, sheet_name='数据', index=False)
    
    # 获取工作簿和工作表对象
    workbook = writer.book
    worksheet = writer.sheets['数据']
    
    # 创建格式
    header_format = workbook.add_format({
        'bold': True,
        'text_wrap': True,
        'valign': 'top',
        'fg_color': '#D7E4BC',
        'border': 1
    })
    
    money_format = workbook.add_format({'num_format': '#,##0.00'})
    
    # 设置列宽
    worksheet.set_column('A:A', 10)
    worksheet.set_column('B:C', 15)
    
    # 应用表头格式
    for col_num, value in enumerate(df.columns.values):
        worksheet.write(0, col_num, value, header_format)
    
    # 应用数据格式
    worksheet.set_column('C:C', 15, money_format)

print("带样式的Excel导出成功！")

读取和导出CSV文件

读取CSV文件

# 基本读取
df = pd.read_csv('data.csv')

# 自定义分隔符
df = pd.read_csv('data.tsv', sep='\t')  # 读取制表符分隔的文件

# 其他参数与read_excel类似
df = pd.read_csv('data.csv', header=0, names=['列1', '列2'], index_col=0)

导出CSV文件

# 基本导出
df.to_csv('output.csv', index=False)

# 自定义分隔符
df.to_csv('output.tsv', sep='\t', index=False)

# 处理中文编码
df.to_csv('output.csv', index=False, encoding='utf-8-sig')  # 使用带BOM的UTF-8编码

# 处理日期格式
df.to_csv('output.csv', index=False, date_format='%Y-%m-%d')

最佳实践

1. 处理大型Excel文件

使用chunksize参数分块读取
只读取必要的列（使用usecols参数）
对于非常大的文件，考虑使用CSV格式代替Excel

2. 性能优化

使用适当的引擎：对于xlsx文件，openpyxl是推荐的引擎
避免在循环中频繁读写Excel文件
对于多次写入操作，使用ExcelWriter对象

3. 数据类型处理

使用dtype参数指定列的数据类型，避免自动类型推断的错误
对于日期列，使用parse_dates参数确保正确解析
对于混合类型的列，考虑使用converters参数进行自定义转换

4. 错误处理

try:
    df = pd.read_excel('data.xlsx')
    print("读取成功！")
except FileNotFoundError:
    print("文件不存在！")
except Exception as e:
    print(f"读取错误: {e}")

常见问题与解决方案

1. 读取Excel文件时出现编码错误

问题：UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte
解决方案：指定正确的编码

1	df = pd.read_excel('data.xlsx', encoding='utf-8')

2. 读取Excel文件时出现引擎错误

问题：ValueError: Excel file format cannot be determined, you must specify an engine manually.
解决方案：指定引擎

1 2	df = pd.read_excel('data.xlsx', engine='openpyxl') # 对于xlsx文件 df = pd.read_excel('data.xls', engine='xlrd') # 对于xls文件

3. 导出Excel文件时出现权限错误

问题：PermissionError: [Errno 13] Permission denied: 'output.xlsx'
解决方案：确保文件没有被其他程序占用，或者使用不同的文件名

4. 导出大型DataFrame时内存不足

问题：MemoryError: Unable to allocate memory for array
解决方案：分块处理或使用CSV格式

5. 日期时间格式处理错误

问题：日期时间列被解析为字符串
解决方案：使用parse_dates参数

1	df = pd.read_excel('data.xlsx', parse_dates=['日期列'])

实际应用示例

示例1：数据清洗和转换

import pandas as pd

# 读取数据
df = pd.read_excel('raw_data.xlsx')

# 数据清洗
df = df.dropna()  # 删除缺失值
df = df.drop_duplicates()  # 删除重复行

# 数据转换
df['销售额'] = df['销量'] * df['单价']
df['日期'] = pd.to_datetime(df['日期'])

# 数据汇总
daily_sales = df.groupby('日期')['销售额'].sum().reset_index()

# 导出结果
with pd.ExcelWriter('processed_data.xlsx') as writer:
    df.to_excel(writer, sheet_name='原始数据', index=False)
    daily_sales.to_excel(writer, sheet_name='每日销售额', index=False)

print("数据处理完成并导出！")

示例2：多工作表数据合并

import pandas as pd

# 读取多个工作表
dfs = pd.read_excel('multi_sheet.xlsx', sheet_name=None)

# 合并所有工作表
combined_df = pd.concat(dfs.values(), ignore_index=True)

# 导出合并后的数据
combined_df.to_excel('combined_data.xlsx', index=False)

print("工作表合并完成！")

示例3：Excel模板填充

import pandas as pd
from openpyxl import load_workbook

# 读取模板文件
workbook = load_workbook('template.xlsx')
worksheet = workbook['Sheet1']

# 读取数据
df = pd.read_excel('data.xlsx')

# 填充数据
for index, row in df.iterrows():
    worksheet.cell(row=index+2, column=1, value=row['姓名'])
    worksheet.cell(row=index+2, column=2, value=row['年龄'])
    worksheet.cell(row=index+2, column=3, value=row['城市'])

# 保存结果
workbook.save('filled_template.xlsx')
print("模板填充完成！")

总结

Pandas提供了强大的Excel文件读写功能，通过本文介绍的方法，您可以轻松处理各种Excel文件操作。无论是简单的数据读取，还是复杂的数据分析和导出，Pandas都能满足您的需求。

在实际应用中，建议根据具体场景选择合适的参数和方法，以获得最佳的性能和结果。同时，注意处理可能出现的错误，确保代码的健壮性。

随着Pandas的不断发展，新的功能和优化也在不断推出。建议定期关注官方文档，了解最新的特性和最佳实践。

浮生若梦