当前位置: 首页 > news >正文

如何使用python快速修改Excel表单中的大量数据

python修改Excel中的内容进阶加速版

前面有一篇文章讲到了使用python处理Excel中的数据文件,即修改Excel中的数据,但是那个版本的代码跑点小规模、小数据量的excel还行,一旦数据量达到万条级别,代码运行会非常慢!因此,特意对之前的代码进行了优化,大幅的提升了代码的运行速率。

1、修改思路

首先是使用库的区别:操作Excel数据一般常用的两个库是OpenpyxlPandas

  • Openpyxl是一个用于读写Excel文件的Python库。它可以让你创建、修改和处理Excel文件,包括读取、写入、复制、剪切、替换等操作。Openpyxl可以处理xlsx、xlsm、xltx、xltm等Excel文件格式,并提供了丰富的API来进行数据操作和样式设置。
  • Pandas是一个用于数据分析数据处理的Python库。它提供了强大的数据结构和数据操作功能,特别是对于结构化数据的处理非常方便。Pandas可以读取和写入多种文件格式,包括Excel、CSV、JSON等。在数据处理方面,Pandas可以进行数据筛选、排序、聚合、合并等多种操作,并且支持处理缺失值和处理时间序列数据等常见问题。

总结来说,Openpyxl主要用于Excel文件的读写和操作,而Pandas则更适用于数据分析和数据处理。Openpyxl提供了更底层的操作,可以直接对Excel文件进行读写和样式设置,而Pandas则提供了更高层次的数据操作接口,方便处理和分析结构化数据。两者在功能和应用场景上有所区别,选择使用哪一个库取决于具体的需求和任务。

代码展示

使用openpyxl进行数据操作

import openpyxl# 打开Excel文件
workbook = openpyxl.load_workbook('变量信息.xlsx')# 选择要操作的工作表
worksheet = workbook.active# 遍历每一行
for row in worksheet.iter_rows():# 获取该行的第一个单元格的值cell_value = row[1].value# 如果该行的字符串以X开头,则将X替换为BJ1并拼接后续字符串,同时保存数据if cell_value and str(cell_value).startswith('X' or '1'):new_value = 'BJ1' + str(cell_value)[1:]row[1].value = new_valueworkbook.save('001.xlsx')print(new_value)if cell_value and str(cell_value).startswith('0'):new_value = 'BJ0' + str(cell_value)[1:]row[1].value = new_valueworkbook.save('001.xlsx')if cell_value and str(cell_value).startswith('9'):new_value = 'BJ9' + str(cell_value)[1:]row[1].value = new_valueworkbook.save('001.xlsx')# 否则遍历下一行else:continue

处理数据不会改变原先的数据格式和数据类型,但是运行速率较差

使用Pandas库进行数据修改

import pandas as pd# 读取Excel文件
df = pd.read_excel('KIC.xlsx')# 遍历每一行
for i, row in df.iterrows():# 获取该行的第一个单元格的值cell_value = row[1]# 如果该行的字符串以X或1开头,则将X或1替换为BJ1并拼接后续字符串if cell_value and str(cell_value).startswith(('X', '1')):new_value = 'BJ1' + str(cell_value)[1:]df.at[i, 'Column2'] = new_valueelif cell_value and str(cell_value).startswith('0'):new_value = 'BJ0' + str(cell_value)[1:]df.at[i, 'Column2'] = new_valueelif cell_value and str(cell_value).startswith('9'):new_value = 'BJ9' + str(cell_value)[1:]df.at[i, 'Column2'] = new_value# 将修改后的数据保存到新的Excel文件中
df.to_excel('KIC01.xlsx', index=False)

使用Pandas操作Excel数据运行速率非常快,但是会破坏Excel文件原先的文件格式

2、最终改进

要提升代码的运行速度,可以考虑以下几个方面的优化:
  1. 使用批量写入数据:在当前代码中,每次修改单元格后都会保存一次文件,这会导致频繁的磁盘操作,影响性能。可以将修改的数据先存储在一个临时的数据结构中,然后一次性写入到Excel文件中。
  2. 使用列表推导式生成器表达式替代循环:使用列表推导式或生成器表达式可以提供更高效的迭代方式,避免使用显式的循环。这样可以减少迭代次数,提升代码的执行速度。

下面是修改后的代码示例

import openpyxl# 打开Excel文件
workbook = openpyxl.load_workbook('KIC.xlsx')# 选择要操作的工作表
worksheet = workbook.active# 创建一个临时列表,用于存储修改后的数据
new_data = []# 遍历每一行
for row in worksheet.iter_rows():# 获取该行的第一个单元格的值cell_value = row[1].value# 如果该行的字符串以X开头,则将X替换为BJ1并拼接后续字符串,同时保存数据if cell_value and str(cell_value).startswith(('X', '1')):new_value = 'BJ1' + str(cell_value)[1:]elif cell_value and str(cell_value).startswith('0'):new_value = 'BJ0' + str(cell_value)[1:]elif cell_value and str(cell_value).startswith('9'):new_value = 'BJ9' + str(cell_value)[1:]else:# 如果不需要修改,则直接保存原始数据new_value = cell_value# 将修改后的数据添加到临时列表中new_data.append(new_value)# 将修改后的数据一次性写入Excel文件
for index, value in enumerate(new_data, start=1):worksheet.cell(row=index, column=2, value=value)# 保存修改后的Excel文件
workbook.save('KIC04.xlsx')

通过以上优化,代码将会更高效地执行,并提升运行速度。

相关文章:

  • 【OJ for Divide and Conquer】OJ题解
  • Mysql第四篇---数据库索引优化与查询优化
  • 基于PHP的仓库库存管理系统设计与实现(源码+lw+部署文档+讲解等)
  • 主定理(一般式)
  • spring框架回顾
  • 05、Python -- 爬取ts文件格式视频思路
  • 高三高考免费试卷真题押题知识点合集
  • Android拖放startDragAndDrop拖拽onDrawShadow动态添加View,Kotlin(3)
  • 多个相同地址的I2C设备,如何挂载在同一条总线上
  • Ansible脚本进阶---playbook
  • Web入门笔记
  • UE5使用Dash插件实现程序化地形场景制作
  • 网关概念及java项目中用使用网关场景
  • Ubuntu系统编译调试QGIS源码保姆级教程
  • 合并两个有序链表(C++)
  • 实现windows 窗体的自己画,网上摘抄的,学习了
  • ES6, React, Redux, Webpack写的一个爬 GitHub 的网页
  • express如何解决request entity too large问题
  • javascript 总结(常用工具类的封装)
  • JDK9: 集成 Jshell 和 Maven 项目.
  • Median of Two Sorted Arrays
  • Quartz实现数据同步 | 从0开始构建SpringCloud微服务(3)
  • Redis中的lru算法实现
  • scala基础语法(二)
  • SpiderData 2019年2月13日 DApp数据排行榜
  • underscore源码剖析之整体架构
  • 仿天猫超市收藏抛物线动画工具库
  • 简单易用的leetcode开发测试工具(npm)
  • 容器服务kubernetes弹性伸缩高级用法
  • 如何设计一个微型分布式架构?
  • 视频flv转mp4最快的几种方法(就是不用格式工厂)
  • 思维导图—你不知道的JavaScript中卷
  • 腾讯大梁:DevOps最后一棒,有效构建海量运营的持续反馈能力
  • 微信小程序:实现悬浮返回和分享按钮
  • 协程
  • 转载:[译] 内容加速黑科技趣谈
  • ​软考-高级-系统架构设计师教程(清华第2版)【第20章 系统架构设计师论文写作要点(P717~728)-思维导图】​
  • # include “ “ 和 # include < >两者的区别
  • #NOIP 2014#Day.2 T3 解方程
  • #QT(串口助手-界面)
  • (C++17) optional的使用
  • (C语言)输入一个序列,判断是否为奇偶交叉数
  • (delphi11最新学习资料) Object Pascal 学习笔记---第5章第5节(delphi中的指针)
  • (附源码)计算机毕业设计ssm高校《大学语文》课程作业在线管理系统
  • (每日持续更新)信息系统项目管理(第四版)(高级项目管理)考试重点整理 第13章 项目资源管理(七)
  • (深入.Net平台的软件系统分层开发).第一章.上机练习.20170424
  • (学习日记)2024.02.29:UCOSIII第二节
  • (转)用.Net的File控件上传文件的解决方案
  • (转贴)用VML开发工作流设计器 UCML.NET工作流管理系统
  • ***linux下安装xampp,XAMPP目录结构(阿里云安装xampp)
  • ***测试-HTTP方法
  • .NET 5种线程安全集合
  • .Net Attribute详解(上)-Attribute本质以及一个简单示例
  • .NET Core跨平台微服务学习资源
  • .NET国产化改造探索(一)、VMware安装银河麒麟