当前位置: 首页 > news >正文

excel处置4000行数据卡_数十万数据Excel数据不好处理怎么办?

cd83732a73ba19122a25d3011cc3542d.png

文章转载自:微信公众号 Python的乐趣

作者:一粒米饭

比如像电商行业,每月有上百万条订单发货数据需要与仓库的数据进行核对计算,涉及到数据计算,筛选,匹配等步骤,用excel表超级卡,并且经常卡死。

1037b58b52d927e5e720c5769919e7ce.png

这时如果你会Python,十几行代码就可以搞定。

这里需要两个Python库,一个是os库,一个是pandas库。

os库

os是Python内置库,不需要额外安装,只要用import导入就可以用了。os模块封装了常见的文件和目录操作,利用它可以轻松的对系统上的目录和文件进行各种操作,比如获取当前目录、列举当前文件夹中的所有文件和文件夹、判断文件或目录是否存在、删除文件等,具体见下图。

65794eba92115a8da360fd69ccbf12cf.png

pandas库

pandas是第三方库,需要手动安装才能使用。pandas是专门用来做数据分析的强大类库,可以方便地从csv、Excel和其他文本文件以及数据库中读取数据,然后对数据进行加和、求平均值、求方差、计算最大值最小值等数据分析,支持生成Excel等格式文件或进行可视化操作,函数如下:

c4c0808bf39f2c4405c5bca415c478b1.png

其中读Excel需要依赖xlrd库,写Excel依赖openpyxl,pandas、xlrd和openpyxl安装命令如下:

$ pip install xlrd openpyxl pandas

下面开始进行数据处理...

这里假设数据是按日期命名的Excel文件并且放在excel_data文件夹中,每个Excel文件包含用户ID、商品ID、商品属性列表、购买数量这几列信息。

文件夹中的所有文件如下,在linux下用ls命令列举excel_data下所有文件:

$ ls excel_data

结果:

20120702.xlsx 20131018.xlsx 20150203.xlsx 20170416.xlsx
20120703.xlsx 20131019.xlsx 20150204.xlsx 20170417.xlsx
20120704.xlsx 20131020.xlsx 20150205.xlsx 20170418.xlsx
20120705.xlsx 20131021.xlsx 20160101.xlsx 20170419.xlsx
...

实现的思路是利用os库获取所有的Excel文件,然后用pandas依次读取所有文件并合并到一起进行数据,计算出每个商品的总量以及销量前十的商品。

1.列举所有Excel文件

import os
files = os.listdir("excel_data")

2.用pandas读取所有数据并合并到一起

import pandas as pd
df_list = [pd.read_excel(os.path.join("excel_data", f)) for f in files]
data = pd.concat(df_list)

3.统计每个商品的数量

sum_of_product = data[["商品ID", "购买数量"]].groupby(["商品ID"]).sum()
sum_of_product

结果

购买数量
商品ID	
1662	1
201826	17
203319	67
203320	494
203322	332
...	...

获取销量前十的商品

sum_of_product.sort_values('购买数量', ascending=False).head(10)

结果:

商品ID	      购买数量
50018831	56632
50007016	8291
50011993	6351
50013636	6340
50003700	6325
211122	5823
50010558	5248
50016006	4948
50006602	4692
50002524	4123

完整代码如下:

import os
import pandas as pd

# 获取所有Excel文件并读取数据
files = os.listdir("excel_data")
df_list = [pd.read_excel(os.path.join("excel_data", f)) for f in files]
data = pd.concat(df_list)

# 统计每个商品的数量,并输出到Excel文件中
sum_of_product = data[["商品ID", "购买数量"]].groupby(["商品ID"]).sum()
sum_of_product.to_excel("各个商品数量统计.xlsx")

# 统计销量前十的商品
sum_of_product.sort_values('购买数量', ascending=False).head(10)

结果:

商品ID	购买数量
50018831	56632
50007016	8291
50011993	6351
50013636	6340
50003700	6325
211122	5823
50010558	5248
50016006	4948
50006602	4692
50002524	4123

教程就到这里,不足之处欢迎交流指正 。

相关文章:

  • 【学习随笔】关于php.ini的各项说明-1
  • layui获取input信息_爬虫实战:运用requests库和正则表达式爬取淘宝商品信息。
  • 分支结构if
  • opencv3和qt5计算机视觉应用开发pdf_计算机视觉方向简介 | 用深度学习进行表格提取...
  • Runtime 类
  • vue element tree 后台 数据转换_mallcloud商城vue
  • excel统计行数_WPS| 12个简单的Excel技巧,却能让造价人变得如此逆天!
  • RandomAccess接口
  • python用input输入list_python怎么用input函数输入一个列表
  • sublime text 2 卸载与重装
  • 数字图像中255表示什么_数字图像处理学习之(一):图像与图像的表示
  • 初见Hadoop—- 搭建MyEclipse 访问HDFS 上的文件
  • 有些网站打开一半空白_如何发一条空白的朋友圈
  • 一台服务器能承载多少用户_冰淇淋机多少钱一台?做冰淇淋也能小有成就
  • json web token 网上学习笔记
  • [deviceone开发]-do_Webview的基本示例
  • Angular6错误 Service: No provider for Renderer2
  • Linux编程学习笔记 | Linux IO学习[1] - 文件IO
  • python3 使用 asyncio 代替线程
  • Redis 中的布隆过滤器
  • spring学习第二天
  • 如何合理的规划jvm性能调优
  • 入手阿里云新服务器的部署NODE
  • 应用生命周期终极 DevOps 工具包
  • 在weex里面使用chart图表
  • 3月7日云栖精选夜读 | RSA 2019安全大会:企业资产管理成行业新风向标,云上安全占绝对优势 ...
  • (四)docker:为mysql和java jar运行环境创建同一网络,容器互联
  • (转)四层和七层负载均衡的区别
  • (转载)PyTorch代码规范最佳实践和样式指南
  • .equal()和==的区别 怎样判断字符串为空问题: Illegal invoke-super to void nio.file.AccessDeniedException
  • .net core 实现redis分片_基于 Redis 的分布式任务调度框架 earth-frost
  • .NET 中使用 TaskCompletionSource 作为线程同步互斥或异步操作的事件
  • @Data注解的作用
  • @Query中countQuery的介绍
  • []C/C++读取串口接收到的数据程序
  • [2016.7.test1] T2 偷天换日 [codevs 1163 访问艺术馆(类似)]
  • [20181219]script使用小技巧.txt
  • [Android 数据通信] android cmwap接入点
  • [BUAA软工]第一次博客作业---阅读《构建之法》
  • [bzoj4010][HNOI2015]菜肴制作_贪心_拓扑排序
  • [C++]拼图游戏
  • [DP 训练] Longest Run on a Snowboard, UVa 10285
  • [hdu 4552] 怪盗基德的挑战书
  • [Microsoft][SQLServer 2000 Driver for JDBC][SQLServer]对象名 'XXX' 无效
  • [MySQL复制异常]Cannot execute statement: impossible to write to binary log since statement is in row for
  • [OpenAI]继ChatGPT后发布的Sora模型原理与体验通道
  • [Qt]QMainWindow
  • [spark] DataFrame 的 checkpoint
  • [导入]VI常用实用命令学习
  • [干货]LangChain入门-LangChain框架的构成与特点
  • [滑动窗口] (一) LeetCode 209. 长度最小的子数组 和 LCR 016.无重复字符的最长子串
  • [开源]C#二维码生成解析工具,可添加自定义Logo
  • [新闻]微软Silverlight着眼网络设计未来
  • [循环枚举]换零钱
  • [运维工具]ubuntu下迁移home目录至新的分区教程详解