当前位置: 首页 > news >正文

python xls 合并为 cvs_使用python把csv汇总成excel

最近领导安排让我每周定时把grafana导出的csv文件进行统计汇总工作,需要处理的csv文件还是蛮多的,况且还要每周重复汇总处理。干脆写个脚本,每周执行一遍脚本,既方便还不会出错。

一、需求分析

1. 原始文件分析

原始文件是多个csv表格,第一列为时间戳,每10分钟统计生成一行,其余列为ip地址在该时间段内的访问次数

67caba5478ee

2. 处理结果分析

根据要求,统计每个ip地址在当天访问次数求和,汇总生成新表格,结果如下,并将所有csv文件按照文件名,分别汇总到不同的sheet下

67caba5478ee

二、代码逻辑

1. 流程分析

首先遍历指定目录下的.csv文件,提取文件名生成数组

然后使用pandas库读取csv文件,提取日期和ip,然后统计每个ip当天访问次数,生成新的DataFrame

最后使用xlwings库将pandas处理后的DataFrame数据写入excel文件,指定文件名作为sheet名

2. 遍历指定目录下.csv文件

主要用到了os模块中的walk()函数,可以遍历文件夹下所有的文件名。

def find_csv(path):

"""

查找目录下csv文件

:param path: 查找csv的目录路径

:return: csv文件名list

"""

csv_file = []

for root, dirs, files in os.walk(path):

for file in files:

if os.path.splitext(file)[1] == '.csv':

csv_file.append(os.path.join(root, file))

return csv_file

3. pandas处理csv文件

pandas是python环境下最有名的数据统计包,对于数据挖掘和数据分析,以及数据清洗等工作,用pandas再合适不过了,官方地址:https://www.pypandas.cn/

def summary_data(file):

"""

grafana导出的csv文件处理汇总

:param file: csv文件路径

:return: 处理完成后的pandas对象

"""

# 读取整个csv文件

csv_data = pd.read_csv(file, ';')

# 提取日期

csv_data["Time"] = csv_data["Time"].map(lambda Time: Time[0:10])

date = csv_data["Time"].drop_duplicates()

# 提取IP

ip_list = csv_data.columns.values[1:]

# 生成新列表

result_data = []

for day in list(date):

ip_data = []

for ip in ip_list:

# 统计指定ip地址在指定日期的数据之和

ip_sum = csv_data.loc[csv_data['Time'] == day, ip].sum()

ip_data.append(ip_sum)

# print("日期:%s ip:%s 总计:%s" % (day, ip, ip_sum))

result_data.append(ip_data)

# 生成新的DataFrame

result_df = pd.DataFrame(result_data, index=list(date), columns=ip_list)

# 添加行列统计

result_df['day_sum'] = result_df.apply(lambda x: x.sum(), axis=1)

result_df.loc['ip_sum'] = result_df.apply(lambda x: x.sum())

print(file, "处理完毕!")

return result_df

4. excel数据写入

pandas的to_excel方法也可以写入到excel文件,但是如果需要写入到指定的sheet,就无法满足需求了,此时就需要用的xlwings或者openpyxl库,此处使用xlwings,参考文档:https://www.xlwings.org/pro

def save_excel(data_df, file_name, excel_name):

"""

生成并写入新excel文件

:param data_df: pandas数据对象

:param file_name: 传入文件名,作为生成的sheet名称

:param excel_name: 生成excel文件名

:return: null

"""

sheet_name = file_name[file_name.rfind('/', 1) + 1:file_name.rfind('.', 1)]

wb = xlwings.Book(excel_name)

sheet = wb.sheets.add(name=sheet_name)

sheet.range("A1").value = data_df

wb.save()

wb.close()

print(sheet_name, "Sheet写入完毕!")

5. 完整代码

import os

import pandas as pd

import xlwings

def find_csv(path):

"""

查找目录下csv文件

:param path: 查找csv的目录路径

:return: csv文件名list

"""

csv_file = []

for root, dirs, files in os.walk(path):

for file in files:

if os.path.splitext(file)[1] == '.csv':

csv_file.append(os.path.join(root, file))

return csv_file

def summary_data(file):

"""

grafana导出的csv文件处理汇总

:param file: csv文件路径

:return: 处理完成后的pandas对象

"""

# 读取整个csv文件

csv_data = pd.read_csv(file, ';')

# 提取日期

csv_data["Time"] = csv_data["Time"].map(lambda Time: Time[0:10])

date = csv_data["Time"].drop_duplicates()

# 提取IP

ip_list = csv_data.columns.values[1:]

# 生成新列表

result_data = []

for day in list(date):

ip_data = []

for ip in ip_list:

ip_sum = csv_data.loc[csv_data['Time'] == day, ip].sum()

ip_data.append(ip_sum)

# print("日期:%s ip:%s 总计:%s" % (day, ip, ip_sum))

result_data.append(ip_data)

result_df = pd.DataFrame(result_data, index=list(date), columns=ip_list)

# 添加行列统计

result_df['day_sum'] = result_df.apply(lambda x: x.sum(), axis=1)

result_df.loc['ip_sum'] = result_df.apply(lambda x: x.sum())

print(file, "处理完毕!")

return result_df

def save_excel(data_df, file_name, excel_name):

"""

生成并写入新excel文件

:param data_df: pandas数据对象

:param file_name: 传入文件名,作为生成的sheet名称

:param excel_name: 生成excel文件名

:return: null

"""

sheet_name = file_name[file_name.rfind('/', 1) + 1:file_name.rfind('.', 1)]

wb = xlwings.Book(excel_name)

sheet = wb.sheets.add(name=sheet_name)

sheet.range("A1").value = data_df

wb.save()

wb.close()

print(sheet_name, "Sheet写入完毕!")

if __name__ == '__main__':

# 原始csv文件存放路径

path = './csv'

# 生成excel文件名

excel_name = 'cm.xlsx'

csv_file = find_csv(path)

# 创建excel文件

new_excel = pd.DataFrame()

new_excel.to_excel(excel_name)

# 处理并写入excel文件

for file in csv_file:

data_df = summary_data(file)

save_excel(data_df, file, excel_name)

# 删除默认Sheet1

wb = xlwings.Book(excel_name)

wb.sheets['Sheet1'].delete()

wb.save()

wb.close()

print("数据汇总完毕,生成文件路径 %s/%s" % (os.getcwd(), excel_name))

相关文章:

  • python 可迭代对象和迭代器区别_python生成器,可迭代对象,迭代器区别和联系...
  • java打印文件_java 循环打印文件夹文件
  • java sql系统_用Java实现数据库应用系统
  • jmeter的java请求参数设置_jmeter之 java请求
  • java如何设置系统属性_java – 设置系统属性
  • java ajax增删改查_使用AJAX实现数据的增删改查
  • java去掉结尾的空格_如何从Java中显示的字符串末尾删除空格?
  • java最大回文字符串长度_Leet Code 5 最长回文子串 - Java
  • java泡沫_Java初认识--函数和数组
  • java虚拟机内存溢出的三个原因_JVM发生内存溢出的原因分析及解决方案
  • mysql更新多个字段php_PHP:如果语句无意中导致多个MySQL列更新?
  • properties java jar_propertiesutil jar包
  • python段落注释的语法格式是_Python 基础语法
  • python读取xml配置_python解析xml配置文件
  • java 接口数据类型_Java中的基本数据类型与引用数据类型
  • 深入了解以太坊
  • Bytom交易说明(账户管理模式)
  • JavaScript-Array类型
  • js ES6 求数组的交集,并集,还有差集
  • k8s如何管理Pod
  • mysql 数据库四种事务隔离级别
  • Promise初体验
  • Python - 闭包Closure
  • Python进阶细节
  • 关于extract.autodesk.io的一些说明
  • 极限编程 (Extreme Programming) - 发布计划 (Release Planning)
  • 简单实现一个textarea自适应高度
  • 面试题:给你个id,去拿到name,多叉树遍历
  • 通过npm或yarn自动生成vue组件
  • 微信小程序--------语音识别(前端自己也能玩)
  • 在Mac OS X上安装 Ruby运行环境
  • elasticsearch-head插件安装
  • 国内唯一,阿里云入选全球区块链云服务报告,领先AWS、Google ...
  • # Swust 12th acm 邀请赛# [ A ] A+B problem [题解]
  • # 透过事物看本质的能力怎么培养?
  • (1)(1.11) SiK Radio v2(一)
  • (1)(1.8) MSP(MultiWii 串行协议)(4.1 版)
  • (20)目标检测算法之YOLOv5计算预选框、详解anchor计算
  • (arch)linux 转换文件编码格式
  • (C#)一个最简单的链表类
  • (全注解开发)学习Spring-MVC的第三天
  • (十七)Flask之大型项目目录结构示例【二扣蓝图】
  • (转)清华学霸演讲稿:永远不要说你已经尽力了
  • **Java有哪些悲观锁的实现_乐观锁、悲观锁、Redis分布式锁和Zookeeper分布式锁的实现以及流程原理...
  • .gitignore文件---让git自动忽略指定文件
  • .net core webapi 部署iis_一键部署VS插件:让.NET开发者更幸福
  • .NET Core工程编译事件$(TargetDir)变量为空引发的思考
  • .Net+SQL Server企业应用性能优化笔记4——精确查找瓶颈
  • .NET正则基础之——正则委托
  • @ConfigurationProperties注解对数据的自动封装
  • @SuppressWarnings(unchecked)代码的作用
  • [ CTF ] WriteUp-2022年春秋杯网络安全联赛-冬季赛
  • [ vulhub漏洞复现篇 ] Django SQL注入漏洞复现 CVE-2021-35042
  • []C/C++读取串口接收到的数据程序
  • [Avalon] Avalon中的Conditional Formatting.