当前位置: 首页 > news >正文

Python提取pdf中的表格数据(附实战案例)

14天阅读挑战赛

今天给大家介绍一个Python使用工具,那就是从pdf文件中读取表格数据,主要用到第三方库 pdfplumber。

pdfplumber简介

pdfplumber是一款基于pdfminer,完全由python开发的pdf文档解析库,不仅可以获取每个字符、矩形框、线等对象的具体信息,而且还可以抽取文本和表格。目前pdfplumber仅支持可编辑的pdf文档

虽然pdfminer也可以对可编辑的pdf文档进行解析,但是比较而言,pdfplumber有以下优势:

  1. 二者都可以获取到每个字符、矩形框、线等对象的具体信息,但是pdfplumber在pdfminer的基础上进行了封装和处理,使得到的对象更易于使用,对用户更友好。
  2. 二者都能对文本解析,但是pdfminer输出的文本在布局上可能与原文差别比较大,但是pdfplumber抽取出的文本与原文可以有更高的一致性。
  3. pdfplumber实现了表格抽取逻辑,基于最基本的字符、线框等对象的位置信息,定位、识别pdf文档中的表格。

 首先安装

pip install pdfplumber

实战案例

本次实战,我们需要将pdf中的获奖队伍信息提取出来,然后保存到excel表格中。

原始pdf文件中大多数都是如上图所示的表格,这里为了不泄露个人隐私,我就先打上码了哈。

接着开始敲代码提取表格数据!

import pandas as pd
import pdfplumber

pdf = pdfplumber.open("第十届“正大杯”国奖名单.pdf")
df = pd.DataFrame()
for i in range(3,53):  # 这里3是指表格信息是从第4页开始的(程序计数是从0开始,所以这里第4页对应程序中的3),53是结束位置
    page = pdf.pages[i]  # 读取pdf中的每一页
    table = page.extract_table()  # 从页数据中提取表格数据
    df = df.append(table)  # 将提取的数据转换为DataFrame二维表格形式
df.drop_duplicates(inplace=True)   # 删除重复值
df.to_excel("第十届“正大杯”国奖名单.xlsx", header=False, index=False)  # 将提取的数据保存为excel

这里,我先是用了循环来提取多页,3是指表格信息是从第4页开始的(程序计数是从0开始,所以这里第4页对应程序中的3),53是结束位置 。

 运行之后的结果如下:

很简单就将pdf中的表格提取出来了。

做到这里,我只是将一个pdf中的数据提取出来了,可是还有几个类似的pdf需要提取,于是我将上述代码功能进行了简单的封装(功能还比较简陋,各位可根据自己的需要进行扩展)。

def pdf_to_excel(file_path,start:int,end:int,excel_name=None):
    '''
    params:
        file_path:需要提取表格的pdf文件的绝对路径
        start:出现表格的起始页码
        end:表格结束页码
        excel_name:最后保存excel文件的文件名(默认为原始pdf文件名)
    '''
    pdf = pdfplumber.open(file_path)
    if not excel_name:
        excel_name = file_path.split('\\')[-1].split('.')[0]
    df_result = pd.DataFrame()
    for i in range(start-1,end):
        page = pdf.pages[i]
        table = page.extract_table()
        df_result = df_result.append(table)
    df_result = df_result.drop_duplicates(inplace=True)
    df_result.to_excel(excel_name+'.xlsx',index=False)

pdf_to_excel(file_path=r'C:xxx.pdf',start=4,end=53)

以上就是本次分享的python小工具,希望对有同样需求的你有所帮助!

相关文章:

  • YOLOv5、v7改进之三十七:结合CVPR2022新作ConvNeXt网络
  • [SpringBoot] AOP-AspectJ 切面技术
  • Prometheus + Grafana 监控SpringBoot项目
  • [C]编译和预处理详解
  • C++入门(正在更新)
  • 风控大佬的一天从这两张报表开始(搬砖)了
  • 【SpringBoot】72、SpringBoot中集成Graylog分布式日志框架
  • STM32CubeMX学习笔记(44)——USB接口使用(HID按键)
  • ElasticSearch 学习(一)-- 概念
  • 用户登录权限校验 JWT【详解】
  • php laravel开发的个人博客源码分享,支持适配移动端附截图
  • 基于模糊认知图谱和遗传算法的龋齿度检测(Matlab代码实现)
  • 【表面缺陷检测】基于yolov5的PCB表面缺陷检测(附代码)
  • 主动学习(Active Learning)简介综述汇总以及主流技术方案
  • 详解KMP
  • .pyc 想到的一些问题
  • C++11: atomic 头文件
  • input的行数自动增减
  • Javascripit类型转换比较那点事儿,双等号(==)
  • Js实现点击查看全文(类似今日头条、知乎日报效果)
  • npx命令介绍
  • PV统计优化设计
  • Ruby 2.x 源代码分析:扩展 概述
  • Vue全家桶实现一个Web App
  • 第2章 网络文档
  • 让你的分享飞起来——极光推出社会化分享组件
  • 日剧·日综资源集合(建议收藏)
  • 用Node EJS写一个爬虫脚本每天定时给心爱的她发一封暖心邮件
  • (附源码)springboot 智能停车场系统 毕业设计065415
  • (算法)求1到1亿间的质数或素数
  • (转)AS3正则:元子符,元序列,标志,数量表达符
  • (转)关于多人操作数据的处理策略
  • (转)微软牛津计划介绍——屌爆了的自然数据处理解决方案(人脸/语音识别,计算机视觉与语言理解)...
  • (转载)Linux网络编程入门
  • .MyFile@waifu.club.wis.mkp勒索病毒数据怎么处理|数据解密恢复
  • .net CHARTING图表控件下载地址
  • .NET Core实战项目之CMS 第一章 入门篇-开篇及总体规划
  • .net MySql
  • .NET 回调、接口回调、 委托
  • .net6使用Sejil可视化日志
  • .net安装_还在用第三方安装.NET?Win10自带.NET3.5安装
  • .NET教程 - 字符串 编码 正则表达式(String Encoding Regular Express)
  • .NET实现之(自动更新)
  • @Autowired自动装配
  • @EnableConfigurationProperties注解使用
  • @德人合科技——天锐绿盾 | 图纸加密软件有哪些功能呢?
  • @软考考生,这份软考高分攻略你须知道
  • [AutoSar]BSW_OS 02 Autosar OS_STACK
  • [C#基础]说说lock到底锁谁?
  • [C++]C++入门--引用
  • [ffmpeg] aac 音频编码
  • [JavaEE] 线程与进程的区别详解
  • [JavaEE系列] wait(等待) 和 notify(唤醒)
  • [Matlab有限元分析] 2.杆单元有限元分析
  • [NOIP2014] 提高组 洛谷P1941 飞扬的小鸟