当前位置: 首页 > news >正文

python(6) : 读取pdf的文本, 读取pdf每一页为文件

参考 : 解决fitz模块报错RuntimeError: Directory ‘static/‘ does not exist_directory 'static' does not exist-CSDN博客 

 read_pdf.py

# -*- coding: utf-8 -*-
import PyPDF2
import fitz
import pdfplumber'''
pip install PyPDF2
pip install pdfplumber
'''# 读取pdf每一页保存为图片
def pdf2img(pdf_file, output_folder):pdf_document = fitz.open(pdf_file)for page_number in range(pdf_document.page_count):page = pdf_document.load_page(page_number)image = page.get_pixmap(matrix=fitz.Matrix(3, 3))image.save(output_folder + f'page_{page_number + 1}.jpg')pdf_document.close()# 读取pdf内的文本
def read_pdf_handle2(file_path):text = ""with pdfplumber.open(file_path) as pdf:for page in pdf.pages:text += page.extract_text() + "\n"return text# 读取pdf内的文本
def read_pdf_handle(file_path):# 打开 PDF 文件texts = ""with open(file_path, 'rb') as file:reader = PyPDF2.PdfReader(file)# 获取 PDF 文件中的页面数量num_pages = len(reader.pages)print(f'此PDF文件共有 {num_pages} 页')# 读取每一页的内容for page_number in range(num_pages):page = reader.pages[page_number]text = page.extract_text()texts += textreturn textsif __name__ == '__main__':print(read_pdf_handle("F:test\\5.pdf"))

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 详细介绍pytorch重要的API
  • 靠谱是性价比最高的社交名片:一个靠谱的人往往有这4种品质!
  • 算法的学习笔记—二叉树的镜像(牛客JZ27)
  • Spring 中ConfigurableBeanFactory
  • Redis的热key以及Big(大)key是什么?如何解决Redis的热key以及Big(大)key问题?
  • arcgis打开不同tif格式编码的栅格数据
  • 【卡码网Python基础课 21.图形的面积】
  • 高速信号的眼图、加重、均衡
  • Spire.PDF for .NET【文档操作】演示:检测 PDF 文件是否为 Portfolio
  • Airtest 的使用
  • 对比state和props的区别?
  • C语言——操作符详解
  • C++ STL sort_heap 用法
  • XSS---DOM破坏靶场复现
  • mybatisplus多数据源中关于不同类型的(mysql,oracle)数据库分页问题解决
  • 【Amaple教程】5. 插件
  • CSS 提示工具(Tooltip)
  • CSS选择器——伪元素选择器之处理父元素高度及外边距溢出
  • JavaScript HTML DOM
  • learning koa2.x
  • Nodejs和JavaWeb协助开发
  • Redash本地开发环境搭建
  • SpriteKit 技巧之添加背景图片
  • STAR法则
  • 阿里云前端周刊 - 第 26 期
  • 闭包,sync使用细节
  • 区块链技术特点之去中心化特性
  • 使用 Docker 部署 Spring Boot项目
  • 微信小程序实战练习(仿五洲到家微信版)
  • 微信支付JSAPI,实测!终极方案
  • 小试R空间处理新库sf
  • 中文输入法与React文本输入框的问题与解决方案
  • 继 XDL 之后,阿里妈妈开源大规模分布式图表征学习框架 Euler ...
  • #Js篇:单线程模式同步任务异步任务任务队列事件循环setTimeout() setInterval()
  • #pragma 指令
  • (13)DroneCAN 适配器节点(一)
  • (2022 CVPR) Unbiased Teacher v2
  • (24)(24.1) FPV和仿真的机载OSD(三)
  • (31)对象的克隆
  • (十八)三元表达式和列表解析
  • (四)docker:为mysql和java jar运行环境创建同一网络,容器互联
  • (算法)求1到1亿间的质数或素数
  • (一)使用IDEA创建Maven项目和Maven使用入门(配图详解)
  • (转)h264中avc和flv数据的解析
  • (轉貼) UML中文FAQ (OO) (UML)
  • ***原理与防范
  • .mp4格式的视频为何不能通过video标签在chrome浏览器中播放?
  • .Net 4.0并行库实用性演练
  • .Net Core 笔试1
  • .NET Core 实现 Redis 批量查询指定格式的Key
  • .NET HttpWebRequest、WebClient、HttpClient
  • .net SqlSugarHelper
  • .NET 读取 JSON格式的数据
  • .NET 事件模型教程(二)
  • .NET8使用VS2022打包Docker镜像