当前位置: 首页 > news >正文

使用Python通过字节串或字节数组加载和保存PDF文档

处理PDF文件的可以直接读取和写入文件系统中的PDF文件,然而,通过字节串(byte string)或字节数组(byte array)来加载和保存PDF文档在某些情况下更高效。这种方法不仅可以提高数据处理的灵活性,允许开发者在内存中直接操作PDF,而且还能增强安全性,同时方便跨应用传输和网络传输。
本文将介绍如何使用Python通过字节串或字节数组来加载和保存PDF文档

文章目录

    • 创建PDF文档并保存为字节串或字节数组
    • 从字节串或字节数组加载PDF文档进行操作

本文所使用的方法需要用到Spire.PDF for Python,PyPI:pip install Spire.PDF

创建PDF文档并保存为字节串或字节数组

我们可以使用库中的类和方法直接创建PDF文档,并将其保存到Stream对象。此对象可通过Stream.ToArray()方法转换为不可变的bytes对象进行操作。而bytes对象也可以直接转换为可变的bytearray对象,从而对文件进行字节层面的编辑或其他操作。以下是操作步骤:

  1. 导入所需模块。
  2. 创建PdfDocument对象。
  3. 设置PDF页面,添加页面并绘制内容。
  4. 使用PdfDocument.SaveToStream()方法将PDF文档保存到Stream对象。
  5. 使用Stream.ToArray()方法将Stream对象转换为bytes对象。
  6. 可使用bytes对象直接构建bytearray对象。
  7. 接下来可以字节串或字节数组进行更多操作,如写入文件、传输等。

代码示例

from spire.pdf import *# 创建PdfDocument类的一个实例
pdf = PdfDocument()# 设置文档的页面大小和边距
pageSettings = pdf.PageSettings
pageSettings.Size = PdfPageSize.A4()
pageSettings.Margins.Top = 50
pageSettings.Margins.Bottom = 50
pageSettings.Margins.Left = 40
pageSettings.Margins.Right = 40# 向文档添加一个新的页面
page = pdf.Pages.Add()# 为文档内容创建字体和画笔
titleFont = PdfTrueTypeFont("HarmonyOS Sans SC", 16.0, PdfFontStyle.Bold, True)
titleBrush = PdfBrushes.get_Brown()
contentFont = PdfTrueTypeFont("HarmonyOS Sans SC", 13.0, PdfFontStyle.Regular, True)
contentBrush = PdfBrushes.get_Black()# 在页面上绘制标题
titleText = "人工智能简介"
titleSize = titleFont.MeasureString(titleText)
page.Canvas.DrawString(titleText, titleFont, titleBrush, PointF(0.0, 30.0))# 在页面上绘制正文文本
contentText = ("人工智能(AI)是计算机科学的一个分支,它旨在创造能够模拟人类智能行为的机器。这包括学习(通过经验改进自身)、推理(使用规则来达到近似或确定性的结论)、自我修正等特性。AI的应用范围广泛,从简单的任务自动化到复杂的决策支持系统均有涉及。")
# 设置正文文本的格式
contentFormat = PdfStringFormat()
contentFormat.Alignment = PdfTextAlignment.Justify
contentFormat.LineSpacing = 20.0
# 使用正文文本创建一个TextWidget对象并应用字符串格式
textWidget = PdfTextWidget(contentText, contentFont, contentBrush)
textWidget.StringFormat = contentFormat
# 创建一个TextLayout对象并设置布局选项
textLayout = PdfTextLayout()
textLayout.Layout = PdfLayoutType.Paginate
textLayout.Break = PdfLayoutBreakType.FitPage
# 在页面上绘制TextWidget
rect = RectangleF(PointF(0.0, titleSize.Height + 50.0), page.Canvas.ClientSize)
textWidget.Draw(page, rect, textLayout)# 将PDF文档保存到一个Stream对象
pdfStream = Stream()
pdf.SaveToStream(pdfStream)# 将Stream对象转换为bytes对象
pdfBytes = pdfStream.ToArray()# 将Stream对象转换为bytearray对象
pdfBytearray = bytearray(pdfStream.ToArray())# 将字节流写入文件
with open("output/AI简介.pdf", "wb") as f:f.write(pdfBytearray)

结果
Python创建PDF文档并保存为字节

从字节串或字节数组加载PDF文档进行操作

Stream类支持用bytes对象(或bytearray直接转换为bytes)直接构建实例。然后,我们可以使用PdfDocument.LoadFromStream()方法将Stream对象载入为PDF文档进行文档操作,如编辑、转换等。以下是操作步骤:

  1. 导入所需模块。
  2. 创建bytes对象或使用现有bytes对象,来构建Stream对象。
  3. 创建PdfDocument对象。
  4. 使用PdfDocument.LoadFromStream()方法将Stream对象载入为PDF文档。
  5. 对文档进行操作,如提取页面文字。

代码示例

from spire.pdf import *# 从PDF文件创建一个字节数组
with open("示例.pdf", "rb") as f:byteData = f.read()# 从字节数组创建一个Stream对象
stream = Stream(byteData)# 将Stream对象加载为PDF文档
pdf = PdfDocument(stream)# 获取第一页的文字
page = pdf.Pages.get_Item(0)
textExtractor = PdfTextExtractor(page)
extractOptions = PdfTextExtractOptions()
extractOptions.IsExtractAllText = True
text = textExtractor.ExtractText(extractOptions)# 打印文字
print(text)

结果
Python从字节载入PDF文档进行操作

本文演示了如何使用Python通过字节串或字节数组加载或保存PDF文档。

更多PDF文档操作技巧请前往Spire.PDF for Python教程查看。

申请免费License

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 2. 卷积神经网络(CNN):图像识别的核心技术
  • 姨m纸(Java支付)技术与AI应用市场功能详解【AI项目】
  • 数据库MySQL基础
  • Android调整第三方库PickerView宽高--回忆录
  • 算法篇_C语言实现霍夫曼编码算法
  • Hive SQL基础语法及查询实践
  • python画图|垂线标记系列
  • PDF样本图册转换为一个链接,随时打开无需印刷
  • 在嵌入式板子上搭建和自定义live555服务器---编译问题和方法整理
  • windows python的jupyter的安装教程
  • s3c2440---ADC模数转换器
  • 微信小程序路由跳转之间的区别
  • 【知识图谱】4、LLM大模型结合neo4j图数据库实现AI问答的功能
  • 会员营销如何利用JSON发送短信
  • 网络安全宗旨和目标
  • Consul Config 使用Git做版本控制的实现
  • ES6系列(二)变量的解构赋值
  • ESLint简单操作
  • Java的Interrupt与线程中断
  • mysql中InnoDB引擎中页的概念
  • PHP的类修饰符与访问修饰符
  • ReactNative开发常用的三方模块
  • Spring Cloud Feign的两种使用姿势
  • Tornado学习笔记(1)
  • 让你成为前端,后端或全栈开发程序员的进阶指南,一门学到老的技术
  • 如何设计一个微型分布式架构?
  • 微信小程序实战练习(仿五洲到家微信版)
  • 验证码识别技术——15分钟带你突破各种复杂不定长验证码
  • 一些css基础学习笔记
  • 栈实现走出迷宫(C++)
  • ​七周四次课(5月9日)iptables filter表案例、iptables nat表应用
  • # 飞书APP集成平台-数字化落地
  • #C++ 智能指针 std::unique_ptr 、std::shared_ptr 和 std::weak_ptr
  • #define MODIFY_REG(REG, CLEARMASK, SETMASK)
  • ( )的作用是将计算机中的信息传送给用户,计算机应用基础 吉大15春学期《计算机应用基础》在线作业二及答案...
  • (1)无线电失控保护(二)
  • (Redis使用系列) Springboot 使用Redis+Session实现Session共享 ,简单的单点登录 五
  • (待修改)PyG安装步骤
  • (附程序)AD采集中的10种经典软件滤波程序优缺点分析
  • (附源码)计算机毕业设计ssm基于B_S的汽车售后服务管理系统
  • (七)Java对象在Hibernate持久化层的状态
  • (亲测有效)解决windows11无法使用1500000波特率的问题
  • (十三)Flask之特殊装饰器详解
  • (一)Kafka 安全之使用 SASL 进行身份验证 —— JAAS 配置、SASL 配置
  • (转) Android中ViewStub组件使用
  • (转)项目管理杂谈-我所期望的新人
  • (最新)华为 2024 届秋招-硬件技术工程师-单板硬件开发—机试题—(共12套)(每套四十题)
  • .NET 8 跨平台高性能边缘采集网关
  • .net core 实现redis分片_基于 Redis 的分布式任务调度框架 earth-frost
  • .net core 源码_ASP.NET Core之Identity源码学习
  • .Net Remoting常用部署结构
  • .NET 表达式计算:Expression Evaluator
  • .NET设计模式(8):适配器模式(Adapter Pattern)
  • .net专家(张羿专栏)
  • /bin/bash^M: bad interpreter: No such file or directory