当前位置: 首页 > news >正文

python 获取pdf文件中的超链接

pip install pymupdf
pip install fitzimport fitz  # PyMuPDFdef get_pdf_links(pdf_path):# 打开PDF文件document = fitz.open(pdf_path)links = []for page_num in range(len(document)):page = document[page_num]# 获取当前页面的链接for link in page.get_links():links.append((page_num, link))document.close()return links
link=get_pdf_links(pdf_path)
print(link)

如图所示
在这里插入图片描述

这段代码会打开指定的PDF文件,遍历每一页,并获取每一页上的超链接。每个链接是一个元组,包含页码(从0开始)和链接的字符串

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 14、springboot3 vue3开发平台-前端-自定义菜单组件,根据路由动态渲染
  • 如何保证Redis缓存和数据库的数据一致性
  • Redmi 13C 5G 红米13R 5G 解锁BL 降级 MIUI 秒解锁BL 澎湃OS 降级
  • 8-5 循环神经网络 RNN 的实现
  • 利用java结合python实现gis在线绘图,主要技术java+python+matlab+idw+Kriging
  • 【JAVA基础】从内部类引用的局部变量必须是final或有效的final
  • 86.小米相机修改拍照(尺寸,画幅,比例)的方法
  • SAP B1系统设置和管理——数据所有权权限
  • 技术革新!MultiDesk:高效远程桌面管理工具,TAB切换引领新潮流!
  • 24/8/18算法笔记 MARL多智能体算法
  • 【免费】企业级大模型应用推荐:星环科技无涯·问知
  • 解决firefly rk3399使用ffmpeg硬解码rga报错的问题
  • PHP中如何将变量从函数传递给acf_add_filter
  • Golang基于DTM的分布式事务SAGA实战
  • 微前端架构:使用不同框架构建可扩展的大型应用
  • 《用数据讲故事》作者Cole N. Knaflic:消除一切无效的图表
  • github从入门到放弃(1)
  • nfs客户端进程变D,延伸linux的lock
  • node 版本过低
  • OSS Web直传 (文件图片)
  • vue--为什么data属性必须是一个函数
  • 安卓应用性能调试和优化经验分享
  • 分布式任务队列Celery
  • 利用阿里云 OSS 搭建私有 Docker 仓库
  • 前端路由实现-history
  • 网页视频流m3u8/ts视频下载
  • 用Node EJS写一个爬虫脚本每天定时给心爱的她发一封暖心邮件
  • 远离DoS攻击 Windows Server 2016发布DNS政策
  • 智能合约Solidity教程-事件和日志(一)
  • Oracle Portal 11g Diagnostics using Remote Diagnostic Agent (RDA) [ID 1059805.
  • 如何通过报表单元格右键控制报表跳转到不同链接地址 ...
  • 曜石科技宣布获得千万级天使轮投资,全方面布局电竞产业链 ...
  • ​LeetCode解法汇总2808. 使循环数组所有元素相等的最少秒数
  • ​软考-高级-系统架构设计师教程(清华第2版)【第15章 面向服务架构设计理论与实践(P527~554)-思维导图】​
  • #window11设置系统变量#
  • (接上一篇)前端弄一个变量实现点击次数在前端页面实时更新
  • (力扣)循环队列的实现与详解(C语言)
  • (三)Hyperledger Fabric 1.1安装部署-chaincode测试
  • (三)SvelteKit教程:layout 文件
  • (转) Android中ViewStub组件使用
  • ***php进行支付宝开发中return_url和notify_url的区别分析
  • **PHP分步表单提交思路(分页表单提交)
  • **python多态
  • .【机器学习】隐马尔可夫模型(Hidden Markov Model,HMM)
  • .htaccess配置常用技巧
  • .NET Core中Emit的使用
  • .NET LINQ 通常分 Syntax Query 和Syntax Method
  • [000-01-030].Zookeeper学习大纲
  • [2]十道算法题【Java实现】
  • [20160807][系统设计的三次迭代]
  • [3300万人的聊天室] 作为产品的上游公司该如何?
  • [ABP实战开源项目]---ABP实时服务-通知系统.发布模式
  • [AI]文心一言出圈的同时,NLP处理下的ChatGPT-4.5最新资讯
  • [BZOJ] 1001: [BeiJing2006]狼抓兔子
  • [C#学习笔记]LINQ