当前位置: 首页 > news >正文

基于MinerU的PDF解析API

基于MinerU的PDF解析API

- MinerU的GPU镜像构建
- 基于FastAPI的PDF解析接口

支持一键启动,已经打包到镜像中,自带模型权重,支持GPU推理加速,GPU速度相比CPU每页解析要快几十倍不等

主要功能

  • 删除页眉、页脚、脚注、页码等元素,保持语义连贯
  • 对多栏输出符合人类阅读顺序的文本
  • 保留原文档的结构,包括标题、段落、列表等
  • 提取图像、图片标题、表格、表格标题
  • 自动识别文档中的公式并将公式转换成latex
  • 自动识别文档中的表格并将表格转换成latex
  • 乱码PDF自动检测并启用OCR
  • 支持CPU和GPU环境
  • 支持windows/linux/mac平台

具体原理

请见PDF-Extract-Kit:https://github.com/opendatalab/PDF-Extract-Kit/blob/main/README-zh_CN.md
PDF文档中包含大量知识信息,然而提取高质量的PDF内容并非易事。为此,我们将PDF内容提取工作进行拆解:

  • 布局检测:使用LayoutLMv3模型进行区域检测,如图像,表格,标题,文本等;
  • 公式检测:使用YOLOv8进行公式检测,包含行内公式和行间公式;
  • 公式识别:使用UniMERNet进行公式识别;
  • 表格识别:使用StructEqTable进行表格识别;
  • 光学字符识别:使用PaddleOCR进行文本识别;

镜像地址:

阿里云地址:docker pull registry.cn-beijing.aliyuncs.com/quincyqiang/mineru:0.2-models

dockerhub地址:docker pull quincyqiang/mineru:0.2-models

启动命令:

docker run -itd --name=mineru_server --gpus=all -p 8888:8000 quincyqiang/mineru:0.2-models

具体截图请见博客:https://blog.csdn.net/yanqianglifei/article/details/141979684

启动日志:

输入参数:

访问地址:

http://localhost:8888/docshttp://127.0.01:8888/docs

解析效果:

返回内容字段包括:dict_keys([‘layout’, ‘info’, ‘content’])
其中content是一个字典列表:

{'type': 'text', 'text': '现在我们知道:价值实体就是劳动;劳动量的尺度就是劳动持续时间。', 'page_idx': 5
}

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • AUC真的什么情形下都适合吗
  • COD论文笔记 BiRefNet
  • Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering)
  • Python | Leetcode Python题解之第386题字典序排数
  • 图文解析保姆级教程:Postman专业接口测试工具的安装和基本使用
  • ChatGPT 3.5/4.0使用手册:解锁人工智能的无限潜能
  • nginx配置负载均衡的几种方式
  • 快手的视频素材去哪找?快手视频素材在哪里找啊
  • 【排序算法】六、快速排序补充:三指针+随机数法
  • Bat的退役前
  • 0基础学习爬虫系列:Python环境搭建
  • Java 中的双冒号“::”
  • ubuntu 20.04 部署standalone dolphinscheduler
  • Shell编程基础
  • HTML 转 PDF API 接口
  • AHK 中 = 和 == 等比较运算符的用法
  • Android交互
  • centos安装java运行环境jdk+tomcat
  • Elasticsearch 参考指南(升级前重新索引)
  • iOS | NSProxy
  • MYSQL如何对数据进行自动化升级--以如果某数据表存在并且某字段不存在时则执行更新操作为例...
  • Netty源码解析1-Buffer
  • tab.js分享及浏览器兼容性问题汇总
  • vue.js框架原理浅析
  • Vue--数据传输
  • 初识 webpack
  • 从tcpdump抓包看TCP/IP协议
  • 动手做个聊天室,前端工程师百无聊赖的人生
  • 开发基于以太坊智能合约的DApp
  • 区块链将重新定义世界
  • 思否第一天
  • 算法---两个栈实现一个队列
  • 算法-图和图算法
  • 微信端页面使用-webkit-box和绝对定位时,元素上移的问题
  • 我这样减少了26.5M Java内存!
  • 由插件封装引出的一丢丢思考
  • JavaScript 新语法详解:Class 的私有属性与私有方法 ...
  • 如何在招聘中考核.NET架构师
  • ​​​【收录 Hello 算法】9.4 小结
  • ​用户画像从0到100的构建思路
  • #Datawhale AI夏令营第4期#AIGC方向 文生图 Task2
  • #ifdef 的技巧用法
  • #我与Java虚拟机的故事#连载04:一本让自己没面子的书
  • (DFS + 剪枝)【洛谷P1731】 [NOI1999] 生日蛋糕
  • (转)C#调用WebService 基础
  • (转)ORM
  • .Net Winform开发笔记(一)
  • .NetCore发布到IIS
  • /etc/sudoer文件配置简析
  • []我的函数库
  • [2016.7 day.5] T2
  • [240727] Qt Creator 14 发布 | AMD 推迟 Ryzen 9000芯片发布
  • [3300万人的聊天室] 作为产品的上游公司该如何?
  • [android学习笔记]学习jni编程
  • [AX]AX2012开发新特性-禁止表或者表字段