当前位置: 首页 > news >正文

Docker 部署 OCRmyPDF、提取PDF内容

 一、镜像导入

# 拉取镜像
docker pull jbarlow83/ocrmypdf# 导出镜像
docker save -o /data/ocrmypdf/ocrmypdf.tar jbarlow83/ocrmypdf:latest
# 导入镜像
docker load -i ocrmypdf.tar

 二、调取镜像

# 【调用镜像】(以下2选1)# 1-执行后删除容器【官方推荐】
docker run --rm -it -v /data:/data jbarlow83/ocrmypdf /data/ocrmypdf/test/test.pdf /data/ocrmypdf/test/output.pdf --skip-text -l chi_sim# 2-保留容器
docker run -itd -v  /data:/data --name="zc-pdfocr-1"  --entrypoint python -p 5000:5000  jbarlow83/ocrmypdf webservice.py# 固定容器名称调用
docker exec zc-pdfocr-1 ocrmypdf  /data/ocrmypdf/test/test.pdf /data/ocrmypdf/test/output.pdf --skip-text -l chi_sim

 以上完成了:【图片类型的pdf】 向 【文本类型的pdf】 的转换。

至此,可以二次调用 PdfToContent 方法,进行PDF内容的提取。

三、拓展:PdfToContent        (golang抽取pdf内容)

package pdfimport ("bytes""github.com/ledongthuc/pdf"
)func PdfToContent(filePath string) (result string, err error) {f, r, err := pdf.Open(filePath)// remember close fileif err != nil {return}defer f.Close()var buf bytes.Bufferb, err := r.GetPlainText()if err != nil {return}_, err = buf.ReadFrom(b)if err != nil {return}result = buf.String()return
}

相关文章:

  • 实时数据传输:Django 与 MQTT 的完美结合
  • 【AIoT-Robot】3d hand pose
  • 【赠书活动】好书推荐—《详解51种企业应用架构模式》
  • 【十年java搬砖路】Jumpserver docker版安装及配置Ldap登陆认证
  • Flink中因java的泛型擦除导致的报错及解决
  • 上传图片并显示#Vue3#后端接口数据
  • 酷得单片机方案 2.4G儿童遥控漂移车
  • 徐州服务器机柜租用的好处
  • vue从入门到精通(六):数据代理
  • 智慧社区信息化建设整体解决方案(PPT原件获取及软件各类建设方案)
  • 自定义类型详解(结构体,位段,枚举,联合体)
  • Appium安装及配置(Windows环境)
  • 网络工程师---第四十六天
  • 操作系统笔记(1)进程相关
  • Ubuntu20.04安装ffmpeg,并捕获视频流
  • 「前端」从UglifyJSPlugin强制开启css压缩探究webpack插件运行机制
  • Debian下无root权限使用Python访问Oracle
  • JavaScript HTML DOM
  • Java应用性能调优
  • k8s如何管理Pod
  • Lsb图片隐写
  • Nodejs和JavaWeb协助开发
  • react-native 安卓真机环境搭建
  • Redis学习笔记 - pipline(流水线、管道)
  • SegmentFault 社区上线小程序开发频道,助力小程序开发者生态
  • tensorflow学习笔记3——MNIST应用篇
  • Terraform入门 - 3. 变更基础设施
  • vue-cli在webpack的配置文件探究
  • Vue组件定义
  • Work@Alibaba 阿里巴巴的企业应用构建之路
  • 第2章 网络文档
  • 短视频宝贝=慢?阿里巴巴工程师这样秒开短视频
  • 官方解决所有 npm 全局安装权限问题
  • 排序(1):冒泡排序
  • 如何解决微信端直接跳WAP端
  • 使用Tinker来调试Laravel应用程序的数据以及使用Tinker一些总结
  • 适配iPhoneX、iPhoneXs、iPhoneXs Max、iPhoneXr 屏幕尺寸及安全区域
  • 优化 Vue 项目编译文件大小
  • #etcd#安装时出错
  • #pragam once 和 #ifndef 预编译头
  • #我与Java虚拟机的故事#连载03:面试过的百度,滴滴,快手都问了这些问题
  • (vue)el-checkbox 实现展示区分 label 和 value(展示值与选中获取值需不同)
  • (附源码)spring boot北京冬奥会志愿者报名系统 毕业设计 150947
  • (附源码)ssm捐赠救助系统 毕业设计 060945
  • (附源码)ssm考生评分系统 毕业设计 071114
  • (附源码)计算机毕业设计ssm基于Internet快递柜管理系统
  • (十八)devops持续集成开发——使用docker安装部署jenkins流水线服务
  • (十一)图像的罗伯特梯度锐化
  • (五)关系数据库标准语言SQL
  • (转) RFS+AutoItLibrary测试web对话框
  • (转)详解PHP处理密码的几种方式
  • (轉貼) 蒼井そら挑戰筋肉擂台 (Misc)
  • ****** 二 ******、软设笔记【数据结构】-KMP算法、树、二叉树
  • *ST京蓝入股力合节能 着力绿色智慧城市服务
  • .cn根服务器被攻击之后