当前位置：首页 > news >正文

Python 识别图片形式pdf的尝试（未解决）

news 来源：原创 2024/9/29 7:29:47

想识别出pdf页面右下角某处的编号。pdf是图片形式页面。查了下方法，有源码是先将页面提取成jpg，再用pytesseract提取图片文件中的内容。

直接用图片来识别。纯数字的图片，如条形码，可识别。带中文的不可以，很乱。

识别为：

如何形成wps图片中的文字识别效果呢？

import pytesseract
from PIL import Imagedef extract_text_from_image(image_path):image = Image.open(image_path)text = pytesseract.image_to_string(image)return textimage_path = r"D:\11.png"
text = extract_text_from_image(image_path)
print(f"图片内容:\n{text}\n")

相关文章：

【JSP】如何在IDEA上部署JSP WEB开发项目

贪心算法-加油站

c#与汇川plc通信

STM32 HAL库开发——入门篇（3）：OLED、LCD

骑砍2霸主MOD开发(11)-瓦兰迪亚火骑兵

k8s使用yml文件部署

【Vue】——组件的注册与引用

默认launcher

鸿蒙OS初识

Python的Pillow（图像处理库）的一些学习笔记

docker实战命令大全

【Python】使用flask作为web服务器

“薅羊毛”到被“割韭菜”，警惕网络副业陷井

基于电荷的EPFL HEMT模型

使用Ollama+OpenWebUI本地部署Gemma谷歌AI开放大模型完整指南

ES6系统学习----从Apollo Client看解构赋值

Git同步原始仓库到Fork仓库中

java第三方包学习之lombok

React+TypeScript入门

vue和cordova项目整合打包，并实现vue调用android的相机的demo

产品三维模型在线预览

第三十一到第三十三天：我是精明的小卖家（一）

个人博客开发系列：评论功能之GitHub账号OAuth授权

力扣(LeetCode)56

马上搞懂 GeoJSON

前端性能优化--懒加载和预加载

协程

Java数据解析之JSON

大数据全解：定义、价值及挑战

ArcGIS Pro 如何批量删除字段

html.parser --- 简单的 HTML 和 XHTML 解析器

LeetCode解法汇总2583. 二叉树中的第 K 大层和

RecSys 2022 | 面向人岗匹配的双向选择偏好建模

# Java NIO（一）FileChannel

# 计算机视觉入门

#[Composer学习笔记]Part1:安装composer并通过composer创建一个项目

#Js篇：单线程模式同步任务异步任务任务队列事件循环setTimeout() setInterval()

#我与Java虚拟机的故事#连载07：我放弃了对JVM的进一步学习

#在 README.md 中生成项目目录结构

(+3)1.3敏捷宣言与敏捷过程的特点

（02）vite环境变量配置

（1）安装hadoop之虚拟机准备（配置IP与主机名）

(C++20) consteval立即函数

（javaweb）Http协议

（ZT）出版业改革：该死的死，该生的生

（顶刊）一个基于分类代理模型的超多目标优化算法

(分布式缓存)Redis分片集群

（分享）一个图片添加水印的小demo的页面，可自定义样式

(附源码)springboot宠物管理系统毕业设计 121654

（机器学习的矩阵）（向量、矩阵与多元线性回归）

（论文阅读31/100）Stacked hourglass networks for human pose estimation

（篇九）MySQL常用内置函数

(使用vite搭建vue3项目（vite + vue3 + vue router + pinia + element plus）)

（顺序）容器的好伴侣 --- 容器适配器

（五）大数据实战——使用模板虚拟机实现hadoop集群虚拟机克隆及网络相关配置