当前位置: 首页 > news >正文

100天精通Python(实用脚本篇)——第113天:基于Tesseract-OCR实现OCR图片文字识别实战

文章目录

  • 专栏导读
  • 1. OCR技术介绍
  • 2. 模块介绍
  • 3. 模块安装
  • 4. 代码实战
    • 4.1 英文图片测试
    • 4.2 数字图片测试
    • 4.3 中文图片识别
  • 书籍分享

专栏导读

🔥🔥本文已收录于《100天精通Python从入门到就业》:本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学,从0到100的不断进阶深入,后续还有实战项目,轻松应对面试,专栏订阅地址:https://blog.csdn.net/yuan2019035055/category_11466020.html

  • 优点订阅限时9.9付费专栏进入千人全栈VIP答疑群,作者优先解答机会(代码指导、远程服务),群里大佬众多可以抱团取暖(大厂内推机会)
  • 专栏福利简历指导、招聘内推、每周送实体书、80G全栈学习视频、300本IT电子书:Python、Java、前端、大数据、数据库、算法、爬虫、数据分析、机器学习、面试题库等等
    在这里插入图片描述
    在这里插入图片描述

1. OCR技术介绍

OCR,即光学字符识别(Optical Character Recognition),是一种将印刷体字符转化为计算机可读文字的技术。OCR技术可以将纸质文档、扫描文档、照片等转化为可编辑的电子文件,方便用户进行编辑、存储和共享。

OCR技术的应用范围非常广泛。例如,银行和保险公司可以使用OCR技术来处理各种表格和文件,包括支票、发票、合同等,从而提高办公效率。医院可以使用OCR技术来处理病历、处方和医学报告,从而提高医疗质量和效率。政府机构可以使用OCR技术来处理各种表格和文件,例如税务申报表、选民登记表等,从而提高政府服务的效率和质量。

OCR技术的原理是利用光学扫描仪将纸质文档转化为数字图像,然后通过图像处理算法将图像中的字符识别出来,并转化为计算机可读的文字。OCR技术的核心是字符识别算法,这个算法需要考虑到各种字体、字号、字距、倾斜度、噪声等因素。

OCR技术的发展历史可以追溯到20世纪50年代,当时的OCR技术只能处理单一字体、字号、字距的文本。随着计算机技术的不断发展,OCR技术也不断进步,现在的OCR技术能够处理各种字体、字号、字距、倾斜度、噪声等复杂条件下的文本,并且具备高精度和高速度的特点。

总之,OCR技术是一种非常实用的技术,可以帮助用户将纸质文档转化为电子文件,从而提高办公效率和工作质量。随着计算机技术的不断进步,OCR技术也将不断发展,为用户提供更加高效和便捷的服务。

2. 模块介绍

Tesseract OCR(Optical Character Recognition)是一个免费的开源OCR引擎,由Google开发和维护。它能够识别图像中的文本,并将其转换为可编辑和可搜索的文本格式。Tesseract支持超过100种语言的文本识别,并且具有高度的准确性和可扩展性。

3. 模块安装


1、安装Tesseract、Tesseract、Pillow模块,可以使用以下命令:

pip install pytesseract
pip install pillow
pip install tesseract-ocr # 如果这个安装报错就用下面的手动安装方法

2、从网上找到相应的‘Tesseract-OCR’下载安装(自行寻找对应版本):https://digi.bib.uni-mannheim.de/tesseract/
在这里插入图片描述

3、无脑默认安装即可

4、安装后的默认文件路径为(这里使用的是Windows版本)C:\Program Files\Tesseract-OCR\

在这里插入图片描述

4. 代码实战

4.1 英文图片测试

1. 测试图片准备:

在这里插入图片描述

2、修改下面的Tesseract-OCR的安装路径和图片路径:

import cv2
import pytesseract# 1. 找到Tesseract-OCR的安装路径
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'# 2. 图片的路径(注意:图片路径不能有中文
img = cv2.imread(r'English.png')# 3. 对图片进行灰度处理
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)# 4. 提取字符串
text = pytesseract.image_to_string(gray)# 5. 打印字符串
print(text)

3、运行结果,识别成功:
在这里插入图片描述

4.2 数字图片测试

  1. 测试图片准备:

在这里插入图片描述

2、修改下面的Tesseract-OCR的安装路径和图片路径:

import cv2
import pytesseract# 1. 找到Tesseract-OCR的安装路径
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'# 2. 图片的路径(注意:图片路径不能有中文
img = cv2.imread(r'number.png')# 3. 对图片进行灰度处理
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)# 4. 提取字符串
text = pytesseract.image_to_string(gray)# 5. 打印字符串
print(text)

3、运行结果,识别成功:

在这里插入图片描述

4.3 中文图片识别

注意:上面的代码不能直接识别中文,我们需要下载中文语言包

1、下载下面的4个中文语言包文件,复制到Tesseract-OCR安装目录tessdata文件夹里:https://gitcode.com/tesseract-ocr/tessdata/overview

chi_sim.traineddata
chi_sim_vert.traineddata
chi_tra.traineddata
chi_tra_vert.traineddata

在这里插入图片描述

网速慢的小伙伴们,博主这里为大家下载好了,搜索公众号:袁袁袁袁满,回复:tessdata,即可:

在这里插入图片描述

2、将下载好的中文语言包复制在Tesseract-ocr安装路径的tessdata文件夹里:

在这里插入图片描述

3、准备图片:

在这里插入图片描述

4、与之前代码区别在于设置了中文语言包:

import cv2
import pytesseract# 1. 找到Tesseract-OCR的安装路径
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'# 2. 图片的路径(注意:图片路径不能有中文
img = cv2.imread(r'Chinese.png')# 3. 对图片进行灰度处理
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)# 4. 提取字符串,并设置为中文
lang = 'chi_sim'
text = pytesseract.image_to_string(gray,lang)# 5. 打印字符串
print(text)

5、运行结果,提取成功:
在这里插入图片描述

书籍分享

《Web前端开发全程实战》
在这里插入图片描述

《Web前端开发全程实战——HTML5+CSS3+JavaScript+jQuery+Bootstrap》从初学者角度出发,结合大量实例讲解了如何使用HTML5、CSS3、JavaScript、jQuery、Ajax、Boostrap、Vue、PHP 等基本技术搭建Web 前端,力求向读者提供一套极简的Web 前端一站式高效学习方案。全书共28 章,内容包括HTML5基础、设计HTML5 文档结构、设计HTML5 文本、设计HTML5 图像和多媒体、设计列表和超链接、设计表格和表单、CSS3 基础、设计文本样式、设计特效和动画样式、CSS 页面布局、JavaScript 基础、处理字符串、使用数组、使用函数、使用对象、jQuery 基础、文档操作、事件处理、使用Ajax、CSS 样式操作、jQuery 动画、Bootstrap基础、CSS 组件、JavaScript 插件、使用Vue、PHP 基础、使用PHP 与网页交互、使用PDO 操作数据库、项目实战。书中所有知识点均结合具体实例展开讲解,代码注释详尽,可使读者轻松掌握前端技术精髓,提升实际开发能力。

本书特色:30万+读者体验,畅销丛书新增精品;10年开发教学经验,一线讲师半生心血。

京东地址:https://item.jd.com/13512401.html

相关文章:

  • 蓝桥杯官网填空题(海盗与金币)
  • 【C++】类和对象
  • MyBatis 的XML实现方法(JAVA)
  • Android 基础技术——addView 流程
  • vue+elenemt分页+springboot
  • 幻读是什么,用什么隔离级别可以防止幻读?
  • 解决Windows下VSCode控制台乱码问题
  • 一文了解GeoTrust SSL证书
  • Win10/11中VMware Workstation设置网络桥接模式
  • 【Linux】基本指令收尾
  • Win10下在Qt项目中配置SQlite3环境
  • Conmi的正确答案——eclipse C/C++显示“未解析的包含:<xxx.h>”/“Unresolved inclusion: <xxx.h>”
  • Jupyter Notebook五分钟基础速通
  • 自建ES集群
  • k8s的包管理工具helm
  • -------------------- 第二讲-------- 第一节------在此给出链表的基本操作
  • JavaScript设计模式与开发实践系列之策略模式
  • React 快速上手 - 06 容器组件、展示组件、操作组件
  • Vue UI框架库开发介绍
  • 彻底搞懂浏览器Event-loop
  • 从0到1:PostCSS 插件开发最佳实践
  • 分享自己折腾多时的一套 vue 组件 --we-vue
  • 关于Java中分层中遇到的一些问题
  • 技术:超级实用的电脑小技巧
  • 前端代码风格自动化系列(二)之Commitlint
  • 如何优雅的使用vue+Dcloud(Hbuild)开发混合app
  • 微信小程序实战练习(仿五洲到家微信版)
  • 我是如何设计 Upload 上传组件的
  • 在GitHub多个账号上使用不同的SSH的配置方法
  • 06-01 点餐小程序前台界面搭建
  • RDS-Mysql 物理备份恢复到本地数据库上
  • #{}和${}的区别?
  • #DBA杂记1
  • $.ajax()参数及用法
  • $GOPATH/go.mod exists but should not goland
  • (1)(1.13) SiK无线电高级配置(六)
  • (MATLAB)第五章-矩阵运算
  • (附源码)springboot优课在线教学系统 毕业设计 081251
  • (六) ES6 新特性 —— 迭代器(iterator)
  • (十) 初识 Docker file
  • (算法二)滑动窗口
  • (循环依赖问题)学习spring的第九天
  • (一)Neo4j下载安装以及初次使用
  • @data注解_一枚 架构师 也不会用的Lombok注解,相见恨晚
  • [ IOS ] iOS-控制器View的创建和生命周期
  • [].shift.call( arguments ) 和 [].slice.call( arguments )
  • [2019.3.5]BZOJ1934 [Shoi2007]Vote 善意的投票
  • [BZOJ 3531][Sdoi2014]旅行(树链剖分+线段树)
  • [C#]winform部署yolov5-onnx模型
  • [c#基础]DataTable的Select方法
  • [C++][数据结构][算法]单链式结构的深拷贝
  • [C++]C++基础知识概述
  • [ICCV2017]Neural Person Search Machines
  • [LeeCode]-Divide Two Integers 不用乘除的除法运算
  • [Linux]——彻底学通权限