当前位置: 首页 > news >正文

OCR调研

OCR调研

一、介绍

OCR(Optical Character Recognition,光学字符识别)是一种将图像中的文字转换为计算机可处理格式的技术。OCR技术经历了从传统OCR到基于深度学习的OCR的转变。深度学习OCR技术通过模拟人脑神经元结构处理文本和图像数据,相较于传统OCR,在复杂场景下的识别性能和速度有显著提升。它在金融、保险、医疗、交通、教育等多个行业中有广泛应用,并随着人工智能技术的发展,OCR技术的性能不断提升,应用场景也日益复杂化。

二、开源项目

1 PaddleOCR

项目地址:https://github.com/PaddlePaddle/PaddleOCR

PaddleOCR文档:https://paddlepaddle.github.io/PaddleOCR/

百度开源项目,文档完善。PaddleOCR 旨在打造一套丰富、领先、且实用的 OCR 工具库,助力使用者训练出更好的模型,并应用落地。

优点:准确率高,支持多语言,支持多种 OCR 相关前沿算法,支持自训练,支持倾斜、竖排等多种方向文字识别

缺点:偏向中文识别,语言支持有限

部署:本地部署、云端部署、docker

image-20240805103722815

image-20240805103735532

2 Tesseract

项目地址:https://github.com/tesseract-ocr/tesseract

优点:由Google维护,支持超过100种语言的识别,并且能够处理多种图像格式,如PNG、JPEG和TIFF等。提供了丰富的API接口和文档,支持多种操作系统。

缺点:速度慢

部署:安装Tesseract OCR(Windows/Linux)、配置环境变量

image-20240805105047158

image-20240805105102595

3 EasyOCR

项目地址:https://github.com/JaidedAI/EasyOCR

优点:全语种的(包括70+门外语识别),不单单针对中文

缺点:速度慢,官方推荐支持CUDA的独立显卡可以提高运行效率。

部署:pip安装,只能linux/windows下运行。

image-20240805102554993

image-20240805102827516

4 chineseocr

基于yolo3 与crnn 实现中文自然场景文字检测及识别

项目地址:https://github.com/chineseocr/chineseocr

优点:支持补充训练,有多版本优化模型

缺点:使用的三方库较老,部分三方库已废弃,环境配置困难,效果一般,且很少维护

image-20240805132438973

5 chineseocr_lite

超轻量级中文ocr,支持竖排文字识别, 支持ncnn、mnn、tnn推理 ( dbnet(1.8M) + crnn(2.5M) + anglenet(378KB)) 总模型仅4.7M

项目地址:https://github.com/DayBreak-u/chineseocr_lite

优点:轻量模型,执行速度快,准确率高

缺点:不支持pip安装,不支持补充训练,不支持自定义训练;不支持复杂、不常见字符,比如德语、法语;竖向文本识别错误。

部署:源码下载运行

image-20240805133229764

6 CnOCR

CnOCR 是 Python 3 下的文字识别(Optical Character Recognition,简称OCR)工具包,支持简体中文、繁体中文(部分模型)、英文和数字的常见字符识别,支持竖排文字的识别。自带了20+个训练好的识别模型,适用于不同应用场景,安装后即可直接使用。同时,CnOCR也提供简单的训练命令供使用者训练自己的模型。

项目地址:https://github.com/breezedeus/cnocr

文档:https://cnocr.readthedocs.io/zh-cn/stable/

优点:轻量模型,执行速度快,效果好,支持训练自己的模型

缺点:部分符号识别效果差,部分场景下会出现空格丢失情况

部署:pip

image-20240805132725772

image-20240805132737689

7 RapidOCR

目前已知运行速度最快、支持最广,完全开源免费并支持离线快速部署的多平台多语言OCR。主打ONNXRuntime推理引擎推理,比Paddle推理引擎速度有4~5倍提升,且没有内存泄露问题。

项目地址:https://github.com/RapidAI/RapidOCR

部署:pip

image-20240805134810015

image-20240805134747350

8 Umi-OCR

开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。

项目地址:https://github.com/hiroi-sora/Umi-OCR

image-20240805134521446

9 SwiftOCR

项目地址:https://github.com/NMAC427/SwiftOCR

已被弃用,不再维护。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 【实现100个unity特效之20】用unity实现物品悬浮和发光像素粒子特效
  • EXCEL数据清洗步骤
  • 3.js - 顶点着色器、片元着色器的联系
  • JDK源码——ThreadLocal
  • 《光与夜之恋》3D建模含量超标,纯炫技还是释放新信号?
  • 你和NumPy之间,只差这40张图
  • Unity教程(十)Tile Palette搭建平台关卡
  • Spring自动注册-自定义标签解析
  • 【综合架构】存储服务 NFS
  • Unity 资源分享 之 恐龙Ceratosaurus资源模型携 82 个动画来袭
  • MongoDB基础
  • 自注意力Self-attention
  • 鼠标为什么要放在鼠标垫上才好用?/ 鼠标的工作原理
  • 排序【归并排序和计数排序】
  • 【图像去雾系列】使用暗通道先验去雾算法对图像进行去雾处理
  • 0基础学习移动端适配
  • 2019年如何成为全栈工程师?
  • ES6, React, Redux, Webpack写的一个爬 GitHub 的网页
  • input的行数自动增减
  • Java 11 发布计划来了,已确定 3个 新特性!!
  • scrapy学习之路4(itemloder的使用)
  • socket.io+express实现聊天室的思考(三)
  • Synchronized 关键字使用、底层原理、JDK1.6 之后的底层优化以及 和ReenTrantLock 的对比...
  • uni-app项目数字滚动
  • 大型网站性能监测、分析与优化常见问题QA
  • 技术胖1-4季视频复习— (看视频笔记)
  • 名企6年Java程序员的工作总结,写给在迷茫中的你!
  • 扑朔迷离的属性和特性【彻底弄清】
  • 普通函数和构造函数的区别
  • 区块链将重新定义世界
  • 延迟脚本的方式
  • PostgreSQL之连接数修改
  • Python 之网络式编程
  • 通过调用文摘列表API获取文摘
  • ​补​充​经​纬​恒​润​一​面​
  • ​如何使用ArcGIS Pro制作渐变河流效果
  • # Swust 12th acm 邀请赛# [ A ] A+B problem [题解]
  • #HarmonyOS:软件安装window和mac预览Hello World
  • $分析了六十多年间100万字的政府工作报告,我看到了这样的变迁
  • (CPU/GPU)粒子继承贴图颜色发射
  • (八十八)VFL语言初步 - 实现布局
  • (定时器/计数器)中断系统(详解与使用)
  • (二)hibernate配置管理
  • (一)插入排序
  • (原創) 如何使用ISO C++讀寫BMP圖檔? (C/C++) (Image Processing)
  • (转)LINQ之路
  • (转)关于多人操作数据的处理策略
  • .a文件和.so文件
  • .NET Framework 4.6.2改进了WPF和安全性
  • .NET 读取 JSON格式的数据
  • .NET/C# 使用 SpanT 为字符串处理提升性能
  • .NET/C#⾯试题汇总系列:⾯向对象
  • .NET的数据绑定
  • .net之微信企业号开发(一) 所使用的环境与工具以及准备工作
  • .net中调用windows performance记录性能信息