第十七天计算机视觉之光学字符识别基础理论
目 录
- 光学字符识别(OCR)
- 一、基本理论
- 1. 什么是OCR
- 1)定义
- 2)一般步骤
- 3)OCR的难点
- 4)OCR与目标检测的区别
- 5)评估指标
- 6)应用
- 2. 常用数据集
- 1)ICDAR
- 2)CTW
- 3)MSRA-TD
光学字符识别(OCR)
一、基本理论
1. 什么是OCR
1)定义
OCR (Optical Character Recognition,光学字符识别)是指对图片中的文字进行查找、提取、识别的一种技术,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
2)一般步骤
- 文字检测:解决的问题是哪里有文字,文字的范围有多少
- 文字识别:对定位好的文字区域进行识别,主要解决的问题是每个文字是什么,将图像中的文字区域进转化为字符信息。
3)OCR的难点
文本检测,尤其是复杂自然场景下的文本检测,非常具有挑战性,主要难点有:
- 文本存在多种分布,文本排布形式多样;
- 文本大小、长度不固定;
- 文本存在多个方向;
- 多种语言混合;
- 精度要求极高,比如银行票据识别中,要求根本不允许有错。
4)OCR与目标检测的区别
- 文本大多数以长矩形形式存在,即长宽比一般较大或较小,这与普通的目标检测中的物体不一样(这些长宽比较接近1)
- 普通物体(比如猫)存在明显的闭合边缘轮廓,而文本没有
- 文本中包含多个文字,而文字之间是有间隔的,如果检测做得不好,我们就会把每个字都当成文本行给框出来而非整行作为文本框,这与我们的期望不一样
5)评估指标
- 拒识率:把应该识别的文字,当成不能识别的文字
- 误识率:不应该作为文字的作为文字来识别
- 识别速度:一般可接受范围在50~500ms
- 稳定性:识别结果稳定性
6)应用
- 文档/书籍扫描、车牌识别、证件识别、卡识别、票据识别
- 教育场景文字识别(例如拍照搜题)
- 文字识别笔
- 旅游翻译APP
- 盲人相机
- 自动导航
2. 常用数据集
1)ICDAR
ICDAR是进行场景文本检测和识别(Scene Text Detection and Recognition)任务最知名和常用的数据集。ICDAR 2017 RCTW[1](Reading Chinest Text in the Wild),由Baoguang Shi等学者提出。RCTW主要是中文,共12263张图像,其中8034作为训练集,4229作为测试集。使用四边形框标注文本行。数据集绝大多数是相机拍的自然场景,一些是屏幕截图;包含了大多数场景,如室外街道、室内场景、手机截图等等。官网链接:http://rctw.vlrlab.net/dataset/
-
分辨率。图像分辨率大小不等,小则300+,大则3000+;图像清晰程度不一,绝大多数背景和文字很清晰,极少数模糊
-
场景
- 街道场景:主要是建筑、标志牌、条幅等带有文字的图像,这类场景占据大多数
- 截图:主要是网络上带有文字的图像截图、手机上带有文字的图像截图、带文字的表情包图像
- 室内:主要是商场、墙壁等带有文字的图像
- 证件类:主要是车牌照、驾驶证、身份证等带有文字的图像
-
文本
- 方向(multi-oriented):绝大多数是水平方向,垂直、倾斜均有,弯曲方向极少数
- 大小(multi-scale):由于图像拍照远近,图像有近距离或远距离的,因此文本大小不等,有较多的长文
- 质量:少数文本存在模糊、光照不均匀、低分辨率等情况
- 字体:绝大多数字体为楷书,极少数艺术字,几乎没有手写字体
- 遮挡:绝大多数文本没有遮挡,极少数有遮挡
-
标注:数据集的标注保存在
<image_nam>.txt
文件中,其中格式如下:x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,<"文本"> x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,<"文本"> x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,<"文本">
八个坐标点分别是:左上、右上、右下、左下。示例图片如下:
2)CTW
CTW(Chinese Text in the Wild,自然场景下中文字符数据集)是腾讯和清华大学一起制作的数据集,包含32,285 张高分辨率图像,1,018,402 个字符实例,3,850 种字符种类,6 种属性(“occluded(被遮挡的)” | “bgcomplex(复杂背景)” | “distorted(扭曲)” | “raised(3D浮雕)” | “wordart(艺术字)” | "handwritten(手写体))
- 数据集划分。训练集75%,验证集5%,分类测试集10%,检测测试集10%
- 主页:https://ctwdataset.github.io/
- 论文:A Large Chinese Text Dataset in the Wild
- 示例图片
3)MSRA-TD
MSRA-TD是一个小型、支持中英文的倾斜文本检测的数据集,包含500幅自然图像,使用袖珍相机从室内(办公室和商场)和室外(街道)场景中拍摄。室内图像主要是标志牌、门牌和警示牌,室外图像主要是复杂背景下的引导牌和广告牌。图像的分辨率从1296x864到1920x1280不等。
数据集分为两部分:训练集和测试集。训练集包含从原始数据集中随机选择的300幅图像,其余200幅图像构成测试集。该数据集中的所有图像都进行了完全注释。该数据集中的基本单位是文本行,而不是ICDAR数据集中使用的单词,因为很难根据间距将中文文本行划分为单个单词;即使对于英文文本行,在没有高级信息的情况下执行单词分割也是非常重要的。以下是示例图片与标注方式: