当前位置: 首页 > news >正文

机器学习:opencv--摄像头OCR

目录

前言

一、三个函数

1.显示图像

2.点排序

3.透视变换

二、代码实例

1.打开摄像头

2.图像预处理

3.检测特定轮廓

4.对轮廓进行处理

5.释放资源


前言

        摄像头OCR指的是利用摄像头捕捉图像中的文字信息,并通过光学字符识别(OCR)技术将其转换为可编辑的文本。

 

一、三个函数

1.显示图像

def cv_show(name, img):cv2.imshow(name, img)cv2.waitKey(60)

 

2.点排序

接收传入的坐标(为轮廓的四个顶点),

  1. 对每一行进行求和,
    1. 最小值是该轮廓的左上角,
    2. 最大值是右下角,
  2. 对每一行进行求差,
    1. 最小的是右上角,
    2. 最大的是右下角,
  3. 按照左上,右上,右下,左下的顺序填入rect矩阵
def order_points(pts):# 共4个坐标点rect = np.zeros((4, 2), dtype="float32")  # 用来存储排序之后的坐标位置# 按顺序找到对应坐标 0 1 2 3 分别是左上,右上,右下,左下s = pts.sum(axis=1)  # 对pts矩阵的每一行进行求和操作。 (x+y)rect[0] = pts[np.argmin(s)]rect[2] = pts[np.argmax(s)]diff = np.diff(pts, axis=1)  # 对pts矩阵的每一行进行求差操作。(y-x)rect[1] = pts[np.argmin(diff)]rect[3] = pts[np.argmax(diff)]return rect

 

3.透视变换

  1. 获取排序之后的点坐标
  2. 计算该轮廓的宽和高的较大值,当做变换之后的图像宽高
  3. 通过cv2.getPerspectiveTransform方法计算透视变换矩阵
  4. 再通过cv2.warpPerspective方法获取透视变换之后的图像
def four_point_transform(image, pts):# 获取输入坐标点rect = order_points(pts)(tl, tr, br, bl) = rect# 计算输入的w和h的值  欧式距离公式widthA = np.sqrt(((br[0] - bl[0]) ** 2) + ((br[1] - bl[1]) ** 2))widthB = np.sqrt(((tr[0] - tl[0]) ** 2) + ((tr[1] - tl[1]) ** 2))maxWidth = max(int(widthA), int(widthB))heightA = np.sqrt(((tr[0] - br[0]) ** 2) + ((tr[1] - br[1]) ** 2))heightB = np.sqrt(((tl[0] - bl[0]) ** 2) + ((tl[1] - bl[1]) ** 2))maxHeight = max(int(heightA), int(heightB))# 变换后对应坐标位置dst = np.array([[0, 0], [maxWidth - 1, 0],[maxWidth - 1, maxHeight - 1], [0, maxHeight - 1]], dtype="float32")# 计算透视变换矩阵M = cv2.getPerspectiveTransform(rect, dst)# 应用透视变换warped = cv2.warpPerspective(image, M, (maxWidth, maxHeight))  # 返回变换后结果return warped

 

二、代码实例

1.打开摄像头

  • 参数为0 则用电脑自带摄像头
  • 参数为1 则用外接摄像头
  • 若摄像头未被打开则输出Cannot open camera
cap = cv2.VideoCapture(0)  # 确保摄像头是可以启动的状态  电脑自带摄像头用0 外接的用1
if not cap.isOpened():print("Cannot open camera")exit()

 

2.图像预处理

  1. 打开摄像头之后,读取每一帧的画面并显示
  2. 转换成灰度图,进行高斯滤波处理,
  3. 然后使用Canny算子进行边缘检测并显示,
  4. 再对边缘检测之后的图像进行轮廓检测,
  5. 只取轮廓大小前十的轮廓将其画出来,并显示
while True:flag = 0  # 标识符 当前是否检测到文档ret, image = cap.read()orig = image.copy()if not ret:print('不能读取摄像头')breakcv_show('image', image)gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)gray = cv2.GaussianBlur(gray, (5, 5), 0)edged = cv2.Canny(gray, 75, 200)cv_show('1', edged)cnts = cv2.findContours(edged.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)[1]cnts = sorted(cnts, key=cv2.contourArea, reverse=True)[:10]image_contours = cv2.drawContours(image, cnts, -1, (0, 255, 0), 2)cv_show('image_contours', image_contours)

输出:

 

3.检测特定轮廓

  1. 遍历上述获取的轮廓 
  2. 对轮廓进行近似处理,并获取其特征点集
  3. 判断轮廓面积大于20000 并且特征点集只有4个
    for c in cnts:peri = cv2.arcLength(c, True)  # 计算轮廓的周长# True表示是否选择封闭轮廓approx = cv2.approxPolyDP(c, 0.05 * peri, True)  # 返回轮廓点集area = cv2.contourArea(approx)if area > 20000 and len(approx) == 4:screenCnt = approxflag = 1print(peri, area)print('检测到文档')break

 

4.对轮廓进行处理

  1. 如果在画面中获取到了符合条件的轮廓
  2. 就在原图上画出该轮廓
  3. 并将该轮廓图像进行透视变换并显示
  4. 最后对其进行二值化处理并显示
    if flag == 1:image_contours = cv2.drawContours(image, [screenCnt], 0, (0, 255, 0), 2)cv_show('image', image_contours)warped = four_point_transform(orig, screenCnt.reshape(4, 2))cv_show('warped', warped)warped = cv2.cvtColor(warped, cv2.COLOR_BGR2GRAY)ref = cv2.threshold(warped, 0, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU)[1]cv2.imshow('ref', ref)cv2.waitKey(0)
输出:

 

5.释放资源

  • 最后循环结束之后记得释放资源
cap.release()  # 释放捕获器
cv2.destroyAllWindows()  # 关闭图像窗口

相关文章:

  • ireport 5.1 中文生辟字显示不出来,生成PDF报字体找不到
  • Python爬虫之requests(二)
  • 基于SSM+Vue+MySQL的在线视频学习系统
  • 技术周刊第2期: Cursor 面临的挑战 -2024
  • 深度学习技术在流体力学中的应用与实操培训【1/3理论课程2/3实操课程】
  • python 实现random forest classifier随机森林分类器算法
  • 王道-计网
  • 工具类:JWT
  • 【Golang】Go语言字符串处理库--strings
  • Apache Solr:深入探索与常见误区解析
  • Docker-2.如何保存数据退出
  • STL与PLY格式转化
  • 基于Spring Boot+Vue的减肥健康管理系统设计和实现【原创】(BMI算法,协同过滤算法、图形化分析)
  • Redis 介绍
  • 修复: Flux女生脸不再油光满面, 屁股下巴 -- 超实用Comfyui小技巧
  • 【划重点】MySQL技术内幕:InnoDB存储引擎
  • Android系统模拟器绘制实现概述
  • AWS实战 - 利用IAM对S3做访问控制
  • exif信息对照
  • HTML中设置input等文本框为不可操作
  • JavaScript对象详解
  • Python代码面试必读 - Data Structures and Algorithms in Python
  • Spark学习笔记之相关记录
  • spring boot下thymeleaf全局静态变量配置
  • supervisor 永不挂掉的进程 安装以及使用
  • Vim 折腾记
  • 目录与文件属性:编写ls
  • 深入体验bash on windows,在windows上搭建原生的linux开发环境,酷!
  • 项目实战-Api的解决方案
  • Java总结 - String - 这篇请使劲喷我
  • Redis4.x新特性 -- 萌萌的MEMORY DOCTOR
  • ​比特币大跌的 2 个原因
  • ​二进制运算符:(与运算)、|(或运算)、~(取反运算)、^(异或运算)、位移运算符​
  • !$boo在php中什么意思,php前戏
  • #define、const、typedef的差别
  • $.ajax,axios,fetch三种ajax请求的区别
  • (4) openssl rsa/pkey(查看私钥、从私钥中提取公钥、查看公钥)
  • (第三期)书生大模型实战营——InternVL(冷笑话大师)部署微调实践
  • (黑马点评)二、短信登录功能实现
  • (数据大屏)(Hadoop)基于SSM框架的学院校友管理系统的设计与实现+文档
  • **PHP分步表单提交思路(分页表单提交)
  • .bat批处理(五):遍历指定目录下资源文件并更新
  • .bat文件调用java类的main方法
  • .Mobi域名介绍
  • .Net IE10 _doPostBack 未定义
  • .NET 中各种混淆(Obfuscation)的含义、原理、实际效果和不同级别的差异(使用 SmartAssembly)
  • .Net7 环境安装配置
  • .pyc文件是什么?
  • //解决validator验证插件多个name相同只验证第一的问题
  • [ C++ ] STL_stack(栈)queue(队列)使用及其重要接口模拟实现
  • [ 代码审计篇 ] 代码审计案例详解(一) SQL注入代码审计案例
  • [ 渗透工具篇 ] 一篇文章让你掌握神奇的shuize -- 信息收集自动化工具
  • [ai笔记3] ai春晚观后感-谈谈ai与艺术
  • [Arduino学习] ESP8266读取DHT11数字温湿度传感器数据
  • [CUDA手搓]从零开始用C++ CUDA搭建一个卷积神经网络(LeNet),了解神经网络各个层背后算法原理