当前位置: 首页 > news >正文

General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

摘要

https://arxiv.org/pdf/2409.01704
传统的OCR系统(OCR-1.0)越来越无法满足人们对智能处理人造光学字符的需求。在本文中,我们将所有人造光学信号(例如,普通文本、数学/分子公式、表格、图表、乐谱,甚至是几何形状)统称为“字符”,并提出了通用OCR理论以及一个优秀的模型,即GOT,以促进OCR-2.0的到来。GOT拥有5.8亿参数,是一个统一的、优雅的、端到端的模型,由高压缩编码器和长上下文解码器组成。作为一个OCR-2.0模型,GOT可以在各种OCR任务下处理上述所有“字符”。在输入端,模型支持常用的场景和文档样式图像,包括切片和整页风格。在输出端,GOT可以通过简单的提示生成纯文本或格式化结果(markdown/tikz/smiles/kern)。此外,该模型还享有交互式OCR特性,即通过坐标或颜色引导的区域级识别。进一步地,我们还为GOT适应了动态分辨率和多页OCR技术,以提高实用性。在实验中,我们提供了充分的结果来证明我们模型的优越性。
在这里插入图片描述

1 引言

光学字符识别

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 如何使用ssm实现基于vue.js的购物商场的设计与实现+vue
  • git push命令报错:the remote end hung up unexpectedly
  • 【Transformer深入学习】之一:Sinusoidal位置编码的精妙
  • 升降梯人数识别摄像机
  • 为什么程序员都要了解GPT,学会构建AI大模型?了解GPT大模型,读这本书就够了!
  • Python学习——【2.3】for循环
  • Prometheus监控k8s环境构建
  • JAVA与Python谁更适合后端?
  • Vscode整合PHP Server 和debug
  • 亲测有效,长期有效的RTSP流地址公网RTSP地址,各种类型的视频源
  • Python精选200Tips:141-145
  • 探索Python轻量级数据库:TinyDB的奇妙之旅
  • RocketMQ实战与集群架构详解
  • CANopen协议的理解
  • vue 父组件给子组件传值
  • bootstrap创建登录注册页面
  • css属性的继承、初识值、计算值、当前值、应用值
  • IDEA 插件开发入门教程
  • maven工程打包jar以及java jar命令的classpath使用
  • 百度地图API标注+时间轴组件
  • 漫谈开发设计中的一些“原则”及“设计哲学”
  • 为什么要用IPython/Jupyter?
  • 一个6年java程序员的工作感悟,写给还在迷茫的你
  • 一起来学SpringBoot | 第三篇:SpringBoot日志配置
  • 在 Chrome DevTools 中调试 JavaScript 入门
  • 【干货分享】dos命令大全
  • python最赚钱的4个方向,你最心动的是哪个?
  • 移动端高清、多屏适配方案
  • ​LeetCode解法汇总1410. HTML 实体解析器
  • #100天计划# 2013年9月29日
  • #NOIP 2014# day.2 T2 寻找道路
  • (3)(3.2) MAVLink2数据包签名(安全)
  • (c语言)strcpy函数用法
  • (vue)el-checkbox 实现展示区分 label 和 value(展示值与选中获取值需不同)
  • (八)Spring源码解析:Spring MVC
  • (附源码)spring boot车辆管理系统 毕业设计 031034
  • (附源码)计算机毕业设计ssm本地美食推荐平台
  • (附源码)计算机毕业设计SSM基于java的云顶博客系统
  • (十)DDRC架构组成、效率Efficiency及功能实现
  • (贪心) LeetCode 45. 跳跃游戏 II
  • (转)Linux NTP配置详解 (Network Time Protocol)
  • ***详解账号泄露:全球约1亿用户已泄露
  • ..回顾17,展望18
  • .naturalWidth 和naturalHeight属性,
  • .Net 8.0 新的变化
  • .NET Core Web APi类库如何内嵌运行?
  • .NET gRPC 和RESTful简单对比
  • .NET4.0并行计算技术基础(1)
  • .net打印*三角形
  • .NET国产化改造探索(一)、VMware安装银河麒麟
  • .NET设计模式(8):适配器模式(Adapter Pattern)
  • ??myeclipse+tomcat
  • @RequestMapping 和 @GetMapping等子注解的区别及其用法
  • @SpringBootApplication 注解
  • [ 渗透工具篇 ] 一篇文章让你掌握神奇的shuize -- 信息收集自动化工具