当前位置: 首页 > news >正文

机器学习笔记 - 了解常见开源文本识别数据集以及了解如何创建用于文本识别的合成数据

一、部分开源数据集

以下是一些英文可用的开源文本识别数据集。

ICDAR 数据集:ICDAR 代表国际文档分析和识别会议。该活动每两年举行一次。他们带来了一系列塑造了研究社区的场景文本数据集。例如, ICDAR-2013和ICDAR-2015数据集。

MJSynth 数据集:该合成词数据集由牛津大学视觉几何组提供。该数据集由综合生成的 900 万张图像组成, 涵盖 9 万个英语单词,并包括我们工作中使用的训练、验证和测试分割。

相关文章:

  • 使用Flink处理Kafka中的数据_题库子任务_Java语言实现
  • 【React】React 基础
  • uniapp如何上传文件,使用API是什么
  • 2023.11.18 - hadoop之zookeeper分布式协调服务
  • Flutter最新稳定版3.16 新特性介绍
  • 基于springboot实现智能热度分析和自媒体推送平台系统项目【项目源码】
  • 基于FPGA的五子棋(论文+源码)
  • hypermesh学习总结(一)
  • 邀请报名|11月24日阿里云原生 Serverless 技术实践营 深圳站
  • 控制您的音乐、视频等媒体内容
  • 【算法】二分查找-20231120
  • Java学习笔记43——函数式接口
  • rocketmq 安装dashboard1.0.0 mq消息控制台安装 rocketmq控制台安装 rocketmq-dashboard-1.0.0编译安装
  • 读书笔记:Effective C++ 3.0版2005年Scott Meyers : 55条建议(47-55)
  • golang学习笔记——Map
  • (三)从jvm层面了解线程的启动和停止
  • 【刷算法】求1+2+3+...+n
  • Angular 响应式表单之下拉框
  • ECS应用管理最佳实践
  • Java比较器对数组,集合排序
  • JDK9: 集成 Jshell 和 Maven 项目.
  • js面向对象
  • leetcode46 Permutation 排列组合
  • leetcode98. Validate Binary Search Tree
  • nodejs实现webservice问题总结
  • Spring核心 Bean的高级装配
  • WordPress 获取当前文章下的所有附件/获取指定ID文章的附件(图片、文件、视频)...
  • 纯 javascript 半自动式下滑一定高度,导航栏固定
  • 前端路由实现-history
  • 前端之React实战:创建跨平台的项目架构
  • 浅谈web中前端模板引擎的使用
  • 小程序01:wepy框架整合iview webapp UI
  • 写代码的正确姿势
  • linux 淘宝开源监控工具tsar
  • 机器人开始自主学习,是人类福祉,还是定时炸弹? ...
  • ​TypeScript都不会用,也敢说会前端?
  • #stm32整理(一)flash读写
  • (23)Linux的软硬连接
  • (入门自用)--C++--抽象类--多态原理--虚表--1020
  • (完整代码)R语言中利用SVM-RFE机器学习算法筛选关键因子
  • (一) springboot详细介绍
  • .“空心村”成因分析及解决对策122344
  • .net core控制台应用程序初识
  • .NET 中选择合适的文件打开模式(CreateNew, Create, Open, OpenOrCreate, Truncate, Append)
  • .Net6支持的操作系统版本(.net8已来,你还在用.netframework4.5吗)
  • .Net的DataSet直接与SQL2005交互
  • .Net下C#针对Excel开发控件汇总(ClosedXML,EPPlus,NPOI)
  • @Autowired @Resource @Qualifier的区别
  • @SpringBootApplication 包含的三个注解及其含义
  • @Transactional类内部访问失效原因详解
  • [ C++ ] STL---仿函数与priority_queue
  • []sim300 GPRS数据收发程序
  • [1525]字符统计2 (哈希)SDUT
  • [28期] lamp兄弟连28期学员手册,请大家务必看一下
  • [Android] Upload package to device fails #2720