当前位置: 首页 > news >正文

笔迹/签名数据集汇总

这里只收集公开/易申请的数据集

数据集发表年份语言最小单元Writers/人规模颜色最小单元文件格式示例图片备注
CSAFE Handwriting Database2019英语9090 人*(3 次*9 个样本) = 2430 页300 dpi 扫描pngimage.png-
HWDB2.0-2.22011汉字1,019每人 5 页,共 5091 页灰度图dgrl001-P17.png-
CEDAR2006英语签名55每个名字 24 张真实签名和24 张伪造签名,真 1320 张,伪 1320 张,共 2,640 张300 dpi 扫描pngimage.png-
GNHK2021英语-689 页RGBpngimage.png没有 writer 标签,只是一些笔迹
ChiSig2022汉字签名-总 500 个名字,总 10242 张灰度图pngimage.png-
ICDAR2011(SigComp2011)2011荷兰语、汉字签名汉字 10 荷兰语 10汉字 总 575 + 602 = 1,177 张 荷兰语 总 326 +1932 = 2,258 张RGBpngimage.png签名图带有矩形边界
HanSig2023汉字签名238每个名字 20 张真/20 张伪造,总共 35,400 张签名样本灰度图pngimage.png须填写在线申请表
SignverOD2022英语-2576 张灰度图pngimage.png用于检测签名对象位置
OHSDA2023卡纳达语、印地语、马拉地语和英语签名601 (330 名男性;271 名女性)年龄范围(18,30),(30,40),(40,50),每人 10 个签名,总 6010 个签名RGBjpgimage.png注重于年龄标注
Offline Handwriting Signature2023未知签名420420 人 * 30 次 = 12,600 张RGBpngimage.png-
Offline Handwritten Signature Database based on Gender Annotation2022卡纳达语、印地语、马拉地语和英语签名479(250 名男性,229 名女性)479 人 * 10 次 = 4,790 张RGBjpgimage.png注重于性别标注
BanglaWriting2020孟加拉语260每人一页,总 260 页RGB/灰度图jpgimage.png有分词标签image.png
BHSig2602016孟加拉语、印地语签名-孟加拉语 100 个名字,印地语 160 个名字;6240 个(260 个 ×24 张)个真实签名,7800 个(260 个 ×30 张)个伪造签名二值图tifimage.png出处可能是https://ieeexplore.ieee.org/document/7490096
BN-HTRd2021孟加拉语页/行/词150每个人页数不固定,总 788 页RGBjpgimage.png有全文和单词的真实注释,以及分割图像及其位置
Forged Handwritten Document Database2023英语-50 页RGBjpgimage.png-
Dataset of handwritten school essays in Russian2023俄语-87 页灰度图pngimage.png-
SMHD2023英语页/行-439 页灰度图jpgimage.png有文本内容

下面是废话,凑字数的
引言
随着技术的快速发展,笔迹和签名识别已经成为了机器学习和人工智能领域的一个重要分支。此类技术被广泛应用于法律、安全和个人验证等多个方面。在这其中,数据集作为算法训练的基石,对于提高识别准确性和可靠性起到了至关重要的作用。
数据集在笔迹/签名识别技术中的应用
笔迹和签名识别技术主要依赖于数据驱动的方法,其中,高质量的数据集可以显著提高识别算法的性能。这些技术通常包含了复杂的图像处理和模式识别步骤,以确保正确识别书写中的每一个笔画和特征。只有拥有了充足、多样和精确的数据集,模型才能有效地学习和应对现实世界中的各种挑战。
数据集的质量对识别结果的影响
数据集的质量直接关系到模型的可靠性和应用实践的成功率。具体而言,数据集需要具备足够的数据量、多样性以及真实性。此外,良好的标注质量也是不可或缺的,它确保了训练过程中数据的有效性和准确率。而面对数据倾斜和不平衡的问题,研究者们需要设计复杂的算法来充分利用现有数据资源。
常见的笔迹/签名数据集
目前,市面上有多个公开的笔迹和签名数据集可用于研究和开发,例如IAM Handwriting Database和GPDS签名数据集。这些数据集因其数据的丰富性和多样性而被广泛使用。它们不仅提供了训练模型的资源,也为算法的测试和评估提供了标准。
数据集建设的难点与挑战
在构建数据集时,研究者面临众多挑战,包括但不限于数据采集的法律和伦理问题、数据预处理和清洗的复杂性,以及更新维护数据集以适应不断变化的技术要求。
未来趋势和展望
随着人工智能领域的不断进步,笔迹和签名数据集建设也日益注重智能化和自动化。未来的数据集可能会趋向于多元化、能够动态更新,同时,数据共享和隐私保护之间的平衡也将成为数据集开发的重要考量。
结论
综上所述,高质量的笔迹和签名数据集对于提升识别技术的准确度和可靠性极为重要。数据集不仅支撑了算法的训练和发展,也对实际应用中的效果有着直接影响。因此,投资于数据集的建设对于任何致力于提升识别技术的项目来说都是至关重要的。
在笔迹和签名数据集的汇总中,有几个常见的挑战和问题,这些可以从以下几篇文献中得到概述:
数据集的编译和分割以及字符识别 - 文献提到了如何使用笔迹数据集进行签名验证等应用,并讨论了在创建大型挑战性数据集时遇到的问题。例如,在文献 Meitei Mayek handwritten dataset: compilation, segmentation, and character recognition 中,作者讨论了他们开发的大型数据集的挑战。
手写签名验证的竞赛 - 在 SVC2004: First international signature verification competition 中,作者描述了自动手写签名验证领域的挑战,并提出了一个签名数据库,涉及在签名收集前的充分练习、更大的样本收集等问题。
在线手写识别的进展 - 文献 Advances in online handwritten recognition in the last decades 中讨论了在在线手写识别领域所面临的优势和挑战,指出手写和手写签名是生物特征识别的一部分,因此,标准数据库编译是一个挑战。
手写文档分析和识别的系统性回顾 - 在 A systematic review on handwritten document analysis and recognition 中,作者提到了创建足够大和具有挑战性的数据库系统的重要性,并讨论了基于数据收集的不同区域或采样质量较低等问题。

相关文章:

  • Linux部分命令
  • OSCP靶场--RubyDome
  • OC对象 - Block解决循环引用
  • AWTK 开源串口屏开发(15) - 通过 MODBUS 访问远程设备数据
  • 【微服务】认识Dubbo+基本环境搭建
  • 【QT学习】1.qt初识,创建qt工程,使用按钮,第一个交互按钮
  • Kafka开机自启脚本
  • 数据结构:单调栈和单调队列
  • 【pytest】测试数据存储在 Excel 或 TXT 文件中,如何参数化
  • MongoDB聚合运算符:$linearFill
  • 深入理解数据结构第一弹——二叉树(1)——堆
  • 【动态规划】1223. 掷骰子模拟
  • Linux 环境安装 Elasticsearch 8.X
  • 【医学嵌入模型】中文医疗文本处理大模型 PCL-MedBERT
  • Redis Scan指令解析与使用示例
  • 《Javascript高级程序设计 (第三版)》第五章 引用类型
  • 《Javascript数据结构和算法》笔记-「字典和散列表」
  • 【React系列】如何构建React应用程序
  • Android Studio:GIT提交项目到远程仓库
  • HTML中设置input等文本框为不可操作
  • Java到底能干嘛?
  • Java知识点总结(JDBC-连接步骤及CRUD)
  • magento2项目上线注意事项
  • open-falcon 开发笔记(一):从零开始搭建虚拟服务器和监测环境
  • React Transition Group -- Transition 组件
  • vue+element后台管理系统,从后端获取路由表,并正常渲染
  • 创建一种深思熟虑的文化
  • 大快搜索数据爬虫技术实例安装教学篇
  • ------- 计算机网络基础
  • 技术攻略】php设计模式(一):简介及创建型模式
  • 深入浏览器事件循环的本质
  • 使用agvtool更改app version/build
  • 算法-插入排序
  • 通过git安装npm私有模块
  • 自制字幕遮挡器
  • ​secrets --- 生成管理密码的安全随机数​
  • $.extend({},旧的,新的);合并对象,后面的覆盖前面的
  • $con= MySQL有关填空题_2015年计算机二级考试《MySQL》提高练习题(10)
  • (1)(1.8) MSP(MultiWii 串行协议)(4.1 版)
  • (1)Android开发优化---------UI优化
  • (C++)八皇后问题
  • (delphi11最新学习资料) Object Pascal 学习笔记---第8章第2节(共同的基类)
  • (ISPRS,2023)深度语义-视觉对齐用于zero-shot遥感图像场景分类
  • (zz)子曾经曰过:先有司,赦小过,举贤才
  • (带教程)商业版SEO关键词按天计费系统:关键词排名优化、代理服务、手机自适应及搭建教程
  • (二十四)Flask之flask-session组件
  • (分类)KNN算法- 参数调优
  • (三分钟了解debug)SLAM研究方向-Debug总结
  • (四)七种元启发算法(DBO、LO、SWO、COA、LSO、KOA、GRO)求解无人机路径规划MATLAB
  • (原創) 如何安裝Linux版本的Quartus II? (SOC) (Quartus II) (Linux) (RedHat) (VirtualBox)
  • .a文件和.so文件
  • .NET Core 中的路径问题
  • .Net 代码性能 - (1)
  • .NetCore项目nginx发布
  • .net遍历html中全部的中文,ASP.NET中遍历页面的所有button控件