当前位置: 首页 > news >正文

VOC格式标签各个字段的解释

想了解一下VOC格式数据标签各个字段的含义,搜了一圈没看到,懒得去官网了,直接问了GPT-4o,以下回答字段解析来自GPT-4o,例子我自己写的

VOC (Visual Object Classes) 数据标签格式主要用于目标检测任务。VOC格式的标签文件是以 XML 格式存储的,每个文件对应一张图像,包含该图像中目标对象的信息。以下是 VOC 标签文件中各个字段的解释:

  1. annotation: 根节点,包含整个标签文件的信息。

  2. folder: 图像所在的文件夹名称。

  3. filename: 图像文件的名称。

  4. path: 图像文件的路径。

  5. source: 图像来源信息,包括:

    • database: 数据库名称。
    • annotation: 注释信息来源。
    • image: 图像信息来源。
  6. size: 图像尺寸信息,包括:

    • width: 图像宽度(像素)。
    • height: 图像高度(像素)。
    • depth: 图像深度(通常为 3,表示 RGB 图像)。
  7. segmented: 图像是否分割过,通常为 0(表示没有分割)。

  8. object: 图像中的目标对象信息,可以有多个 object 节点,每个对象包含以下字段:

    • name: 目标对象的类别名称。
    • pose: 目标对象的姿态(不常用,通常为 unspecified)。
    • truncated: 对象是否被截断,0 表示没有截断,1 表示截断。
    • difficult: 对象是否为困难样本,0 表示不是,1 表示是。
    • bndbox: 目标对象的边界框信息,包括:
      • xmin: 边界框左上角的 x 坐标。
      • ymin: 边界框左上角的 y 坐标。
      • xmax: 边界框右下角的 x 坐标。
      • ymax: 边界框右下角的 y 坐标。

一个简单的 VOC 格式标签文件示例如下:

<annotation><folder>VOC2007</folder><filename>000001.jpg</filename><source><database>The VOC2007 Database</database><annotation>PASCAL VOC2007</annotation><image>flickr</image><flickrid>341012865</flickrid></source><owner><flickrid>Fried Camels</flickrid><name>Jinky the Fruit Bat</name></owner><size><width>353</width><height>500</height><depth>3</depth></size><segmented>0</segmented><object><name>dog</name><pose>Left</pose><truncated>1</truncated><difficult>0</difficult><bndbox><xmin>48</xmin><ymin>240</ymin><xmax>195</xmax><ymax>371</ymax></bndbox></object><object><name>person</name><pose>Left</pose><truncated>1</truncated><difficult>0</difficult><bndbox><xmin>8</xmin><ymin>12</ymin><xmax>352</xmax><ymax>498</ymax></bndbox></object>
</annotation>

在这个示例中,有一个文件夹名称为 “VOC2007”,文件名为 “000001.jpg” 的图像,图像尺寸为 353x500 像素,深度为 3。
图像中包含一个类别为 “dog” 的目标对象,其边界框左上角坐标为 (48, 240),右下角坐标为 (195, 371),该目标存在遮挡,但并不是困难样本;还包含一个“person”目标,左上角坐标为 (8, 12),右下角坐标为 (352, 498),存在遮挡,不是困难样本

在这里插入图片描述

相关文章:

  • 对 SQL 说“不”~
  • 随便用css换个渐变的太阳
  • OrangePi AIpro 变身 Android 打包机
  • github使用相关问题
  • Oracle数据库面试题-3
  • 宇泰485中继器光电隔离防雷 工业级RS485信号放大器 UT-2209正品
  • 学习DHCP动态主机配置协议
  • 赶紧收藏!2024 年最常见 20道 Kafka面试题(五)
  • Pytorch实用教程:pytorch中 argmax(dim)用法详解
  • nginx优化和重写功能rewrite
  • vscode怎么拷贝插件到另一台电脑
  • 如何用结构化写好GPT的Prompt提示词
  • MySQL之创建高性能的索引(十一)
  • QT之动态加载树节点(QTreeWidget)
  • 《数字图像处理-OpenCV/Python》第15章:图像分割
  • __proto__ 和 prototype的关系
  • 【RocksDB】TransactionDB源码分析
  • 2018以太坊智能合约编程语言solidity的最佳IDEs
  • ABAP的include关键字,Java的import, C的include和C4C ABSL 的import比较
  • Apache Zeppelin在Apache Trafodion上的可视化
  • ES6 学习笔记(一)let,const和解构赋值
  • exports和module.exports
  • iBatis和MyBatis在使用ResultMap对应关系时的区别
  • jquery ajax学习笔记
  • Markdown 语法简单说明
  • nodejs:开发并发布一个nodejs包
  • win10下安装mysql5.7
  • 从重复到重用
  • 大快搜索数据爬虫技术实例安装教学篇
  • 工作中总结前端开发流程--vue项目
  • 汉诺塔算法
  • 再次简单明了总结flex布局,一看就懂...
  • 积累各种好的链接
  • 如何用纯 CSS 创作一个菱形 loader 动画
  • #LLM入门|Prompt#1.8_聊天机器人_Chatbot
  • #中国IT界的第一本漂流日记 传递IT正能量# 【分享得“IT漂友”勋章】
  • (04)Hive的相关概念——order by 、sort by、distribute by 、cluster by
  • (1)Nginx简介和安装教程
  • (13):Silverlight 2 数据与通信之WebRequest
  • (21)起落架/可伸缩相机支架
  • (8)STL算法之替换
  • (iPhone/iPad开发)在UIWebView中自定义菜单栏
  • (pojstep1.1.1)poj 1298(直叙式模拟)
  • (代码示例)使用setTimeout来延迟加载JS脚本文件
  • (附源码)springboot学生选课系统 毕业设计 612555
  • (面试必看!)锁策略
  • (十五)、把自己的镜像推送到 DockerHub
  • (四)docker:为mysql和java jar运行环境创建同一网络,容器互联
  • (四)Tiki-taka算法(TTA)求解无人机三维路径规划研究(MATLAB)
  • (一)utf8mb4_general_ci 和 utf8mb4_unicode_ci 适用排序和比较规则场景
  • (转)使用VMware vSphere标准交换机设置网络连接
  • .NET 跨平台图形库 SkiaSharp 基础应用
  • .NET/C# 利用 Walterlv.WeakEvents 高性能地中转一个自定义的弱事件(可让任意 CLR 事件成为弱事件)
  • .NET8.0 AOT 经验分享 FreeSql/FreeRedis/FreeScheduler 均已通过测试
  • .Net插件开发开源框架