当前位置: 首页 > news >正文

场景文本检测识别学习 day10(MMdetection)

配置文件(config)

  • 由于在大型项目中,一种模型需要分:tiny、small、big等很多种,而它们的区别主要在网络结构,数据的加载,训练策略等,且差别很多都很小,所以如果每个模型都手动从头写一份,很麻烦,为了方便,现在都是直接采用配置文件的形式来定义
  • 如yaml文件、py文件等
    在这里插入图片描述
    在这里插入图片描述

MMdetection的配置文件构成

  • 在MMdection的配置文件中,我们根据字段来定义模型训练的各部分
    在这里插入图片描述
  • 配置文件的运作方式
    在这里插入图片描述

使用MMdection来训练自己的检测模型

在这里插入图片描述

  • coco数据集的组织形式
    在这里插入图片描述

  • coco数据集的标注格式

  • 所有标注信息存储在一个JSON对象中,包含以下信息:images–所有原始图像信息、annotations–所有标注信息、categories–全部物体类别信息
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  • 其中:name表示当前的物体类别,supercategories表示当前物体的超类,如car的超类为vehicle

  • 我们将自己的数据集按照以上的格式整理好后,还需要更改模型的配置文件(有些模型是继承coco_instance.py,需要仔细查找),如下:
    在这里插入图片描述

  • 重点是需要修改:数据集的路径、batch_size、进程数

  • 在将原始图像输入进模型之前,我们可能还需要对图像进行:随机裁剪与缩放、水平翻转、像素值归一化、转换为PyTorch Tensor等操作,这些操作我们统一放在数据处理流水线,即pipeline中。对于微调训练,通常情况是不需要进行更改的

  • 下图为分类的pipeline:
    在这里插入图片描述

  • 由于检测有框,所以多了一个annotations,对于框也需要进行跟原始图片一样的操作,下图是检测的:
    在这里插入图片描述

相关文章:

  • 预训练模型语义相似性计算(十一) - M3E和BGE
  • P7-P9【分配器】【源文件】【OOPvs.GP】
  • Flutter 中的 AnimatedPadding 小部件:全面指南
  • 跳绳步法汇总
  • go语言初识别(五)
  • 【文末附gpt升级方案】GPT-4级别的AI系统安全性探讨与未来展望
  • 【Linux】Linux的权限_2 + Linux环境基础开发工具_1
  • BIO/NIO学习
  • JAVA面试题大全(十二)
  • 常见的MySQL语句类型及其基础用法
  • 高效写代码java-推荐插件1(格式转化 ConverterX )-日后待更新
  • 实时通信的方式——WebRTC
  • Mysql 备份恢复 mysqldump与xtrabackup备份
  • 6.8 LIBBPF API(七,bpf_core_read.h 函数,定义,枚举)
  • 自适应星空背景个人导航单页(附带源码)
  • Android Studio:GIT提交项目到远程仓库
  • Apache Spark Streaming 使用实例
  • CentOS7简单部署NFS
  • docker容器内的网络抓包
  • ECMAScript 6 学习之路 ( 四 ) String 字符串扩展
  • Java读取Properties文件的六种方法
  • Js实现点击查看全文(类似今日头条、知乎日报效果)
  • JWT究竟是什么呢?
  • linux学习笔记
  • Logstash 参考指南(目录)
  • Shell编程
  • vue从创建到完整的饿了么(18)购物车详细信息的展示与删除
  • Yeoman_Bower_Grunt
  • 更好理解的面向对象的Javascript 1 —— 动态类型和多态
  • 浅谈Kotlin实战篇之自定义View图片圆角简单应用(一)
  • 网页视频流m3u8/ts视频下载
  • 我与Jetbrains的这些年
  • 正则学习笔记
  • 字符串匹配基础上
  • LIGO、Virgo第三轮探测告捷,同时探测到一对黑洞合并产生的引力波事件 ...
  • 直播平台建设千万不要忘记流媒体服务器的存在 ...
  • #define用法
  • #传输# #传输数据判断#
  • #数学建模# 线性规划问题的Matlab求解
  • $redis-setphp_redis Set命令,php操作Redis Set函数介绍
  • (42)STM32——LCD显示屏实验笔记
  • (7)svelte 教程: Props(属性)
  • (8)Linux使用C语言读取proc/stat等cpu使用数据
  • (bean配置类的注解开发)学习Spring的第十三天
  • (SERIES12)DM性能优化
  • (Windows环境)FFMPEG编译,包含编译x264以及x265
  • (WSI分类)WSI分类文献小综述 2024
  • (备份) esp32 GPIO
  • (超简单)构建高可用网络应用:使用Nginx进行负载均衡与健康检查
  • (二)c52学习之旅-简单了解单片机
  • (每日持续更新)jdk api之FileReader基础、应用、实战
  • (十一)c52学习之旅-动态数码管
  • (已解决)vue+element-ui实现个人中心,仿照原神
  • (游戏设计草稿) 《外卖员模拟器》 (3D 科幻 角色扮演 开放世界 AI VR)
  • (原創) 如何動態建立二維陣列(多維陣列)? (.NET) (C#)