当前位置: 首页 > news >正文

【BoF】《Bag of Freebies for Training Object Detection Neural Networks》

在这里插入图片描述

arXiv-2019

https://github.com/dmlc/gluon-cv


文章目录

  • 1 Background and Motivation
  • 2 Related Work
  • 3 Advantages / Contributions
  • 4 Method
    • 4.1 Visually Coherent Image Mixup for Object Detection
    • 4.2 Classification Head Label Smoothing
    • 4.3 Data Preprocessing
    • 4.4 Training Schedule Revamping
    • 4.5 Synchronized Batch Normalization
    • 4.6 Random shapes training for singlestage object detection networks
  • 5 Experiments
    • 5.1 Datasets and Metrics
    • 5.2 Incremental trick evaluation on Pascal VOC
    • 5.3 Bag of Freebies on MS COCO
    • 5.4 Impact of mixup on different phases of training detection network
  • 6 Conclusion(own) / Future work


1 Background and Motivation

在这里插入图片描述

分类任务出了篇 【BoT】《Bag of Tricks for Image Classification with Convolutional Neural Networks》(CVPR-2019),目标检测任务比图像分类任务复杂,作者基于目标检测任务,来借鉴整合了些 bag of freebies,inference free,有明显涨点

2 Related Work

  • Scattering tricks from Image Classification

    • Learning rate warmup
    • Label smoothing
    • mixup
    • Cosine annealing strategy
  • Deep Object Detection Pipelines

    • one stage
    • two stage

3 Advantages / Contributions

整理了一些目标检测的 bag of freebies(proposed a visually coherent image mixup methods),使 yolov3 在 coco 数据集上提了 5 个点

4 Method

4.1 Visually Coherent Image Mixup for Object Detection

原版的 【Mixup】《Mixup:Beyond Empirical Risk Minimization》(ICLR-2018)在分类任务中的应用

在这里插入图片描述

在这里插入图片描述
beta 分布取得是 α = β = 0.5 \alpha=\beta=0.5 α=β=0.5,混合比例比较极端,基本非 A 即 B

beta 分布的这种分布应用在目标检测任务中的结果如下

在这里插入图片描述

贴在画面中的大象很容易漏检

作者把 mixup 应用在目标检测的时候,把 beta 分布的参数改为了 α = β = 1.5 \alpha=\beta=1.5 α=β=1.5

混合的更充分,作者对这种混合形式的语言描述如下

similar to the transition frames commonly observed when we are watching low FPS movies or surveillance videos.

混合效果如下

在这里插入图片描述

networks are encouraged to observe unusual crowded patches

4.2 Classification Head Label Smoothing

正常的 label smoothing,用在分类分支上,来自 【Inception-v3】《Rethinking the Inception Architecture for Computer Vision》(CVPR-2016)

在这里插入图片描述

标签的 one-shot 的分布(缺点 This encourages the model to be too confident)改为上述公式分布

4.3 Data Preprocessing

(1)Random geometry transformation

  • random cropping (with constraints)

  • random expansion

  • random horizontal flip

  • random resize (with random interpolation)

two-stage 的目标检测相比 one stage,多了一个 roi pooling 以及之后的过程,所以 two-stage 的时候,not use random cropping techniques during data augmentation.

(2)Random color jittering

  • brightness

  • hue

  • saturation

  • contrast

4.4 Training Schedule Revamping

传统 step learning rate 的缺点

Step schedule has sharp learning rate transition which may cause the optimizer to re-stabilize the learning momentum in the next few iterations.

作者采用余弦学习率(the higher frequency of learning rate adjustment) + warm up(avoid gradient explosion during the initial training iterations.)

在这里插入图片描述

4.5 Synchronized Batch Normalization

跨机器 synchronized batch normalization in object detection

4.6 Random shapes training for singlestage object detection networks

H = W = { 320 ; 352 ; 384 ; 416 ; 448 ; 480 ; 512 ; 544 ; 576 ; 608 } H =W = \{320; 352; 384; 416; 448; 480; 512; 544; 576; 608\} H=W={320;352;384;416;448;480;512;544;576;608}

5 Experiments

  • yolov3

  • faster rcnn

5.1 Datasets and Metrics

  • PASCAL VOC
    Pascal VOC 2007 trainval and 2012 trainval for training and 2007 test set for validation.

  • COCO

5.2 Incremental trick evaluation on Pascal VOC

mixup 改进提升点

在这里插入图片描述
在这里插入图片描述
看看其他 bag of freebies 的提升情况

在这里插入图片描述

可以看到 one-stage 对 data augmentation 更依赖

two-stage sampling based proposals can effectively replace random cropping,对 data augmentation 的依赖更少

5.3 Bag of Freebies on MS COCO

在这里插入图片描述

对 yolov3 的提升还是很猛的

在这里插入图片描述

全类别,基本都是提升的红色

5.4 Impact of mixup on different phases of training detection network

mix up 有两个地方涉及到

  1. pre-training classification network backbone with traditional mixup

  2. training detection networks using proposed visually coherent image mixup for object detection
    在这里插入图片描述
    预训练和训练的时候都用 mix up 提升最明显

作者的解释

We expect by applying mixup in both training phases, shallow layers of networks are receiving statistically similar inputs, resulting in less perturbations for low level filters.

6 Conclusion(own) / Future work

  • Rosenfeld A, Zemel R, Tsotsos J K. The elephant in the room[J]. arXiv preprint arXiv:1808.03305, 2018.
    在这里插入图片描述
  • a large amount of anchor size(up to 30k) is effectively contributing to batch size implicitly

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 网络安全(黑客技术)2024年三个月自学计划
  • 3.接口测试的基础/接口关联(Jmeter工具/场景一:我一个人负责所有的接口,项目规模不大)
  • Visual Studio-X64汇编编写
  • 玩转RabbitMQ声明队列交换机、消息转换器
  • Python 入门教程(4)数据类型 | 4.4、布尔类型
  • QT 修改全局鼠标光标样式并支持还原样式
  • redis群集三种模式:主从复制、哨兵、集群
  • Java运算符有哪些?深入解析Java运算符:从基础到进阶的全方位指南(超全表格)
  • 『功能项目』QFrameWorkBug修改器界面【65】
  • firewalld封禁IP或IP段
  • 微信getUserProfile不弹出授权框
  • 【无标题】云端之C#:全面解析6种云服务提供商的SDK
  • C++学习笔记(33)
  • JVM常用参数配置
  • python中的排序函数sorted
  • 【译】React性能工程(下) -- 深入研究React性能调试
  • AWS实战 - 利用IAM对S3做访问控制
  • Electron入门介绍
  • Iterator 和 for...of 循环
  • JavaScript工作原理(五):深入了解WebSockets,HTTP/2和SSE,以及如何选择
  • Javascript基础之Array数组API
  • jquery cookie
  • Python利用正则抓取网页内容保存到本地
  • QQ浏览器x5内核的兼容性问题
  • React-flux杂记
  • redis学习笔记(三):列表、集合、有序集合
  • Solarized Scheme
  • webpack4 一点通
  • 程序员最讨厌的9句话,你可有补充?
  • 从重复到重用
  • 短视频宝贝=慢?阿里巴巴工程师这样秒开短视频
  • 浮动相关
  • 浮现式设计
  • 容器化应用: 在阿里云搭建多节点 Openshift 集群
  • 使用 Node.js 的 nodemailer 模块发送邮件(支持 QQ、163 等、支持附件)
  • 算法之不定期更新(一)(2018-04-12)
  • 用Canvas画一棵二叉树
  • 【运维趟坑回忆录】vpc迁移 - 吃螃蟹之路
  • 分布式关系型数据库服务 DRDS 支持显示的 Prepare 及逻辑库锁功能等多项能力 ...
  • ​LeetCode解法汇总2670. 找出不同元素数目差数组
  • ​十个常见的 Python 脚本 (详细介绍 + 代码举例)
  • ‌前端列表展示1000条大量数据时,后端通常需要进行一定的处理。‌
  • ### Error querying database. Cause: com.mysql.jdbc.exceptions.jdbc4.CommunicationsException
  • #Datawhale AI夏令营第4期#AIGC方向 文生图 Task2
  • #pragma预处理命令
  • (13)DroneCAN 适配器节点(一)
  • (2)(2.10) LTM telemetry
  • (2)Java 简介
  • (简单) HDU 2612 Find a way,BFS。
  • (经验分享)作为一名普通本科计算机专业学生,我大学四年到底走了多少弯路
  • *算法训练(leetcode)第三十九天 | 115. 不同的子序列、583. 两个字符串的删除操作、72. 编辑距离
  • .[hudsonL@cock.li].mkp勒索病毒数据怎么处理|数据解密恢复
  • .net CHARTING图表控件下载地址
  • .net core开源商城系统源码,支持可视化布局小程序
  • .net on S60 ---- Net60 1.1发布 支持VS2008以及新的特性