当前位置: 首页 > news >正文

(论文阅读26/100)Weakly-supervised learning with convolutional neural networks

26.文献阅读笔记

简介

题目

Weakly-supervised learning with convolutional neural networks

作者

Maxime Oquab,Leon Bottou,Ivan Laptev,Josef Sivic,CVPR,2015

原文链接

http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Oquab_Is_Object_Localization_2015_CVPR_paper.pdf

关键词

CNN,multi-classification

研究问题

通过bounding boxes标注的图像分类具有一定的问题:通过边界框一致地标注物体的位置和尺度,对部分遮挡和裁剪的物体效果不佳;对物体部分的标注很困难。

所以直接对图像内的物体种类进行标注然后训练(弱监督学习)。

研究方法

a weakly supervised convolutional neural network (CNN) for object classification that relies only on image-level labels;

用于物体分类的弱监督卷积神经网络( CNN )仅依赖于图像级别的标签,而不依赖于object bounding boxes。

只标注图片包含的对象列表,而不标注对象的位置。

在Alexnet的基础上.

前五个卷积层是在Imagenet上进行训练的,后面的几层是在Pascal数据集上进行训练的.

First, we treat the last fully connected network layers as convolutions to cope with the uncertainty in object localization.

首先,将最后一个全连接网络层看作卷积层,以应对目标定位中的不确定性。

可以处理几乎任意大小的图像作为输入。

Second, we introduce a max-pooling layer that hypothesizes the possible location of the object in the image.

其次,在输出端添加单个全局最大池化层显式搜索图像中得分最高的对象位置。

Third, we modify the cost function to learn from image-level supervision.

  • 修改了代价函数以借鉴图像级监督。

将任务视为每个类单独的二分类问题。因此,损失函数是K个二元Logistic回归损失之和。

k ∈ {1 · · · K}

F:分类结果

Y:标签值

每一个类别分数fk (x)可以解释为一个后验概率,表示图像x中k类的存在

解决多尺度问题:对所有训练图像进行缩放,使其最大边长为500像素,并将其补零至500 × 500像素。然后,每个训练小批量的16幅图像通过在0.7到1.4之间均匀采样的比例因子进行缩放。这使得网络可以看到图像中不同尺度的物体。

定位的衡量标准,作者是将max-pooling的输出映射到原图,然后将结果与bounding-box标注的结果进行比较,容忍度为18个像素,即将bounding-box向外扩18个像素,如果结果在此之内,则认为定位正确。

研究结论

可以从包含多个物体的杂乱场景中学习。

修改后的CNN架构在仅训练输出图像级标签的同时,对训练图像中的物体或其独特部分进行了定位。

弱监督网络可以预测场景中物体的大致位置(在x , y位置的形式),但不能预测物体的范围(包围盒)。

在测试时间内只搜索六个不同的尺度就足以达到良好的分类性能。在比例尺上增加更宽或更细的搜索并没有带来额外的好处。

创新不足

判断定位的标准是作者定义的,不是通用的

额外知识

none

相关文章:

  • 如果不用Baklib,哪一个帮助中心工具能够替代它?
  • Ubuntu上使用SSH连接到CentOS系统
  • Java并发面试题知识点总结(下篇)
  • 量子计算和量子通信技术:引领潜力无限的未来
  • uniapp实现在线PDF文件预览
  • 腾讯云CVM服务器5年可选2核4G和4核8G配置
  • 从零开始配置离线服务器
  • wordcloud在mac上显示中文乱码
  • Eclipse使用配置tomcat服务:部署找不到web.xml
  • c语言数据结构---三叉树
  • 深入了解springmvc响应数据
  • 上门洗衣洗鞋app小程序
  • STM32H743XX/STM32H563XX芯片烧录一次后,再次上电无法烧录
  • js 深度学习(四)
  • PHP实用工具:实现Excel转Mysql工具自动字段长度
  • 《剑指offer》分解让复杂问题更简单
  • 07.Android之多媒体问题
  • CAP 一致性协议及应用解析
  • JavaScript异步流程控制的前世今生
  • JS题目及答案整理
  • Laravel深入学习6 - 应用体系结构:解耦事件处理器
  • React-redux的原理以及使用
  • Redis在Web项目中的应用与实践
  • RxJS 实现摩斯密码(Morse) 【内附脑图】
  • Sequelize 中文文档 v4 - Getting started - 入门
  • SQLServer之索引简介
  • 力扣(LeetCode)965
  • 那些年我们用过的显示性能指标
  • 提升用户体验的利器——使用Vue-Occupy实现占位效果
  • 用jquery写贪吃蛇
  • 白色的风信子
  • postgresql行列转换函数
  • 京东物流联手山西图灵打造智能供应链,让阅读更有趣 ...
  • #HarmonyOS:Web组件的使用
  • $.type 怎么精确判断对象类型的 --(源码学习2)
  • (13)[Xamarin.Android] 不同分辨率下的图片使用概论
  • (Matalb时序预测)PSO-BP粒子群算法优化BP神经网络的多维时序回归预测
  • (Mirage系列之二)VMware Horizon Mirage的经典用户用例及真实案例分析
  • (windows2012共享文件夹和防火墙设置
  • (八)光盘的挂载与解挂、挂载CentOS镜像、rpm安装软件详细学习笔记
  • (附源码)apringboot计算机专业大学生就业指南 毕业设计061355
  • (附源码)springboot 个人网页的网站 毕业设计031623
  • (附源码)ssm捐赠救助系统 毕业设计 060945
  • (四)linux文件内容查看
  • (转)nsfocus-绿盟科技笔试题目
  • (转)ORM
  • (转载)跟我一起学习VIM - The Life Changing Editor
  • .equal()和==的区别 怎样判断字符串为空问题: Illegal invoke-super to void nio.file.AccessDeniedException
  • .mysql secret在哪_MYSQL基本操作(上)
  • .Net Core和.Net Standard直观理解
  • .net refrector
  • .Net小白的大学四年,内含面经
  • /bin/bash^M: bad interpreter: No such file ordirectory
  • @ 代码随想录算法训练营第8周(C语言)|Day53(动态规划)
  • @data注解_SpringBoot 使用WebSocket打造在线聊天室(基于注解)