当前位置: 首页 > news >正文

U2net论文复现-简单解读-以及奇奇怪怪的改进-测试roc以及pr

论文地址:U2net论文地址

显著性目标检测:

Salient ObjectDetetion(SOD)显著性目标检测,就是要把图片中最显著的物体分割出来,所以是二分类任务,只需要背景和前景。

1、Introduce

1.1、目前存在的2个挑战:

1、全卷积网络(FCN)在图像分割中的兴起,显著行目标检测进一步发展,但是许多显著性目标检测都是基于VGG、ResNet等分类网络的。这些模型的预训练网络是基于Image数据集的,与显著性目标的数据分布存在差异,所以这些网络适合分类,不一定适合图像分割。

2、为了计算机能负担得起这些模型,所以随着网络层数的增加,特征图的大小要变小,但是特征图的分辨率对分割是有影响的。

1.2、U2net提出的方案

1. U2net从头开始训练。

1. 加入新的模块获得高分辨率,不会明显增加内存和计算成本。

2、Related works

这一部分列举了一大堆模型,说明深层特征的重要性,特征图分辨率的影响,多尺度特征提取的好处等。

各种卷积块的图片,最后e是U2net的RSU

3、提出的方法

3.1、论文总体架构:

3.2、RSU模块:

每一个RSU其实相当于一个小型的Unet网络,左边第一个绿色是对输入进行卷积,剩下的就是一个unet,只不过这个unet的层数在不同的RSU中不同。

3.3、自己绘制的总体网络图:

解码模块那边的RSU的结果输出后,要经过一个卷积调整通道数,因为要计算损失,所以有来了一个Upsample_like,将他调整和label图片一样大小。d0到d6分别计算交叉熵损失,然后加起来。

4、评估

4.1、论文的评估:

这是论文给出的评估,在大多数指标上,都超过了现有模型。模型大小为176.3MB,轻量版的为4.7MB。

论文里面给出的PR曲线,在DUTS-TE数据集上进行测试

4.2、自己尝试绘制的PR曲线

只使用了30张图片绘制,顺道把ROC曲线也画了一遍。

5、论文总结以及自己对模块的一点点改进

5.1、论文原话:

尽管我们的模型与其他最先进的方法相比取得了优越的结果,但在不久的将来,计算和内存有限的设备(例如手机、机器人等)需要更快和更小的模型,我们将探索不同的技术和架构以进一步提高速度并降低模型大小。此外,需要更大的多样化显着对象数据集来训练更准确和更稳健的模型。

5.2、尝试改进:

尝试将模型改的更小一点,更快一点。U2net网络中RSU模块里面有很多卷积,它们输入通道数和输出通道数相同,如果将这些卷积改进一下,降低一下模型参数,应该也是可行的。

方法:当RSU中使用输入通道数和输出通道数相同的卷积时,只将用一半通道数据进行运算。源代码中的模块叫做REBNCONV,我将自己改进的卷积模块叫做Ghost_REBNCONV,有两重意思,一个是指它和灵魂一样轻,另一方面是形象地描述了张量进入这个模块后,会有一半不参与运算,就像灵魂一样,看不见摸不着。

例子是最好的老师:

例子中原本需要128个卷积核,现在只需要64个卷积核,速度是不是更快了一些,参数量也下降了一下。176MB的模型现在只有150MB,至于效果咋样,拿400个数据集跑一跑,30个做测试。

测试一下pr曲线和roc曲线

不可能像论文中那样来个60万epoch,只是简单的来了100个epoch。

后续:

跑400轮,再用400个数据集测试一下pr和roc,并于原来对比:

可以看出roc低一点,pr高了4点左右。改进的有没有效果,还需要大量的实验进行测试。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 机器学习用Python 还是 R语言?
  • Unknown input format pdf Pandoc can convert to PDF, but not from PDF.解决方案
  • Webkit与Web Push API:提升用户体验的推送技术
  • P3008 [USACO11JAN] Roads and Planes G
  • 24.8.3数据结构|双向循环链表、静态链表
  • 在大语言模型中,我们每次输入的语句长度不同,这样会影响结果吗;在大语言模型中,训练中每次的输入长度都是不一样的,但是是一样权重矩阵,不足的话是补 0吗;;;
  • 前端day7-css选择器
  • 国产AI大模型:从萌芽到繁盛,未来可期
  • uniapp vue3 转换华为鸿蒙(以及问题一些解决方案)
  • 基于javaweb的乡村旅游网站/旅游网站的设计与实现
  • html5各行各业官网模板源码下载(3)
  • 【EtherCAT】Windows+Visual Studio配置SOEM主站——静态库配置+部署
  • 暑期数据结构 空间复杂度
  • GPT-4o mini模型:小型化AI解决方案的创新应用案例
  • LeetCode.27.移除元素
  • [LeetCode] Wiggle Sort
  • 【每日笔记】【Go学习笔记】2019-01-10 codis proxy处理流程
  • 2018一半小结一波
  • codis proxy处理流程
  • C语言笔记(第一章:C语言编程)
  • Git的一些常用操作
  • iOS筛选菜单、分段选择器、导航栏、悬浮窗、转场动画、启动视频等源码
  • Logstash 参考指南(目录)
  • Redis提升并发能力 | 从0开始构建SpringCloud微服务(2)
  • tweak 支持第三方库
  • vue从创建到完整的饿了么(18)购物车详细信息的展示与删除
  • Vue--数据传输
  • WordPress 获取当前文章下的所有附件/获取指定ID文章的附件(图片、文件、视频)...
  • 阿里云应用高可用服务公测发布
  • 记一次删除Git记录中的大文件的过程
  • 快速体验 Sentinel 集群限流功能,只需简单几步
  • 每天一个设计模式之命令模式
  • 如何编写一个可升级的智能合约
  • 用jquery写贪吃蛇
  • 基于django的视频点播网站开发-step3-注册登录功能 ...
  • ​2020 年大前端技术趋势解读
  • ​LeetCode解法汇总1410. HTML 实体解析器
  • #调用传感器数据_Flink使用函数之监控传感器温度上升提醒
  • #基础#使用Jupyter进行Notebook的转换 .ipynb文件导出为.md文件
  • (2015)JS ES6 必知的十个 特性
  • (24)(24.1) FPV和仿真的机载OSD(三)
  • (AngularJS)Angular 控制器之间通信初探
  • (html5)在移动端input输入搜索项后 输入法下面为什么不想百度那样出现前往? 而我的出现的是换行...
  • (Matlab)遗传算法优化的BP神经网络实现回归预测
  • (Python) SOAP Web Service (HTTP POST)
  • (Python第六天)文件处理
  • (zz)子曾经曰过:先有司,赦小过,举贤才
  • (超详细)2-YOLOV5改进-添加SimAM注意力机制
  • (附源码)spring boot火车票售卖系统 毕业设计 211004
  • (附源码)springboot宠物管理系统 毕业设计 121654
  • (未解决)macOS matplotlib 中文是方框
  • (学习日记)2024.04.04:UCOSIII第三十二节:计数信号量实验
  • .describe() python_Python-Win32com-Excel
  • .NET CORE 第一节 创建基本的 asp.net core
  • .NET Core MongoDB数据仓储和工作单元模式封装