当前位置: 首页 > news >正文

Learning Transferable Features with Deep Adaptation Networks

        研究发现,随着domain之间差异性的增大,高层特征的可迁移性显著下降。作者针对这种情况,提出了“多核”和“多层”的想法,“多核”是指使用了多核MMD,“多层”是指适配了多层特征。

摘要

        深度神经网络可以学习可迁移特征,这些特征用于域适应时在新的任务上表现出很好的泛化能力。但是特征的迁移性在高层明显下降,并增加域差异。因此论文的motivation是formally reduce the dataset bias and enhance the transferability in task-specific layers,即形式化地减少数据集偏差,增强任务特定层的可移植性。

        论文提出一个Deep AdaptationNetwork (DAN) 结构(深度自适应网络结构),将深度卷积神经网络推广到领域自适应场景,DAN中所有任务层的隐藏表示都能嵌入到Hilber空间中。

1.Introduction

        对图片学习,transfer learning很重要,如果能从有训练数据的数据集中学到的特征知识迁移到没有足够训练数据的数据集中应用,即将已有的经验应用到新的任务重去,这可以节省相当大的成本。建立知识转移(knowledge transfer)的主要方法之一是从数据中学习域不变模型,该模型可以在同构的潜在特征空间中架起源域和目标域之间的桥梁。
        DAN联合卷积神经网络,减小域差异来实现。(域差异指的是源域和目标域的差异)DAN网络可以学习可跨越域差异的可迁移特性。

        本文的贡献总结如下:

  1. 提出了一种新的领域自适应深度神经网络结构,该结构中与任务特定特征对应的所有层都是分层自适应的,从而从深度自适应中获益。
  2. 探索多内核自适应深度表示,与单一内核方法相比,大大提高了自适应效率。该模型可以产生无偏的深层特征与统计保证。

2. Related Work 

3. Deep Adaptation Networks

        在无监督域自适应中,给出了带n_s个标记的源域D_s=\left \{ \left ( x_i^s,y_i^s \right ) \right \}^{n_s}_{i=1},带n_t个标记的目标域D_t=\left \{x_j^t \right \}^{n_t}_{j=1}。源域和目标域分别用概率分布pq表示。我们的目标是构建一个深层神经网络能够学习transferable features,并构建一个分类器y=\theta \left ( x \right ),可以使用使用源域监督来最小化目标风险\epsilon (\theta)=Pr_{_{(x,y)\sim q}}[\theta(x)\neq y]。在半监督自适应中,当目标域有少量带标记的例子时,我们用D_a=\left \{ (x_i^a,y_i^a) \right \}中的n_a表示源域和目标域的注释的例子。

3.1. Model

        源域和目标域的数据都放在一起,通过AlexNet来训练,前三层frozen,第四层第五层fine-tuning,当到后面几层时,source data和target data分开,然后通过MK-MMD方法来计算两个域的距离,并且通过损失函数来进行优化,最后当损失函数优化到设定的阈值时,就可进行最终的分类。

        因为特征的可迁移性随着层数的加深而显著下降,可以理解为前几层提取的是general的特征,越往后就会提取出更针对当前任务的specific的特征。对于下图中的网络在 conv4 - conv5 处,特征可迁移性变差,在fc6 - fc8处,特征可迁移性显著变差,所以需要对较深的多层全部进行适配而不是只针对其中的某一层。所以和DDC不同,DAN对 fc6 到 fc8 的全连接层都通过MK-MMD进行了适配。

图1:用于学习可转移特性的DAN体系结构。由于深度特征最终沿着网络过渡从一般到具体,(1)由卷积特征提取层conv1 conv3处于浅层,因此这些层被冻结,(2)由特征提取层conv4和conv5这些层都经过了微调,(3)全连接层fc6-fc8量身定做符合特定的任务,因此他们应与MK-MMD自适应

3.2  优化目标

 

 

相关文章:

  • zabbix监控脑裂
  • 网页js实现的各种3D树形结构模型
  • 软考高项——各输入输出文件的含义
  • 让你快速理解工厂模式
  • 牛客网零碎小东西
  • Java面试(五)设计模式
  • docker的简单操作
  • 工业互联网标识解析的数据安全风险有哪些?
  • 2022年外资EDI证办理流程及要求
  • 内网渗透-【横向移动】PsExec工具远程命令执行横向移动
  • 菜谱查询易语言代码
  • springboot+旅游管理系统 毕业设计-附源码261117
  • 未来十年最赚钱的专业是什么
  • R语言ggplot2可视化:使用ggpubr包的ggerrorplot函数可视化误差线(可视化不同水平均值点以及se标准误差)
  • 【Pytorch】torch.Tensor.view()
  • JavaScript-如何实现克隆(clone)函数
  • (三)从jvm层面了解线程的启动和停止
  • 2018以太坊智能合约编程语言solidity的最佳IDEs
  • 78. Subsets
  • Akka系列(七):Actor持久化之Akka persistence
  • bearychat的java client
  • canvas 绘制双线技巧
  • docker-consul
  • JSDuck 与 AngularJS 融合技巧
  • js如何打印object对象
  • leetcode-27. Remove Element
  • MySQL主从复制读写分离及奇怪的问题
  • React 快速上手 - 07 前端路由 react-router
  • Redux系列x:源码分析
  • SQLServer之创建显式事务
  • windows下如何用phpstorm同步测试服务器
  • 理解 C# 泛型接口中的协变与逆变(抗变)
  • 模型微调
  • 网络应用优化——时延与带宽
  • 《码出高效》学习笔记与书中错误记录
  • Nginx惊现漏洞 百万网站面临“拖库”风险
  • 新年再起“裁员潮”,“钢铁侠”马斯克要一举裁掉SpaceX 600余名员工 ...
  • ​ 无限可能性的探索:Amazon Lightsail轻量应用服务器引领数字化时代创新发展
  • ​【C语言】长篇详解,字符系列篇3-----strstr,strtok,strerror字符串函数的使用【图文详解​】
  • ​软考-高级-信息系统项目管理师教程 第四版【第14章-项目沟通管理-思维导图】​
  • ​一文看懂数据清洗:缺失值、异常值和重复值的处理
  • #ifdef 的技巧用法
  • #WEB前端(HTML属性)
  • #我与Java虚拟机的故事#连载17:我的Java技术水平有了一个本质的提升
  • (2022版)一套教程搞定k8s安装到实战 | RBAC
  • (Arcgis)Python编程批量将HDF5文件转换为TIFF格式并应用地理转换和投影信息
  • (安卓)跳转应用市场APP详情页的方式
  • (删)Java线程同步实现一:synchronzied和wait()/notify()
  • (一)认识微服务
  • (转) Face-Resources
  • .desktop 桌面快捷_Linux桌面环境那么多,这几款优秀的任你选
  • .NET分布式缓存Memcached从入门到实战
  • .NET项目中存在多个web.config文件时的加载顺序
  • 。Net下Windows服务程序开发疑惑
  • /3GB和/USERVA开关