当前位置: 首页 > news >正文

论文阅读——Flamingo

Flamingo: a Visual Language Model for Few-Shot Learning

模型建模了给定交织的图片或支=视频的条件下文本y的最大似然:

1 Visual processing and the Perceiver Resampler

Vision Encoder:from pixels to features。

预训练并且冻结的NFNet,在我们的数据集上使用文本图片对的对比损失训练,然后把提取的特征打成向量。

Perceiver Resampler:from varying-size large feature maps to few visual tokens。 

连接vision encoder 和 frozen language model。Vision Encoder得到的特征数量不一样,这部分处理成一样的。学习了预定义数量的潜在输入查询,这些查询被送到Transformer并交叉关注视觉特征。

2 Conditioning frozen language models on visual representations

在Perceiver Resampler产生的视觉表示的条件下,文本生成由Transformer解码器执行。

冻结LM blocks,在原始层之间插入gated cross-attention dense blocks。     

tanh-gating mechanism:新加层的输出在将其从残差连接添加到输入表示之前乘以tanh(𝛼)。

3 训练时的一些说明

1)Multi-visual input support: per-image/video attention masking

通过掩蔽全文到图像的交叉注意力矩阵,该矩阵限制了模型在每个文本标记处看到的视觉标记。在给定的文本标记下,模型关注交错序列中出现在其之前的图像的视觉标记,而不是所有先前的图像。尽管模型一次只直接关注单个图像,但对所有先前图像的依赖性仍通过LM中的自我关注保持。重要的是,这种单图像交叉注意力方案允许模型无缝地推广到任何数量的视觉输入,无论在训练期间使用多少。特别是,当在交错数据集上进行训练时,我们每个序列最多只使用5个图像,但我们的模型能够在评估过程中受益于多达32对(或“镜头”)图像/视频和相应文本的序列。

2)Training on a mixture of vision and language datasets

三类数据集训练

M3W: Interleaved image and text dataset

Pairs of image/video and text

3)Multi-objective training and optimisation strategy:

在给定视觉输入的情况下,我们通过最小化每个数据集预期的文本负对数可能性的加权和来训练我们的模型:

4 附录一些内容:

原文内容还有很多细节。

相关文章:

  • webpack之介绍
  • electron GPU process isn‘t usable. Goodbye
  • 实现linux与windows进行文件共享
  • C语言之字符串函数
  • 竞赛保研 基于GRU的 电影评论情感分析 - python 深度学习 情感分类
  • 本地websocket服务端结合cpolar内网穿透实现公网访问
  • Unity protobuf中repeated转C#文件List只读问题
  • C语言中关于操作符的理解
  • 【大数据】NiFi 中的 Controller Service
  • 【Amazon 实验②】使用缓存策略及源请求策略,用于控制边缘缓存的行为及回源行为
  • 攻防世界——game 游戏
  • 10 本让我 2023 年「生产力」暴增 5 倍的经典书|收藏
  • 05. Springboot admin集成Actuator(一)
  • Qt之QWidget 自定义倒计时器
  • 操作系统--磁盘存储器的管理
  • 【JavaScript】通过闭包创建具有私有属性的实例对象
  • 4月23日世界读书日 网络营销论坛推荐《正在爆发的营销革命》
  • Django 博客开发教程 16 - 统计文章阅读量
  • JS进阶 - JS 、JS-Web-API与DOM、BOM
  • PV统计优化设计
  • Quartz初级教程
  • Ruby 2.x 源代码分析:扩展 概述
  • Spring Cloud中负载均衡器概览
  • uni-app项目数字滚动
  • Webpack 4 学习01(基础配置)
  • 从零开始在ubuntu上搭建node开发环境
  • 分享一份非常强势的Android面试题
  • 解决jsp引用其他项目时出现的 cannot be resolved to a type错误
  • 聊聊flink的TableFactory
  • 猫头鹰的深夜翻译:Java 2D Graphics, 简单的仿射变换
  • 扫描识别控件Dynamic Web TWAIN v12.2发布,改进SSL证书
  • 实习面试笔记
  • No resource identifier found for attribute,RxJava之zip操作符
  • !!【OpenCV学习】计算两幅图像的重叠区域
  • # 执行时间 统计mysql_一文说尽 MySQL 优化原理
  • #Linux(权限管理)
  • #在 README.md 中生成项目目录结构
  • $(document).ready(function(){}), $().ready(function(){})和$(function(){})三者区别
  • (2)(2.4) TerraRanger Tower/Tower EVO(360度)
  • (2021|NIPS,扩散,无条件分数估计,条件分数估计)无分类器引导扩散
  • (22)C#传智:复习,多态虚方法抽象类接口,静态类,String与StringBuilder,集合泛型List与Dictionary,文件类,结构与类的区别
  • (3)Dubbo启动时qos-server can not bind localhost22222错误解决
  • (4) PIVOT 和 UPIVOT 的使用
  • (70min)字节暑假实习二面(已挂)
  • (9)YOLO-Pose:使用对象关键点相似性损失增强多人姿态估计的增强版YOLO
  • (C)一些题4
  • (k8s中)docker netty OOM问题记录
  • (待修改)PyG安装步骤
  • (附源码)springboot教学评价 毕业设计 641310
  • (附源码)springboot社区居家养老互助服务管理平台 毕业设计 062027
  • (十)DDRC架构组成、效率Efficiency及功能实现
  • (提供数据集下载)基于大语言模型LangChain与ChatGLM3-6B本地知识库调优:数据集优化、参数调整、Prompt提示词优化实战
  • (一)SpringBoot3---尚硅谷总结
  • (转)可以带来幸福的一本书
  • .NET/C# 在 64 位进程中读取 32 位进程重定向后的注册表