【Image captioning】论文阅读八—ClipCap: CLIP Prefix for Image Captioning_2021
中文标题:ClipCap: CLIP前缀用于图像描述(ClipCap: CLIP Prefix for Image Captioning)
文章目录
- 1. 介绍
- 2. 相关工作
- 3. 方法
- 3.1 综述
- 3.2 语言模型微调
- 3.3 映射网络架构
- 3.4 推理
- 4. 结果
- 5. 结论
摘要:图像描述是视觉语言理解中的一项基础任务,模型会对给定的输入图像预测出一段文本信息性描述。本文提出了一种简单的方法来解决这个任务。我们使用CLIP编码作为描述的前缀,通过使用一个简单的映射网络,然后对语言模型进行微调以生成图像描述。