当前位置：首页 > news >正文

多模态：Seed-story故事生成

news 来源：原创 2024/9/20 0:24:04

文章目录

前言
一、介绍
二、Method
- 1. Story Generation with Multimodal Large Language Model
- 2.Multimodal Attention Sink
三、StoryStream数据集
四、实验效果
总结

前言

伴随图像生成和文本生成的迅速发展，多模态故事生成以交错的方式生成叙事文本和生动形象为特征，已成为一种有价值的故事生成方式
具有广泛应用的实际任务。该任务的主要难点在于文本和图像之间复杂的相互作用，以及生成连贯的且上下文相关的长序列的能力。

paper：https://arxiv.org/pdf/2407.08683
github: https://github.com/TencentARC/SEED-Story

一、介绍

文章提出Seed-story，一种利用多模态大语言模型生成扩展的多模态故事。模型建立在强大的MLLM的理解能力，预测文本token以及视觉token基础上，这些token随后使用自适应的de-tokenizer进行处理产生一致的character和style。

另外，文章提出了一种多模态 attention sink 机制让故事的生成序列最多达到25个（自回归方式）。

数据集方面提出了一个名为StoryStream的大规模高分辨率数据集。

Contributions as follow:

Seed-story, 充分利用MLLM生成丰富的叙述文本和内容相关的图像；
2）多模态attention sink，生成更多序列
3）提出StoryStream数据集

二、Method

1. Story Generation with Multimodal Large Language Model

请添加图片描述
整个train piepline 分为3个阶段，
1）：使用vit模型提取图像特征，然后用该特征作为输入，送入SDXL中进行训练（该部分替代了原始输入文本特征的部分）
2）：MLLM微调，采样一段长度的故事数据，输入第一张图和文本，然后去输出接下来的图和文本。具体在模型训练上表现为，输入文本的token和一段可学习的query，然后输出下一张图的文本token预测，和下一张的图像特征并计算对应loss
3）使用MLLM预测的图像特征输入SDXL进行解码，生成图像，并计算对应loss

2.Multimodal Attention Sink

请添加图片描述
这部分作者做了一些实验，分析了主要两个目前存在的几种attention运算方式以及token的频率，分析了下缺陷，并针对所设计模型的方式设计了新的attention计算方式，简单来说，基于Attention sink的方法额外保留了text tokens、images tokens的起始token和image token的终止token，它可以有效地使模型泛化为生成比训练序列长度更长的序列。

三、StoryStream数据集

创建多模式故事生成数据集的理想来源是卡通系列，它本质上包含丰富的情节和一致的人物形象。文章选择了三个卡通系列来构建我们的数据集。该过程从收集各种系列开始，我们从中提取关键帧及其相关字幕，然后每个关键帧由 GPT-4V或Qwen-VL处理以生成详细的图像描述。这些元素（关键帧、字幕和描述）被编译到一个组中。我们汇总了 30 个这样的组并将其输入 GPT-4，并补充了有关卡通系列的背景信息。

请添加图片描述