多模态:Seed-story故事生成
文章目录
- 前言
- 一、介绍
- 二、Method
- 1. Story Generation with Multimodal Large Language Model
- 2.Multimodal Attention Sink
- 三、StoryStream数据集
- 四、实验效果
- 总结
前言
伴随图像生成和文本生成的迅速发展,多模态故事生成以交错的方式生成叙事文本和生动形象为特征,已成为一种有价值的故事生成方式
具有广泛应用的实际任务。该任务的主要难点在于文本和图像之间复杂的相互作用,以及生成连贯的且上下文相关的长序列的能力。
paper:https://arxiv.org/pdf/2407.08683
github: https://github.com/TencentARC/SEED-Story
一、介绍
文章提出Seed-story,一种利用多模态大语言模型生成扩展的多模态故事。模型建立在强大的MLLM的理解能力,预测文本token以及视觉token基础上,这些token随后使用自适应的de-tokenizer进行处理产生一致的character和style。
另外,文章提出了一种多模态 attention sink 机制让故事的生成序列最多达到25个(自回归方式)。
数据集方面提出了一个名为StoryStream的大规模高分辨率数据集。
Contributions as follow:
- Seed-story, 充分利用MLLM生成丰富的叙述文本和内容相关的图像;
2)多模态attention sink, 生成更多序列
3)提出StoryStream数据集
二、Method
1. Story Generation with Multimodal Large Language Model
整个train piepline 分为3个阶段,
1):使用vit模型提取图像特征,然后用该特征作为输入,送入SDXL中进行训练(该部分替代了原始输入文本特征的部分)
2):MLLM微调,采样一段长度的故事数据,输入第一张图和文本,然后去输出接下来的图和文本。具体在模型训练上表现为,输入文本的token和一段可学习的query,然后输出下一张图的文本token预测,和下一张的图像特征并计算对应loss
3)使用MLLM预测的图像特征输入SDXL进行解码,生成图像,并计算对应loss
2.Multimodal Attention Sink
这部分作者做了一些实验,分析了主要两个目前存在的几种attention运算方式以及token的频率,分析了下缺陷,并针对所设计模型的方式设计了新的attention计算方式,简单来说,基于Attention sink的方法额外保留了text tokens、images tokens的起始token和image token的终止token,它可以有效地使模型泛化为生成比训练序列长度更长的序列。
三、StoryStream数据集
创建多模式故事生成数据集的理想来源是卡通系列,它本质上包含丰富的情节和一致的人物形象。文章选择了三个卡通系列来构建我们的数据集。该过程从收集各种系列开始,我们从中提取关键帧及其相关字幕,然后每个关键帧由 GPT-4V或Qwen-VL处理以生成详细的图像描述。这些元素(关键帧、字幕和描述)被编译到一个组中。我们汇总了 30 个这样的组并将其输入 GPT-4,并补充了有关卡通系列的背景信息。
四、实验效果
由于多模态故事生成的方法相对较少,文章采用人工评测和GPT评测方法,并给出长故事生成的效果。
此外,为了验证文章提出的multimodal attention sink,文章也进行了对比实验。
总结
Seed-story可以算作是多模态领域的又一创新应用,在MLMM的发展中,可以发现CV与NLP的模块结合可以实现很多有意思的事情,另外最重要的一点还是数据的构建,MLMM时代,数据的构建将成为新的重点,文章将SD和LLM的结合虽然简单,但是策略还是很有意思的!!!