当前位置：首页 > news >正文

快手可图模型的要点

news 来源：原创 2024/9/20 9:43:35

Kolors模型

摘要与介绍

Kolors是一个基于扩散的文本生成图像模型，能够生成高逼真度的图像，支持英文和中文。该模型结合了通用语言模型（GLM）和由多模态大语言模型生成的细粒度标题，从而提升了其理解和渲染能力。

关键见解与贡献

文本理解与渲染能力：
- Kolors使用GLM作为文本编码器，能够更好地理解复杂语义，尤其是在包含多个实体和详细描述的场景中。
- 通过使用多模态大语言模型生成的细粒度标题，Kolors展示了其在处理复杂中文文本方面的强大能力。
双阶段训练策略：
- 概念学习阶段：使用广泛的知识进行训练，确保模型能够学习到广泛的概念。
- 质量提升阶段：利用精心挑选的高美学数据，并引入新的调度策略优化高分辨率图像生成，显著提升生成图像的视觉效果。
人类评估与模型性能：
- 在KolorsPrompts基准测试上的综合人类评估显示，Kolors在视觉吸引力上表现优异，超越了大多数开源和闭源模型，包括Stable Diffusion 3、DALL-E 3和Playground-v2.5，并表现出与Midjourney-v6相当的性能。

方法

增强文本忠实度：
- 使用GLM作为文本编码器，相较于传统的CLIP和T5系列，Kolors在处理复杂语义和细节描述方面表现更佳。
- 采用50%原始文本和50%合成标题的策略，使得模型能够更好地学习和生成复杂的图像。
提升中文文本渲染能力：
- 通过数据合成方法，构建包含五万个常用词汇和数千万对图像文本对的训练数据集。
- 利用光学字符识别（OCR）和多模态语言模型，为真实图像生成新的描述，进一步提升中文文本渲染的真实感和质量。
改进视觉吸引力：
- 使用高质量数据和新的训练方法，提升了图像生成的视觉效果，减少了对后期处理步骤（如图像放大和面部修复）的依赖。

数据合成过程
利用多模态语言模型生成详细描述：

光学字符识别（OCR）：首先使用OCR技术从图像中提取文本信息。这些图像包括各种海报、标牌和场景文本。
多模态语言模型：使用多模态语言模型根据提取的文本信息生成详细的图像描述。这些描述不仅包含图像的视觉内容，还包含图像中各元素的关系和场景的语义信息。
通过这种方法，生成了数百万个图像-文本对，增强了数据集的多样性和真实性(Kolors_paper)。概念学习阶段：

数据收集：从多个公共和专有数据集中收集大规模的图像-文本对数据。这些数据集包括LAION、DataComp、JourneyDB等。
初步过滤：对收集的数据进行初步过滤，确保数据的基本质量，如分辨率、清晰度和文本匹配度。
广泛训练：使用这些大规模数据训练模型，使其能够学习到广泛的视觉概念和语义关系(Kolors_paper)。质量提升阶段：

高质量数据获取：对初步过滤后的数据进行更严格的筛选，选出数百万张高美学评分的图像。
人工标注：对这些高质量图像进行人工标注，确保每张图像的标签准确并且具有代表性。每张图像经过三次标注，通过投票决定最终标签(Kolors_paper)。
高分辨率训练：在这一阶段，模型专注于高分辨率图像的训练，采用新的调度策略，将训练步数从1000步扩展到1100步，以实现更低的终端信噪比，并调整β值以优化训练曲线(Kolors_paper)。
数据增强和优化：

使用各种数据增强技术，如随机裁剪、旋转、颜色调整等，进一步增加数据的多样性。
在训练过程中，应用分辨率缩放技术，将每个batch分成两部分，使用不同的分辨率进行编码，然后再拼接，以提升评分和训练效率(Kolors_paper)。