当前位置：首页 > news >正文

Google力作入选CVPR2024：用生成模型的超能力填充庞大的负样本空间

news 来源：原创 2024/7/2 13:14:27

论文标题：

Generating Enhanced Negatives for Training Language-Based Object Detectors

论文作者：

Shiyu Zhao, Long Zhao, Vijay Kumar B.G, Yumin Suh, Dimitris N. Metaxas, Manmohan Chandraker, Samuel Schulter

导读：

基于自然语言的开集目标检测的最新进展很大程度上归功于找到能够更好利用任意格式文本注释数据的方法。事实证明，使用判别性目标函数训练此类模型需要良好的正样本和负样本。然而，这种任务形式使得负样本空间变得极其巨大。研究者利用生成模型的大量知识来自动构建与原始数据更相关的负样本。©️【深蓝AI】编译

1. 引言

在目标检测中使用自然语言来描述语义可以显著增加检测器标签空间的大小，并实现新的应用。虽然标准检测器在固定的标签空间上运行，但自然语言允许广泛的对象描述，从通用术语如“车辆”到特定表达，如“停在左侧的红色跑车”。在过去的几年里，一些研究通过新颖的训练策略和模型架构改进了基于语言的目标检测。

Referring expression或visual grounding数据集提供了训练所需的自然语言对象描述以及边界框注释。然而，这些数据只描述了图像中存在的东西，而没有描述图像中不存在的东西。并且，负样本的概念对于训练基于语言的检测器等判别模型至关重要。

在这里插入图片描述
图1｜研究者工作的关键贡献是利用大语言模型和文生图扩散模型来自动生成负样本对象描述和图像，用于训练基于语言的对象检测器。与之前的工作相比，研究者生成的负样本与原始数据更相关，并为检测器提供了更好的训练信号©️【深蓝AI】编译

具有固定标签空间的检测数据集隐式或显式地提供负样本。任何与类别的边界框没有明显重叠的图像部分都认为不属于该类别。另一方面，对于一个对象的任意形式文本描述，负样本的空间是非常大的。虽然一些现有的数据集以任意格式文本提供负样本，但它们没有使用边界框进行注释。因此，现有的基于自然语言的检测器通常将一个对象的负样本定义为对同一图像中所有其他对象的描述或对其他随机样本的描述。然而，这样的负样本可能与原始的正样本描述没有直接关系，并且会定义一个较弱的训练信号（如图1）。通过明确评估人工整理的负样本，基准OmniLabel发现了现有的基于自然语言的检测器在正样本描述上的表现明显优于负样本描述的偏见。但需要注意的是，为大规模训练创建一个高质量的人工整理的负样本数据集是一项劳动密集型且昂贵的工作。

在这项工作中，研究者提出以任意格式文本和图像的形式显式自动生成负样本数据。先前的工作大多依赖基于规则的方法，且只关注语言领域或分类任务。相比之下，研究者利用生成式大语言模型和文生图扩散模型，为基于语言的目标检测自动创建相关但相互矛盾的对象描述以及相应的图像。

给定数据集的对象描述，研究者首先使用大语言模型生成语义上矛盾的描述，作为负样本。除了像之前的工作，基于显式知识图或大语言模型改变单个单词外，研究者还通过两种替代方法证明了改进的检测性能：

1）重组：大语言模型首先识别句子中的所有对象，然后通过重新排列、忽略或添加对象来创建一个矛盾的句子。

2）上下文摘要：研究者提示大语言模型总结从现有图像级数据集中收集的几个（少于100个）正负对的差异。然后将此摘要用作上下文，以生成更多此类示例。注意，这一步不需要视觉输入，允许研究者利用强大的大语言模型进行语义和文本推理。

此外，虽然之前的工作只关注文本，但研究者也利用像GLIGEN这样的文生图扩散模型来创建与生成的负样本对象描述相匹配的图像，作为额外的训练信号。虽然这种图像生成模型的直接输出通常是有噪声的，甚至是错误的，即与输入描述不匹配，但研究者提出了两个过滤步骤来显着降低噪声（根据实证研究显示，噪声从53%降至16%）。同时拥有负样本对象描述和相应的图像，使研究者能够改善训练基于语言的目标检测器的判别损失。

当研究者将自动生成的负样本数据添加到基线模型（如GLIP或FIBER）的训练中时，研究者的实验表明，在两个具有挑战性的基准测试中，在OmniLabel上提升了2.9+AP，在d3上提升了3.3+AP上，有明显的准确性提高。此外，研究者还提供了对生成数据(文本和图像)的深入分析，以及它们如何有助于更好地基于语言的检测。

本文贡献点如下：

1）使用大规模生成模型自动生成语义相关但矛盾的负样本文本和图像；

2）将负样本数据集成到基于语言的检测模型中的方法，如FIBER和GLIP；

3）对基于语言的检测基准的明显改进，包括对生成数据的彻底分析。

2. 相关工作

2.1 视觉和语言定位任务

开放词汇检测（ovd）需要一个模型来定位对象类别名称，而不需要看到它们的显式边界框注释。相比之下，研究者关注的是更通用的基于语言的目标检测任务，它超越了简单的类别名称。Referring expression理解（rec）旨在定位任意格式文本表达式的主体。然而，rec基准在评估更通用的基于语言的检测任务的各个方面方面都有所欠缺。Visual grounding (vg)任务是定位图像中标题的名词短语。尽管vg数据集本身就是一项任务，但它最近主要被用作ovd的训练数据。研究者的工作重点是基于通用语言的目标检测，它包含并推广了标准检测、ovd和rec。

2.2 基于语言的目标检测

基于语言的目标检测的两个关键能力是精确定位和紧密的文本图像融合。一些方法使用像BERT这样的语言模型来对齐从(预训练的)检测器中提取的带有标题的区域。大规模预训练模型(如CLIP)出色的zero-shot分类精度引发了人们对扩展定位的兴趣，使用不同的方法，如蒸馏、微调、伪标签或其组合。研究者使用这样的模型作为测试平台，但探索相对于负样本的底层训练数据。

2.3 目标检测中的负样本

负样本的概念对于训练判别模型至关重要。对于目标检测，硬负样本挖掘已被证明对模型训练有益。然而，这些先前的工作旨在寻找硬负样本训练样例，而不是在标签空间中寻找负样本，因为在标准检测中标签空间是固定的。对于基于语言的数据集，潜在负样本的空间非常大，因为对象描述是任意格式的文本。先前的研究用不同的策略研究了负样本对通用视觉语言模型的影响，包括用基于规则或大语言模型来改变单个单词。相比之下，研究者的工作侧重于定位任务，且探索了使用大语言模型生成负样本的更全面的策略，还提出了使用文生图扩散模型生成相应的负样本图像的方法。

在这里插入图片描述
图2｜在基于语言的目标检测中，检测器接收作为输入的图像和对象的任意格式文本描述（可变长度）列表。对于每个描述，模型预测与描述匹配的对象的边界框©️【深蓝AI】编译

3. 方法

3.1 基于语言的目标检测

任务定义：给定图像和目标描述列表，任务是输出边界框以及每个描述的置信度得分，如图2所示。注意多标签设置，其中一个目标实例可以由多个描述引用，如“人”和“人看书”。还要注意，目标描述可能没有真正引用图像中的任何对象，所需的输出是一组空框。

训练数据：许多基于语言的检测模型使用目标检测和visual grounding数据集的组合来训练它们的模型。这两种类型的数据集都提供图像 $I$ 和边界框 $b_l$ 来定位单个对象。目标检测数据从固定标签空间 $C$ 中为每个边界框 $b_l$ 分配一个唯一的类别 $c$ ，检测数据集中固定标签空间的穷举标记意味着负样本空间。目标的类别没有任何类别的 $\ c C \backslash c$ 。另一方面，grounding数据以任意格式文本格式提供了一种图像描述 $t$ ，其中单词子集 $m_l$ 与边界框 $b_l$ 相对应。对于grounding数，负样本的空间非常大，因为由于任意形式的文本的组合性，可以找到与 $t$ 不匹配的尽可能多的文本描述。许多基于语言的检测器只使用 $t$ 中未被 $m_l$ 引用的单词作为边界框 $b_l$ 的负样本。研究者认为这种选择是次优的，因为这些单词可能指的是完全不同的对象，很容易区分。在下一节中，研究者将解释如何自动生成语义上与原始文本 $t$ 相关的负样本，从而提供更好的训练信号。

3.2 生成负样本

研究者的目标是基于原始文本描述 $t$ 自动显式地生成负样本，以改进基于语言的检测器的训练信号。研究者工作的一个关键观察是利用大量的知识编码到大语言模型和文生图扩散模型中。除了提出指导大语言模型生成负样本文本描述的新方法外，研究者还提出生成负样本图像的方案。

· 利用大语言模型生成负样本描述

给定与边界框 $b_l$ 内的视觉内容匹配的目标描述 $t$ ，研究者将“负样本”描述 $t$ 定义为与原始文本在语义上不同的任何文本。此外，研究者的直觉是，好的负样本描述在语义上仍然与原始描述相关，但不相同。一个例子是：“穿红衬衫的人”作为原始描述，“穿蓝衬衫的人”作为矛盾的描述。先前的工作探索了基于规则的方法来生成负样本文本。但是，这些规则通常仅限于简单的知识图谱，并且仅限于替换单个单词（通常只是名词）或交换单词。相比之下，研究者探索了更强大的大语言模型来自动生成相关的负样本。为了提高负样本文本生成的效率，研究者首先利用一个强指令调优的大语言模型来生成50k个正负样本对，然后用这些样本对微调一个llama-7b模型，最后在大量基础数据集上生成负样本描述。研究者描述了利用大语言模型生成目标正负样本描述对的三种方式：

▵基于大语言模型的属性抽取：在这种方法中，研究者首先提示指令调优的大语言模型在目标描述中查找概念（即对象、属性和关系）。相对于基于规则的解析器，大语言模型可以提供更丰富的信息。例如，对于标题“一辆交通工具载着一群坐着和站着的人”，解析器忽略了“坐着”和“站着”，而大语言模型将它们视为属性。然后，研究者依次从第一步中选择一个概念，并再次提示大语言模型通过更改概念来生成负样本描述。对于这两个步骤，都使用任务定义和生成的分步说明手动管理提示。

▵重组：接下来，研究者尝试在生成负样本描述时给予大语言模型更多的自由。研究者首先提示它识别原始标题中的所有对象，然后将它们重新组合以创建一个与原始描述不同的新句子。研究者允许大语言模型忽略、更改或添加新对象。例如，给定标题“一个男孩正在和他的狗玩”以及两个主体“男孩”和“狗”，大语言模型可以输出“女孩和她的狗在公园里玩接球游戏”。

▵上下文总结：最后，研究者试图通过使用人类注释的正负样本对来提取关于正样本和相应的负样本描述之间的差异的文本描述。研究者从winoground数据集中随机抽取80对正样本和负样本文本，并提示指令调优的大语言模型将这些文本对的差异汇总为文本。然后，研究者不是手动创建提示来生成正负样本对，而是利用文本摘要和三个随机采样的winoground对作为提示来生成此类数据。

· 用文生图扩散模型生成负样本图像

给定原始图像 $I$ 、边界框 $b$ 和相应的目标描述 $t$ ，研究者将负样本图像 $I^{'}$ 定义为 $b$ 中具有不同语义内容的任何图像。图像的其余部分可以等效于 $I$ 。为了获得这样的图像，研究者从visual grounding数据开始，这些数据提供了边界框、带有文本短语的正样本描述以及它们之间的对应关系。研究者提出了一个分两步的过程：首先，研究者将正样本描述转换为负样本描述。其次，研究者使用条件图像生成工具来改变边界框 $b$ 内的视觉内容。

在这里插入图片描述
图3｜利用大语言模型和文生图扩散模型生成负样本图像整体流程©️【深蓝AI】编译

▵将正样本描述转换为负样本描述：尽管研究者已经在「利用大语言模型生成负样本」这一节中描述了生成负样本描述的方法，但生成图像需要不同的方法。在这种情况下，生成的负样本文本需要保留与ground truth边界框 $b_l$ 对齐的 $m_l$ ，以便指示文生图模型GLIGEN。因此，研究者首先选择一个边界框 $b_l$ ，并屏蔽文本 $t$ 中相应的单词（已知的 $m_l$ ）。例如，如果所选的边界框指的是“他的狗”，“一个男孩在和他的狗玩”就会变成“一个孩子在和[mask]玩”。再次，研究者利用大语言模型来填充“[mask]”的文本，从而在不重用原始文本的情况下生成负样本文本，整体流程可参考图3。研究者用正样本文本、掩码文本和负样本文本的三元组来微调用于掩码填充任务的llama-7b。为了减少人工操作，研究者采用了无正文摘要的方法来获取三元组样本。研究者应用这个过程两次：研究者只从5个手动创建的三元组开始构建摘要，并通过人工检查从大语言模型生成100个样本。然后，研究者重复该过程，从100个生成示例的摘要中生成50k个示例，而无需人工检查。这增加了所生成的数据的多样性。

▵条件图像生成：给定图像 $I$ 、边界框 $b$ 和修改后的文本 $t^{'}$ ，研究者生成一个负样本图像 $I^{'}$ ，该图像 $I^{'}$ 除 $b$ 内的内容外与 $I$ 相等，其中视觉内容被修改以匹配文本 $t^{'}$ 。为此，研究者使用了GLIGEN的修复和调节能力。

▵减轻图像生成中的噪声：研究者发现，由于以下任何一个原因，生成的图像往往是有噪声的：

1）更改后的文本指的是覆盖其他较小框的大边界框。图像的大部分内容被重新生成，并且通常与那些较小边界框最初覆盖的概念不匹配。

2）生成的负样本文本与太小、太大或位置不合适的边界框不匹配。

3）文生图模型无法理解负样本文本并生成错误的内容。研究者提出了两个步骤来过滤这种噪声图像。首先，如果框覆盖了图像中任何其他框的75%以上，那么研究者只需忽略ground
truth边界框 $b_l$ 即可生成图像。其次，研究者采用CLIP来验证生成的图像区域与相应文本的语义相似性。具体来说，研究者计算生成的图像区域（视觉输入）与原始和生成的负样本文本（文本输入）之间的语义相似度。研究者过滤出与生成的负样本文本的相似度得分低于用户定义阈值的生成图像。

在这里插入图片描述
图4｜训练损失说明。与ground truth匹配的预测从相关联的文本（高矩形）接收正样本信号。所有其它字接收负样本信号（短矩形）。左上角显示了原始损失。其他四分之三与研究者提出的生成的负样本数据有关，并提供额外的训练信号©️【深蓝AI】编译

3.3 从负样本中学习

研究者现在描述如何将生成的负样本文本和图像集成到基于训练语言的检测器中。

· 检测器的设计和训练目标：

生成的数据没有为检测器规定任何特定的架构。输入是图像 $I$ 和文本 $t$ ，输出是一组具有相应logits ${\hat p}_{i} \in {\mathbb R}^{T}$ 的边界框 ${\hat b}_{i}$ 。这里， $T$ 是表示文本 $t$ 所需的标记数。ground truth可以用二值赋值矩阵 $\mathbf{A} \in \mathbb{B}^{L \times T}$ 来表示。每个元素指示token是否对应于由ground truth索引 $m_l$ 给出的框 $l$ 。为了定义损失，二分图匹配将预测与ground truth相关联。对于匹配的预测，目标向量 $g_{i} \in \mathbb{B}^{T}$ 是来自 $\mathbf{A}$ 的对应行，而对于不匹配的目标，它是全零向量。然后计算损失 $\mathcal{L}=\sum_{i} \ell_{\mathrm{FL}}\left(\hat{p}_{i}, g_{i}\right)$ 。图4说明了负样本文本的损失。

· 整合负样本文本：

当对图像 $I$ 以及文本 $t$ 、框 $b_l$ 和索引 $m_l$ 进行采样时，研究者还从 $\left\{t_{j}^{\prime}\right\}$ 中随机采样 $K > 1$ 个负样本-描述，该描述定义了为文本 $t$ 生成的负样本池。研究者随机打乱所有文本的顺序，以避免对一个正样本描述的位置产生任何偏差，然后将它们连接到一个文本字符串中。

· 整合负样本图像：

研究者探索了两种选择：

1）简单地将生成的图像 $I^{'}$ 及其生成的（但语义匹配的）字幕 $t^{'}$ 添加为额外的visual
grounding数据。作为生成负样本图像 $I^{'}$ 的起点的原始描述现在用作负样本描述。这样，原始图像 $I$ 和生成的图像 $I^{'}$ 都具有正样本和负样本描述。该选项如图4所示。

2）为了更好地利用原始数据和生成数据之间的关系，第二种选择是将它们打包到单个训练样本中。研究者简单地将图像 $I$ 和 $I^{'}$ 以及文本 $t$ 和 $t^{'}$ 连接起来。ground
truth信息 $m_l$ 被相应地更新。

4. 实验

4.1 实验设计

· 训练过程：

研究者选择了两种最新的方法，GLIP-t和FIBER-b，来演示研究者自动生成的负样本的效果。研究者使用官方代码和公开可用的checkpoints作为起点。flickr30k数据集作为研究者生成负样本数据的基础数据集。然后，研究者使用正样本和负样本数据以及objects365检测数据集]对GLIP-t和FIBER-b进行一个epoch的微调。请注意，objects365和flickr30k都是原始训练集的一部分。除了生成的负样本之外，研究者不引入任何额外的数据。大多数超参数等于GLIP和FIBER的原始设置。

· 评估基准：

研究者选择最近提出的两个基准，OmniLabel和作为研究者的测试基准。与现有的referring expression或开放词汇检测基准相比，这些基准评估了基于语言的检测的更多方面。具体来说，这两个基准测试都包含复杂的目标描述，这些描述超出了开放词汇检测基准测试中的简单类别名称。此外，与标准referring expression基准相比，描述可以指代图像中的零个、一个或多个实例。这些特性实现了更严格的评估度量，如目标检测，其基于OmniLabel和d3中的平均精度（AP）。这两个基准都提供了更细粒度的度量。OmniLabel分别使用APc、APd和APd-p对引用至少一个目标的类别、描述和描述进行单独评估。d3区分了关于不存在（“abs”）和存在（“pres”）的描述，这些描述表明它们是否包含任何形式的否定（例如，“没有”），以及文本长度。最后，研究者为OmniLabel创建了一个特定的子集，“OmniLabel-negative”，以仅在包含至少一个负样本描述的图像上评估模型（即，不指代任何目标）。

在这里插入图片描述
表1｜OmniLabel评估结果©️【深蓝AI】编译

在这里插入图片描述
表2｜D3评估结果©️【深蓝AI】编译

4.2 Benchmark对比

表1和2评估了研究者生成的负样本训练数据对OmniLabel和d3基准的影响。在这两个表中，第一组行都是基准测试提供的基线。以下几行显示了在添加和不添加研究者生成的负样本训练数据的情况下，GLIP-t和FIBER-b的主要比较。首先，研究者可以看到，添加负样本数据可以改善两个模型和两个基准测试的所有指标的结果。在OmniLabel上，研究者可以看到GLIP-t和FIBER-b的AP分别增加了+2.9%和+2.4%。类似地，研究者观察到GLIP-t和FIBER-b的d3（完整描述中的AP）的主要指标增加了+2.3%和+3.3%。

4.3 负样本文本分析

在这里插入图片描述
表3｜负样本文本有效性分析结果©️【深蓝AI】编译

· 不同负样本文本的有效性：

研究者在不使用和使用第3.2.1节中提到的不同类型的负样本文本的情况下对FIBER-b进行微调。根据表3中的结果，研究者发现，在OmniLabel和d3基准测试中，各种负样本都改进了原来的FIBER-b。来自大语言模型的负样本文本通常能获得更好的结果，这表明大语言模型是生成负样本-文本的强大工具。此外，在除APd-P之外的所有指标中，Re-combination和In-context summary都优于LLM-based foils。注意，APd-P指的是没有负样本标签空间的评估，这是一项比基于语言的检测弱的任务。研究者相信，研究者的两个解决方案，即Re-combination和In-context summary，为未来的研究提供了一个很好的起点。

在这里插入图片描述
图5｜负样本文本与字数的百分比©️【深蓝AI】编译

在这里插入图片描述
图6｜负样本文本的字数与原始描述不同的百分比©️【深蓝AI】编译

· 基于规则和大语言模型负样本的多样性：

在这一部分中，研究者研究了不同负样本文本的多样性。首先，研究者计算每个负样本文本的字数，并在图5中提供不同来源的否定词的分布。如图所示，所有四种分布都在10个单词附近有一个峰值，但基于规则的方法中的峰值比其他方法高。这意味着基于规则的方法提供了更多长度相似的负样本文本。其次，研究者计算原始正样本描述和负样本描述之间的不同单词的数量，并在图6中呈现分布。研究者发现，基于大语言模型的方法通常比基于规则的方法改变更多的单词，这增加了多样性。此外，上下文摘要与其他摘要相比具有更平坦的分布。上下文总结可能学习了如何从数据中自动生成负样本，并且限制较少。此外，上下文摘要还有更多没有单词变化的情况，其中负样本文本是通过在原文中打乱单词或概念而生成的。这种随机性是winoground的一种常见模式，研究者的上下文摘要可以学习这种特定于数据的模式。

在这里插入图片描述
图7｜每千个生成的负样本文本中额外唯一单词的平均数量，这些文本不包括在原始数据集中。研究者把单词按词性分组©️【深蓝AI】编译

第三，研究者统计了在不同的负样本生成方法中引入了多少在原始flickr30k数据集中不存在的额外单词。图7示出了每1000个负样本文本的额外单词的平均数量。研究者把单词分为四类，即VERB, NOUN, ADP/ADJ和其他。如图所示，大语言模型平均比基于规则的方法引入更多的额外单词，这可能是因为基于规则的方案仅限于预定义的单词集。然而，大语言模型对任何概念都持开放态度，并具有生成各种文本的巨大潜力。上下文摘要为所有类别引入了最多的额外单词，这可能是从数据中学习负样本生成的好处。上述统计数据清楚地表明，大语言模型生成的数据比基于规则的方法更为多样。

4.4 负样本图像分析

在这里插入图片描述
图8｜噪声生成的图像。橙色框包含红色框，编辑橙色会意外更改红色©️【深蓝AI】编译

在这里插入图片描述
图9｜左图：由文本到图像模型生成的错误属性或对象导致的负样本图像有噪声。右图：由不适当的边界框或大语言模型中的负样本文本引起的噪声负样本图像。生成的图像的CLIP分数是指与正样本文本相比，框和负样本文本之间的相似性。对CLIP分数进行阈值处理可以去除那些有噪声的图像©️【深蓝AI】编译

· 生成图像中的噪声：

如「用文生图扩散模型生成负样本图像」这一节最后一段所述，原始生成的图像在几个方面是有噪声的。首先，对大框的编辑将覆盖大框所覆盖的较小框的上下文。如图8所示，GLIGEN确实按照指示在橙色框中生成了一个男孩，但红色框中的黑色夹克不见了。作为补救措施，研究者应用了研究者的第一个去噪步骤“边界框过滤器”。也就是说，当生成负样本图像时，研究者忽略包含任何其他框的框。其次，GLIGEN可能生成具有错误属性或对象的内容，如图9（左）所示。此外，研究者的流程包括一些编辑后的文本和边界框不匹配的情况。如图9（右）所示，“his lap”的框不能修改为“his knees”。因此，GLIGEN生成了错误的内容。如第3.2.2节所述，研究者采用预训练的CLIP模型来判断生成的内容是否正确，这在一定程度上减轻了噪声。如图9所示，两个负样本图像都获得较低的CLIP分数，并且可以用阈值过滤掉。研究者将这种阈值化称为“CLIP过滤器”。

在这里插入图片描述
图10｜生成的合格负样本图像的百分比©️【深蓝AI】编译

· 对边界框和CLIP过滤器的研究：

研究者聘请人类专家来检查生成的图像中的噪声量。首先，对于负样本图像w/o过滤器、w/box过滤器和w/box&CLIP过滤器，研究者分别随机选择100个样本。然后，研究者请两位专家通过将负样本图像与其标题和原始正样本图像进行比较来检查它是否没有噪声。当两位专家都同意时，研究者认为图像没有噪声。如图10所示，两个过滤器都降低了噪声。边界框过滤器从47%提高到63%，而CLIP过滤器提高到84%。

在这里插入图片描述
表4｜用负样本图像训练FIBER©️【深蓝AI】编译

· 生成的负样本图像的有效性：

为了显示生成的图像本身的有效性，研究者将生成的图像的描述作为上下文摘要的附加负样本文本，并将FIBER模型作为基线进行微调。然后，研究者将基线与表4中添加生成的负样本图像的变体进行比较。如表4所示，如果研究者在没有任何过滤器的情况下直接将原始负样本图像作为新的visual grounding数据（即w/neg.img.directly），则性能会下降。如图10所示，在原始负样本图像中可能存在太多噪声。当在负样本图像上同时应用box和CLIP过滤器时，与仅使用负样本-文本相比，研究者可以在OmniLabel上实现轻微的改进。

· 在训练期间拼接图像：

按照将正样本和负样本描述连接为文本输入的想法，研究者在训练期间将正样本和负样本图像连接为一个输入图像。通过这种方式，模型被迫在一次训练迭代中说出正样本和负样本图像之间的差异，这有助于检测器更好地了解负样本。如表4所示，这种简单的技术改进了OmniLabel和d3上的“+box&CLIP filters”。此外，研究者对两个FIBER模型的权重进行了集成，一个仅用负样本文本进行微调，另一个同时用负样本文本和图像进行微调。最后，与仅使用负样本文本相比，研究者在OmniLabel上获得了1.3的APd提升，在d3上没有性能下降。

在这里插入图片描述
图11｜t-SNE分布可视化©️【深蓝AI】编译

· 对生成的图像和基准的洞察：

表4显示负样本图像对OmniLabel有帮助，但对d3没有太大帮助。研究者在数据基础上对此进行了探讨。研究者首先基于边界框来裁剪生成的图像、OmniLabel图像和d3图像的图像区域。然后，研究者随机选择1000个图像区域，并将它们输入到CLIP图像编码器中，以获得CLIP嵌入。稍后，研究者将这些嵌入输入t-sne，以说明不同图像区域之间的相似性。如图11所示，d3的区域被分组为几个集群，而OmniLabel和研究者生成的区域分散在中心。这表明d3和其他两个之间存在明显的分布差异。因此，研究者生成的图像只对OmniLabel有帮助是合理的。在研究者看来，差距来自d3根据类别分组收集数据。相比之下，OmniLabel随机收集数据。

5. 总结

基于语言的检测需要通过引用任意形式的文本描述来定位对象。为了以有区别的方式训练准确的模型，训练数据必须包含良好的负样本。从现有的数据集开始，研究者提出了提示大语言模型生成额外的负样本文本的新方法，以及生成负样本图像以补充训练信号。基于研究者的实验评估，研究者得出结论，这些额外的负样本训练数据确实转化为在标准基准上提高了检测精度。研究者的分析证明了生成文本中多样性的重要性，与先前的工作相比，研究者的方法的多样性更高，并且研究者提出的过滤步骤可以显著提高生成图像的质量。

编译｜石大丘

审核｜Los

移步公众号【深蓝AI】，第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。