1. 图像描述生成:
-
- 任务描述:生成描述图像内容的自然语言文本。
- 应用场景:辅助视觉障碍人士理解图像内容、图像搜索引擎等。
- 主要使用的数据集:
-
-
- COCO(Common Objects in Context):包含约120万张图像,每张图像都有5个描述句子,用于图像描述和识别。
- Flickr30k:包含3万张图像,每张图像都有5个描述句子。
2. 视觉问答:
-
- 任务描述:给定一个图像和一个与图像内容相关的问题,模型需要生成或选择正确的答案。
- 应用场景:智能助手、教育辅助系统等。
- 主要使用的数据集:
-
-
- VQA(Visual Question Answering):包含超过260万对图像和问题,用于评估模型的视觉问答能力。
- GQA(Geometry Question Answering):包含超过100万对图像和空间推理问题。
3. 图像分类:
-
- 任务描述:将图像分配到一个或多个类别中。
- 应用场景:内容审核、物体识别等。
- 主要使用的数据集:
-
-
- ImageNet:包含超过1400万张图像,分布在21,841个类别中,用于大规模图像识别。
- CIFAR-10/CIFAR-100:包含60,000张图像,分为10或100个类别,用于图像分类和识别。
4. 视频理解:
-
- 任务描述:理解和描述视频内容,包括动作识别、事件检测等。
- 应用场景:视频监控分析、视频内容推荐等。
- 主要使用的数据集:
-
-
- Kinetics:包含数百万个视频剪辑,涵盖400多个人类动作类别。
- Something-Something V2:包含220,860个视频剪辑,用于动作识别。
5. 语音识别:
-
- 任务描述:将语音信号转换为文本。
- 应用场景:语音助手、会议记录等。
- 主要使用的数据集:
-
-
- LibriSpeech:包含超过1000小时的英语朗读语音数据。
- Common Voice:Mozilla提供的众包语音识别数据集,包含多种语言的语音数据。
6. 机器翻译:
-
- 任务描述:将一种语言的文本或语音翻译成另一种语言。
- 应用场景:多语言交流、国际化内容生成等。
- 主要使用的数据集: