当前位置: 首页 > news >正文

数说故事×IDEA荣获语言与智能技术竞赛「视频语义理解赛题」季军

9月18日,由中国中文信息学会(CIPS)和中国计算机学会(CCF)共同发起并联合主办的第七届语言与智能高峰论坛召开。论坛上,2022语言与智能技术竞赛赛事组委会为各获奖团队举行了颁奖,数说故事联合粤港澳大湾区数字经济研究院——IDEA数说故事实验室,针对视频语义理解任务,提出了基于多模态学习的视频语义理解解决方案,在视频的基础上融合基础感知内容(字幕识别OCR、语音识别ASR和人脸识别等)以及知识图谱等信息,并创新性地添加知识推理模块,对域外语义标签和视频分类标签有较好的提升效果,最终从500支团队中脱颖而出,荣获语言与智能技术竞赛「视频语义理解赛题」团队季军。

 

语言与智能技术竞赛由中国中文信息学会和中国计算机学会联合主办,百度、中国中文信息学会评测工作委员会和中国计算机学会自然语言处理专委会承办。自2018年举办以来,凭借面向真实应用场景的任务设计和源自真实场景的数据集,该竞赛已成为全球最权威、最热门的中文NLP赛事之一。

2022届竞赛进一步升级,联合“千言”数据集开源项目,设置了段落检索、知识对话、情感可解释、视频语义理解四大任务,覆盖了跨模态、知识驱动、可信学习等前沿课题,具有较高的学术和产业价值。据统计,本届竞赛共计约2500支团队报名,参赛选手覆盖全球262所高校和208家企业,提交有效结果超过7000份。其中,高校选手占比约52%,来自清华大学、北京大学、复旦大学、中国人民大学、中国科学院大学、伊利诺伊理工大学、悉尼大学等国内外知名高校;企业选手占比约34%,来自中国移动、联通、平安保险、华为、腾讯、网易、小米、小鹏汽车、海康威视、施耐德电气等知名企业,覆盖了金融、互联网、传媒、通信、工程机械、能源、生物等多个行业。

数说故事联合粤港澳大湾区数字经济研究院——IDEA数说故事实验室,能在视频语义理解赛题中名列前三,这代表了我们在预训练模型在计算机视觉(CV)和自然语言处理(NLP)领域的研究成果位居行业前列。

视频语义理解任务,本质是对视频内容进行语义级别的结构化,是大规模深度分析视频内容的基础。本次比赛要求参赛选手融合知识图谱、语言、视觉、语音等多模信息,结合知识计算与推理,为视频生成相应的标签,包含一二级的分类标签和语义标签(实体/概念/事件/实体属性等)。

本次比赛技术难点

■ 跨模态信息多且混杂,如何充分融合各模态信息进行综合判断;

■ 分类标签复杂,呈二级树状结构,共278个分类标签;

■ 包含大量域外语义标签(接近50%的标签未在文本里面出现过),需要对跨模态的信息进行综合推理才能获得结果。

数说故事×IDEA解决方案

01 基于跨模态Transformer结构构建模型底座

将标题、语音和字幕信息等文本信息先输入到文本预训练模型中,得到表示文本信息的张量;

利用跨模态的注意力机制对文本和视频信息进行融合;

比起单模态能更准确地感知视频语义。

02 针对树状分类标签提出新颖的分类纠错机制

先独立地预测一级分类标签和二级分类标签;

综合预测结果的置信度,执行自底向上的逆推和自顶向下的纠错机制;

在278个分类标签中得到55%以上的准确率。

03 多种途径解决域外语义标签问题

提取出现频次大于20的语义标签(183个)来构成封闭分类集,将开放问题简化为封闭问题,降低了提取难度;

提出新颖的知识推理模块,基于人脸信息,对齐到相关人物的知识图谱,进行域外标签推理,下图为具体标签的提取和推理流程。

数说故事作为国内领先的一站式大数据及AI智能应用提供商,具备千亿级基础数据平台,并基于成熟自助的算法平台与算法专利,以及多年的算法能力积累,搭建了可自助的算法平台,此算法平台大幅度降低训练数据和算法开发的研发成本、维护成本,形成算法和模型的积累,目前已积累37种算法及模型。

2021年,数说故事联合IDEA数字经济研究院CTO Labs正式成立「IDEA数说故事实验室」,共同围绕AI知识图谱、下一代动态海量事理图谱技术等领域展开国际一流的研究和产业化落地,推动技术突破真正地转化为可落地的商业和社会价值。数说故事联合粤港澳大湾区数字经济研究院——IDEA数说故事实验室在围绕AI知识图谱、下一代动态海量事理图谱技术等领域展开国际一流的研究和产业化落地,不仅一次获得业界的认可,在前不久,IDEA数说故事实验室论文获「国际AI顶会IJCAI-ECAI 2022 Survey Track」收录。

数说故事联合粤港澳大湾区数字经济研究院——IDEA数说故事实验室,能够在此次语言与智能技术国际竞赛中出类拔萃,创下佳绩,这是在视频语义理解模型创新技术的一大突破。

未来,数说故事联合粤港澳大湾区数字经济研究院——IDEA数说故事实验室将持续在知识融合、可信学习、跨模态等技术在应用落地中不断提升,提升语言理解与人机交互智能水平,实现创新发展,为推动语言与智能领域技术发展和应用贡献力量。

 

 

相关文章:

  • 30岁生日收到公司的生日礼物,一份裁员通知,有人从此一蹶不振,而我逆风翻盘,重获新生~
  • PIE-Engine APP:广东省生态遥感指数研究
  • 学好大数据能做什么工作?
  • 谷粒学院16万字笔记+1600张配图(十三)——搭建前台环境、首页数据显示
  • vue 向 docx模板中填充数据生成目标docx 文件
  • 内卷时代,扫地机器人何时能成为刚需?
  • 李春葆、严蔚敏关于KMP算法的next数组值差1
  • 驱动开发:通过ReadFile与内核层通信
  • Superset embed Dashboard到React App
  • Kotlin协程基础-CoroutineContext
  • Node学习二十 —— 构建和使用HTTP中间件
  • 解决驱动开发中并发和竞争中的问题----------自旋锁
  • 【VIO】第1讲 IMU 传感器
  • 每日三题 9.30
  • C++ Reference: Standard C++ Library reference: C Library: cmath: llrint
  • centos安装java运行环境jdk+tomcat
  • Cookie 在前端中的实践
  • Java小白进阶笔记(3)-初级面向对象
  • JAVA之继承和多态
  • Mysql数据库的条件查询语句
  • Node 版本管理
  • nodejs实现webservice问题总结
  • passportjs 源码分析
  • python 装饰器(一)
  • Synchronized 关键字使用、底层原理、JDK1.6 之后的底层优化以及 和ReenTrantLock 的对比...
  • 成为一名优秀的Developer的书单
  • 纯 javascript 半自动式下滑一定高度,导航栏固定
  • 技术胖1-4季视频复习— (看视频笔记)
  • 前端工程化(Gulp、Webpack)-webpack
  • 前嗅ForeSpider教程:创建模板
  • 容器服务kubernetes弹性伸缩高级用法
  • 提醒我喝水chrome插件开发指南
  • 小程序滚动组件,左边导航栏与右边内容联动效果实现
  • 小李飞刀:SQL题目刷起来!
  • 阿里云ACE认证学习知识点梳理
  • 国内开源镜像站点
  • 教程:使用iPhone相机和openCV来完成3D重建(第一部分) ...
  • 如何在招聘中考核.NET架构师
  • # C++之functional库用法整理
  • #我与Java虚拟机的故事#连载02:“小蓝”陪伴的日日夜夜
  • #我与Java虚拟机的故事#连载12:一本书带我深入Java领域
  • #周末课堂# 【Linux + JVM + Mysql高级性能优化班】(火热报名中~~~)
  • (Redis使用系列) Springboot 使用Redis+Session实现Session共享 ,简单的单点登录 五
  • (附源码)python房屋租赁管理系统 毕业设计 745613
  • (数据结构)顺序表的定义
  • (转)Linux整合apache和tomcat构建Web服务器
  • ***linux下安装xampp,XAMPP目录结构(阿里云安装xampp)
  • .bat批处理(四):路径相关%cd%和%~dp0的区别
  • .gitattributes 文件
  • .NET CLR基本术语
  • .NET项目中存在多个web.config文件时的加载顺序
  • [ C++ ] 继承
  • [20150321]索引空块的问题.txt
  • [AIGC] Spring Interceptor 拦截器详解
  • [BZOJ1040][P2607][ZJOI2008]骑士[树形DP+基环树]