当前位置: 首页 > news >正文

大模型下的视频理解video understanding

数据集

Learning Video Context as Interleaved Multimodal Sequences

Motivation:
针对Narrative videos, like movie clips, TV series, etc.:因为比较复杂
most top-performing video perception models 都是研究那种原子动作or人or物
understanding video contexts 有很多任务,解决这些任务的模型都太 specific了,不够general
++++=====>
can we develop a general solution that handles these diverse contexts and needs in videos?

Our work
虽然有类似的模型但是when applied to narrative videos, which encompass informative contexts , these models with a pre-defined visual-textual template still exhibit limitations due to inflexibility。基于此做了如下贡献:

  1. 提了一个新的多模态模型来解决这类视频,由于有复杂的结构,核心是要将embed the videos as
    interleaved multi-modal sequences
  2. 想要统一多模态context和任务以一种用户友好的方式
  3. 收集了指令微调数据集(用了一系列方法a package of solutions来转换现有的数据集)而且是interleaved multimodal instruction-following。用这个数据集训练了一个deconder-only的模型
  4. 除此之外,这个模型的应用是,可以让用户以一种更free-form的形式与视频交互

Model
模型总体来说不难,frame也只是一个token,作者希望通过这样方式更好的编码交错多模态信息来帮助回答问题
model
DATA
建立了几个模板主要关注how to collect the corresponding tuning data for each type of interleaved prompt
实验
实验部分的话,任务很多,都是video 理解中最火的任务,基本都是sota了。一开始提了几个有意义的问题,并进行了深入思考。除此之外容易混淆的setting用了一些小标志代替,显得更清楚。

  1. multi-task learning enhances individual capabilities.
    This highlights the language model’s ability to acquire commonsense across
    diverse objectives and contexts.
  2. different kinds of interleaved multimodal instruction.
    在这里插入图片描述

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • K8S及Rancher部署
  • 记一些零碎的只是点和一些安全工具的使用(这里建议将漏洞原理搞清楚,然后可以尝试手动和使用工具)
  • 系统设计中15 个最重要的权衡
  • 艾体宝干货 | 如何分析关键网络性能指标?持续接收样品试用申请!
  • 行为验证码——产品
  • easyadmin layui js监听返回结果,进行token验证防止连点
  • 详细说明Java中Map和Set接口的使用方法
  • 全网最适合入门的面向对象编程教程:29 类和对象的Python实现-断言与防御性编程和help函数的使用
  • OpenFeign微服务调用组件
  • php yii2 foreach中使用事务,事务中使用了 continue
  • 快速排序(上)
  • 软件测试--python基础
  • 【Golang 面试 - 进阶题】每日 3 题(二)
  • 一篇文章解决Webpack
  • 【数据结构】了解哈希表,解决哈希冲突,用Java模拟实现哈希桶
  • 【挥舞JS】JS实现继承,封装一个extends方法
  • 07.Android之多媒体问题
  • create-react-app项目添加less配置
  • ES6语法详解(一)
  • Flex布局到底解决了什么问题
  • Golang-长连接-状态推送
  • javascript数组去重/查找/插入/删除
  • SQLServer之创建显式事务
  • Swoft 源码剖析 - 代码自动更新机制
  • Vue全家桶实现一个Web App
  • web标准化(下)
  • 阿里云容器服务区块链解决方案全新升级 支持Hyperledger Fabric v1.1
  • 干货 | 以太坊Mist负责人教你建立无服务器应用
  • 利用DataURL技术在网页上显示图片
  • 聊聊directory traversal attack
  • elasticsearch-head插件安装
  • 宾利慕尚创始人典藏版国内首秀,2025年前实现全系车型电动化 | 2019上海车展 ...
  • 曜石科技宣布获得千万级天使轮投资,全方面布局电竞产业链 ...
  • ​七周四次课(5月9日)iptables filter表案例、iptables nat表应用
  • # Python csv、xlsx、json、二进制(MP3) 文件读写基本使用
  • #微信小程序:微信小程序常见的配置传旨
  • (3)选择元素——(14)接触DOM元素(Accessing DOM elements)
  • (C语言)fread与fwrite详解
  • (DenseNet)Densely Connected Convolutional Networks--Gao Huang
  • (四)七种元启发算法(DBO、LO、SWO、COA、LSO、KOA、GRO)求解无人机路径规划MATLAB
  • (五)MySQL的备份及恢复
  • (一)RocketMQ初步认识
  • (转)微软牛津计划介绍——屌爆了的自然数据处理解决方案(人脸/语音识别,计算机视觉与语言理解)...
  • (转)项目管理杂谈-我所期望的新人
  • .MyFile@waifu.club.wis.mkp勒索病毒数据怎么处理|数据解密恢复
  • .Net 6.0 处理跨域的方式
  • .NET Core SkiaSharp 替代 System.Drawing.Common 的一些用法
  • .NET Core 版本不支持的问题
  • .NET 常见的偏门问题
  • .NET 命令行参数包含应用程序路径吗?
  • .NET 应用启用与禁用自动生成绑定重定向 (bindingRedirect),解决不同版本 dll 的依赖问题
  • .NetCore发布到IIS
  • .NET实现之(自动更新)
  • @manytomany 保存后数据被删除_[Windows] 数据恢复软件RStudio v8.14.179675 便携特别版...
  • @Transactional注解下,循环取序列的值,但得到的值都相同的问题