当前位置：首页 > news >正文

Stability AI发布了单目视频转4D模型的新AI模型：Stable Video 4D

news 来源：原创 2024/9/20 11:38:20

开放生成式人工智能初创公司Stability AI在3月发布了Stable Video 3D，是一款可以根据图像中的物体生成出可旋转的3D模型视频工具。Stability AI在7月24日发布了新一代的Stable Video 4D，增添了赋予3D模移动作的功能。

Stable Video 4D能在约40秒内生成8个视角的5帧视频，整个4D优化过程大约需要20到25分钟。该技术预计在游戏开发、视频编辑和虚拟现实等领域有广泛应用前景，专业人士可从多角度视角观察物体，提升产品的真实感和沉浸感。

Stable Video 4D，这是一种创新模型，允许用户上传单个视频并接收八个新角度/视图的动态新视图视频，提供全新水平的多功能性和创造力。

Stable Video 4D 模型以稳定视频扩散模型（将图像转换为视频）为基础，以视频作为输入，从不同角度生成多个新视角视频。这一进步代表着我们能力的飞跃，从基于图像的视频生成转向全 3D 动态视频合成。

相关链接

项目页面：https://sv4d.github.io

arXiv 页面：https://arxiv.org/abs/2407.17470 Huggingface：https://huggingface.co/stabilityai/sv4d

存储库：https：//github.com/Stability-AI/generative-models

技术报告：https://sv4d.github.io/static/sv4d_technical_report.pdf

视频摘要：https：//www.youtube.com/watch？v =RBP8vdAWTgk

关键要点

Stable Video 4D 将单个物体视频转换为八个不同角度/视图的多个新视图视频。

Stable Video 4D 通过一次推理，在大约 40 秒内生成 8 个视图中的 5 帧。

用户可以指定摄像机角度，定制输出以满足特定的创作需求。

该模型目前处于研究阶段，未来将应用于游戏开发、视频编辑和虚拟现实，预计会不断改进。它目前在Hugging Face上可用。

工作原理

用户首先上传一段视频并指定所需的 3D 摄像机姿势。Stable Video 4D 随后会根据指定的摄像机视角生成八个新视角视频，从而提供拍摄对象的全面、多角度视角。生成的视频随后可用于有效优化视频中拍摄对象的动态 3D 表示。

目前，Stable Video 4D 可以在大约 40 秒内生成 8 个视图中的 5 帧视频，整个 4D 优化大约需要 20 到 25 分钟。我们的团队设想未来将其应用于游戏开发、视频编辑和虚拟现实。这些领域的专业人士可以从从多个角度可视化物体的能力中受益匪浅，从而增强其产品的真实感和沉浸感。

一流的性能

与以前的方法不同，以前的方法通常需要从图像扩散模型、视频扩散模型和多视图扩散模型的组合中进行采样，而 SV4D 能够同时生成多个新视图视频，从而大大提高了空间和时间轴的一致性。此功能不仅可以确保跨多个视图和时间戳的一致对象外观，还可以实现更轻量的 4D 优化框架，而无需使用多个扩散模型进行繁琐的分数蒸馏采样 (SDS)。

与现有作品相比，Stable Video 4D 能够生成新颖的视图视频，这些视频更加详细、忠实于输入视频，并且跨帧和视图保持一致。

研究与开发

Stable Video 4D 已在Hugging Face上推出，这是我们的第一个视频到视频生成模型，标志着 Stability AI 的一个激动人心的里程碑。我们正在积极完善该模型，对其进行优化，使其能够处理更广泛的现实世界视频，而不仅仅是目前训练它的合成数据集。

Stability AI 团队致力于不断创新，探索这项技术和其他技术的实际用例。我们预计，各公司将采用我们的模型，并进一步微调以满足其独特需求。这项技术在制作逼真的多角度视频方面潜力巨大，我们很高兴看到随着持续的研究和开发，它将如何发展。

技术报告

论文链接：https://arxiv.org/abs/2407.17470

结合此公告，我们将发布一份全面的技术报告，详细介绍该模型开发过程中所采用的方法、挑战和突破。

Stable Video 4D 代表了最先进的开源新视角视频生成技术。通过将单一视频输入转换为动态、多角度的 3D 输出，我们为各个行业的创造力和创新开辟了新途径。请继续关注我们的进一步更新，我们将继续增强和扩展这项激动人心的技术的功能。

相关文章：

北京网站建设多少钱？

辽宁网页制作哪家好_网站建设

高端品牌网站建设_汉中网站制作

数据结构：二叉树的广度优先遍历与深度优先遍历（递归方法）。C++及其新特性分别实现

Apache Tomcat 信息泄露漏洞CVE-2024-21733、CVE-2024-24549和CVE-2024-34750排查处理

Matlab2021b通过CNN、CNN-LSTM模型实现对声音信号的二分类与四分类

HTML静态网页成品作业(HTML+CSS)——安徽宣笔设计制作(5个页面)

使用 ESP32 和 TFT 屏幕显示实时天气信息 —— 基于 OpenWeatherMap API

微服务架构设计中的常见的10种设计模式

vuex的原理和使用方法

UniFab 是一款由人工智慧驅動的視訊增強器+ crack

string字符串和json对象相互转换问题

认知杂谈16

CompletableFuture 的使用和实际业务中的应用

大话回合手游【精品西游之鸿鹄西游精修商业开服端】最新整理WIN系特色服务端+安卓苹果双端+GM后台

一个手机到手机之间通话经过了哪些设备

SQL - 基础大汇总

CSS知识点详解：display+float

【108天】Java——《Head First Java》笔记（第1-4章）

【个人向】《HTTP图解》阅后小结

Android路由框架AnnoRouter：使用Java接口来定义路由跳转

axios请求、和返回数据拦截，统一请求报错提示_012

Invalidate和postInvalidate的区别

Java 实战开发之spring、logback配置及chrome开发神器（六）

javascript 哈希表

Java深入 - 深入理解Java集合

Kibana配置logstash，报表一体化

open-falcon 开发笔记（一）：从零开始搭建虚拟服务器和监测环境

Spring Cloud(3) - 服务治理: Spring Cloud Eureka

Vue 2.3、2.4 知识点小结

动态魔术使用DBMS_SQL

关于使用markdown的方法（引自CSDN教程）

官方解决所有 npm 全局安装权限问题

最简单的无缝轮播

通过调用文摘列表API获取文摘

LeetCode解法汇总1276. 不浪费原料的汉堡制作方案

Python 3 新特性：类型注解

字节一面

（8）STL算法之替换

(vue)el-cascader级联选择器按勾选的顺序传值,摆脱层级约束

（带教程）商业版SEO关键词按天计费系统：关键词排名优化、代理服务、手机自适应及搭建教程

（附源码）基于SpringBoot和Vue的厨到家服务平台的设计与实现毕业设计 063133

（附源码）流浪动物保护平台的设计与实现毕业设计 161154

.htaccess配置重写url引擎

.NET 中 GetHashCode 的哈希值有多大概率会相同（哈希碰撞）

.NET/ASP.NETMVC 大型站点架构设计—迁移Model元数据设置项（自定义元数据提供程序）...

.NET编程——利用C#调用海康机器人工业相机SDK实现回调取图与软触发取图【含免费源码】

.net操作Excel出错解决

.NET国产化改造探索（一）、VMware安装银河麒麟

.net使用excel的cells对象没有value方法——学习.net的Excel工作表问题

@EnableWebSecurity 注解的用途及适用场景

@RestController注解的使用

[1181]linux两台服务器之间传输文件和文件夹

[AIGC] HashMap的扩容与缩容：动态调整容量以提高性能

[Angular] 笔记 20：NgContent

[Asp.net MVC]Asp.net MVC5系列——Razor语法

[C++] 深入理解面向对象编程特性 : 继承

[CCIE历程]CCIE # 20604