当前位置: 首页 > news >正文

[23] 4K4D: Real-Time 4D View Synthesis at 4K Resolution

paper | proj | code

  • 提出一种基于K-Planes的4D point cloud Representation;
  • 提出一种Hybrid appearance model,包含image blending model和SH model。其中,image blending model将3D点映射回原图中求得,SH model通过模型预测求得。
  • 提出一种可导的深度排序算法,训练时通过Pytorch计算,渲染时通过OpenGL计算,实现GPU支持的快速光栅化。
  • 提出一系列减少推理渲染的方法:
    • 提前计算点的位置、密度、颜色系数和blending系数等;
    • 减少光栅化每个像素所需要的点数;
    • 将模型从32-bit float降为16-bit

目录

摘要

方法

Modeling Dynamic Scenes with Point Clouds

Differentiable Depth Peeling

Training

Inference

实验

Datasets and metrics

Comparison Experiments

Ablation Studies

Storage analysis.

Rendering Speed Analysis


摘要

  • 现有问题:动态场景中,渲染高分辨率图片很慢;
  • 本文:
    • 提出基于K-Planes的4D point cloud Representation,支持硬件光栅化,实现快速渲染;
    • 提出一种hybrid appearance model,在提高渲染质量的同时,保证渲染效率;
    • 设计一种可导的深度排序算法(deep peeling algorithm),实现从RGB视频中快速建模;
  • 实验证明,在一张4090 GPU上,可以实现对1080分辨率的400FPS渲染,4K分辨率的80FPS渲染。

方法

Modeling Dynamic Scenes with Point Clouds

  • 通过space-carving algorithm从视频中提取粗点云序列;
  • 点特征通过K-Planes表达,给定坐标和时间(x, y, z, t),可得特征:

  • 点特征送入Radius MLP和Density MLP,预测该点的密度r和半径\sigma
  • 该点的颜色通过两个模型计算,分别是离散的image blending model和连续的SH model。
    • image blending model是指,给定空间中任意一点,可投影到输入图片上,检索对应RGB值。在本文中,多张图片检索的RGB值,通过网络预测加权系数,加权求和以得到该点的c_{ibr}。由于检索图像与视角无关,本文仅考虑与视角最近的N^{'}张图片。image blending model除系数外,可以提前计算。因此,可以在提高视觉质量的同时,不增加过多计算。
    • SH model,则是将点特征送入SH MLP,预测得到c_{sh}
    • 最终,该点颜色由以下公式计算:

Differentiable Depth Peeling

  • 对于像素u,首先找到距离该点相机视角最近的K个点。
  • 用体渲染的方式,通过K个点计算该点颜色。首先计算密度,其中\pi(x)是将点投影到2D图像上:

  • 在训练中,本文基于PyTorch实现\pi。在推理阶段,本文用OpenGL计算。
  • 最终,该像素点颜色:

Training

包含三个损失:

  • MSE Loss:
  • LPIPS Loss
  • Mask 损失:

  • 最终训练损失为:

Inference

通过三个方法加速推理:

  • 提前计算点位置,半径,密度,SH系数和color blending系数;
  • 将模型从32-bit floats转为16-bits,可以增加20FPS;
  • 将渲染时的超参数K从15降低为12,可以在不影响视觉质量的情况下,增加20FPS;

实验

Datasets and metrics

  • DNA-Rendering:15 FPS, 10 s, 60 views, 4K/2K相机,训练分辨率为1024 x 1224 / 1125 x 1536
  • ENeRF-Outdoor:30 FPS, 1080p相机,训练分辨率为960 x 540
  • NHR:训练分辨率为512 x 612 / 384 x 512
  • Neural3DV:训练分辨率为1352 x 1224

Comparison Experiments

Ablation Studies

  • Ablation study on the 4D embedding. w/o f
  • Ablation study on the hybrid appearance model. w/.o c_{ibr}
  • Ablation study on loss functions.

Storage analysis.

Rendering Speed Analysis

相关文章:

  • FFmpeg 6.1 开放源码多媒体框架近日发布了重大更新
  • <MySQL> 如何合理的设计数据库中的表?数据表设计的三种关系
  • ubuntu搭建phpmyadmin+wordpress
  • HTTP客户端警告:Going to buffer response body of large or unknown size
  • qml渲染引擎介绍
  • ChatGPT/GPT4科研实践应用与AI绘图技术及论文高效写作
  • golang指针学习
  • 完全平方数(模版)
  • Codeforces Round 745 (Div. 2)(C:前缀和+滑动窗口,E:位运算加分块)
  • 智能座舱架构与芯片- (13) 软件篇 下
  • 函数与数组
  • 音视频同步笔记 - 以音频时间为基
  • redis运维(十九)redis 的扩展应用 lua(一)
  • 如何下载OpenJDK及其源码
  • PHP 语法||PHP 变量
  • 2017前端实习生面试总结
  • hadoop集群管理系统搭建规划说明
  • java8-模拟hadoop
  • JS学习笔记——闭包
  • npx命令介绍
  • SpringBoot几种定时任务的实现方式
  • ViewService——一种保证客户端与服务端同步的方法
  • 聚簇索引和非聚簇索引
  • 看完九篇字体系列的文章,你还觉得我是在说字体?
  • 浏览器缓存机制分析
  • 如何利用MongoDB打造TOP榜小程序
  • 我感觉这是史上最牛的防sql注入方法类
  • PostgreSQL 快速给指定表每个字段创建索引 - 1
  • 翻译 | The Principles of OOD 面向对象设计原则
  • 摩拜创始人胡玮炜也彻底离开了,共享单车行业还有未来吗? ...
  • ​软考-高级-系统架构设计师教程(清华第2版)【第1章-绪论-思维导图】​
  • #!/usr/bin/python与#!/usr/bin/env python的区别
  • #if #elif #endif
  • #if 1...#endif
  • #鸿蒙生态创新中心#揭幕仪式在深圳湾科技生态园举行
  • $forceUpdate()函数
  • (04)odoo视图操作
  • (42)STM32——LCD显示屏实验笔记
  • (52)只出现一次的数字III
  • (done) 两个矩阵 “相似” 是什么意思?
  • (分享)一个图片添加水印的小demo的页面,可自定义样式
  • (附源码)spring boot网络空间安全实验教学示范中心网站 毕业设计 111454
  • (附源码)流浪动物保护平台的设计与实现 毕业设计 161154
  • (十)T检验-第一部分
  • (转)大型网站的系统架构
  • (转)淘淘商城系列——使用Spring来管理Redis单机版和集群版
  • ./mysql.server: 没有那个文件或目录_Linux下安装MySQL出现“ls: /var/lib/mysql/*.pid: 没有那个文件或目录”...
  • .cfg\.dat\.mak(持续补充)
  • .java 9 找不到符号_java找不到符号
  • .net core 调用c dll_用C++生成一个简单的DLL文件VS2008
  • .net6 webapi log4net完整配置使用流程
  • .net利用SQLBulkCopy进行数据库之间的大批量数据传递
  • [ 数据结构 - C++]红黑树RBTree
  • []FET-430SIM508 研究日志 11.3.31
  • [<MySQL优化总结>]