当前位置：首页 > news >正文

[23] 4K4D: Real-Time 4D View Synthesis at 4K Resolution

news 来源：原创 2024/4/29 13:20:17

paper | proj | code

提出一种基于K-Planes的4D point cloud Representation；
提出一种Hybrid appearance model，包含image blending model和SH model。其中，image blending model将3D点映射回原图中求得，SH model通过模型预测求得。
提出一种可导的深度排序算法，训练时通过Pytorch计算，渲染时通过OpenGL计算，实现GPU支持的快速光栅化。
提出一系列减少推理渲染的方法：
- 提前计算点的位置、密度、颜色系数和blending系数等；
- 减少光栅化每个像素所需要的点数；
- 将模型从32-bit float降为16-bit

目录

摘要

方法

Modeling Dynamic Scenes with Point Clouds

Differentiable Depth Peeling

Training

Inference

实验

Datasets and metrics

Comparison Experiments

Ablation Studies

Storage analysis.

Rendering Speed Analysis

摘要

现有问题：动态场景中，渲染高分辨率图片很慢；
本文：
- 提出基于K-Planes的4D point cloud Representation，支持硬件光栅化，实现快速渲染；
- 提出一种hybrid appearance model，在提高渲染质量的同时，保证渲染效率；
- 设计一种可导的深度排序算法（deep peeling algorithm），实现从RGB视频中快速建模；
实验证明，在一张4090 GPU上，可以实现对1080分辨率的400FPS渲染，4K分辨率的80FPS渲染。

方法

Modeling Dynamic Scenes with Point Clouds

通过space-carving algorithm从视频中提取粗点云序列；
点特征通过K-Planes表达，给定坐标和时间 $(x, y, z, t)$ ，可得特征：

点特征送入Radius MLP和Density MLP，预测该点的密度 $r$ 和半径 $\sigma$ ；
该点的颜色通过两个模型计算，分别是离散的image blending model和连续的SH model。
- image blending model是指，给定空间中任意一点，可投影到输入图片上，检索对应RGB值。在本文中，多张图片检索的RGB值，通过网络预测加权系数，加权求和以得到该点的 $c_{ibr}$ 。由于检索图像与视角无关，本文仅考虑与视角最近的 $N^{'}$ 张图片。image blending model除系数外，可以提前计算。因此，可以在提高视觉质量的同时，不增加过多计算。
- SH model，则是将点特征送入SH MLP，预测得到 $c_{sh}$ 。
- 最终，该点颜色由以下公式计算：

Differentiable Depth Peeling

对于像素 $u$ ，首先找到距离该点相机视角最近的 $K$ 个点。
用体渲染的方式，通过 $K$ 个点计算该点颜色。首先计算密度，其中 $\pi(x)$ 是将点投影到2D图像上：

在训练中，本文基于PyTorch实现 $\pi$ 。在推理阶段，本文用OpenGL计算。
最终，该像素点颜色：

Training

包含三个损失：

MSE Loss：
LPIPS Loss
Mask 损失：

最终训练损失为：

Inference

通过三个方法加速推理：

提前计算点位置，半径，密度，SH系数和color blending系数；
将模型从32-bit floats转为16-bits，可以增加20FPS；
将渲染时的超参数K从15降低为12，可以在不影响视觉质量的情况下，增加20FPS；

实验

Datasets and metrics

DNA-Rendering：15 FPS, 10 s, 60 views, 4K/2K相机，训练分辨率为1024 x 1224 / 1125 x 1536
ENeRF-Outdoor：30 FPS, 1080p相机，训练分辨率为960 x 540
NHR：训练分辨率为512 x 612 / 384 x 512
Neural3DV：训练分辨率为1352 x 1224

Comparison Experiments

Ablation Studies

Ablation study on the 4D embedding. w/o f
Ablation study on the hybrid appearance model. w/.o $c_{ibr}$
Ablation study on loss functions.

Storage analysis.

Rendering Speed Analysis

相关文章：

FFmpeg 6.1 开放源码多媒体框架近日发布了重大更新

＜MySQL＞如何合理的设计数据库中的表？数据表设计的三种关系

ubuntu搭建phpmyadmin+wordpress

HTTP客户端警告：Going to buffer response body of large or unknown size

qml渲染引擎介绍

ChatGPT/GPT4科研实践应用与AI绘图技术及论文高效写作

golang指针学习

完全平方数（模版）

Codeforces Round 745 (Div. 2)(C:前缀和+滑动窗口，E：位运算加分块)

智能座舱架构与芯片- (13) 软件篇下

函数与数组

音视频同步笔记 - 以音频时间为基

redis运维(十九)redis 的扩展应用 lua(一)

如何下载OpenJDK及其源码

PHP 语法||PHP 变量

2017前端实习生面试总结

hadoop集群管理系统搭建规划说明

java8-模拟hadoop

JS学习笔记——闭包

npx命令介绍

SpringBoot几种定时任务的实现方式

ViewService——一种保证客户端与服务端同步的方法

聚簇索引和非聚簇索引

看完九篇字体系列的文章，你还觉得我是在说字体？

浏览器缓存机制分析

如何利用MongoDB打造TOP榜小程序

我感觉这是史上最牛的防sql注入方法类

PostgreSQL 快速给指定表每个字段创建索引 - 1

翻译 | The Principles of OOD 面向对象设计原则

摩拜创始人胡玮炜也彻底离开了，共享单车行业还有未来吗？ ...

软考-高级-系统架构设计师教程（清华第2版）【第1章-绪论-思维导图】

#!/usr/bin/python与#!/usr/bin/env python的区别

#if #elif #endif

#if 1...#endif

#鸿蒙生态创新中心#揭幕仪式在深圳湾科技生态园举行

$forceUpdate()函数

(04)odoo视图操作

(42)STM32——LCD显示屏实验笔记

（52）只出现一次的数字III

(done) 两个矩阵 “相似” 是什么意思？

（分享）一个图片添加水印的小demo的页面，可自定义样式

(附源码）spring boot网络空间安全实验教学示范中心网站毕业设计 111454

（附源码）流浪动物保护平台的设计与实现毕业设计 161154

（十）T检验-第一部分

（转）大型网站的系统架构

（转）淘淘商城系列——使用Spring来管理Redis单机版和集群版

./mysql.server: 没有那个文件或目录_Linux下安装MySQL出现“ls: /var/lib/mysql/*.pid: 没有那个文件或目录”...

.cfg\.dat\.mak（持续补充）

.java 9 找不到符号_java找不到符号

.net core 调用c dll_用C++生成一个简单的DLL文件VS2008

.net6 webapi log4net完整配置使用流程

.net利用SQLBulkCopy进行数据库之间的大批量数据传递

[ 数据结构 - C++]红黑树RBTree

[]FET-430SIM508 研究日志 11.3.31

[＜MySQL优化总结＞]