当前位置: 首页 > news >正文

深入URP之Shader篇16: UNITY_BRANCH和UNITY_FLATTEN

Shader中的if分支

我们在shader中写if语句,例如:

if(a>0){//do some cool thing
}else{//do other cool thing
}

实际上,编译器会进行优化,以及处理成多种不同的情况。比如编译器会将if和else展开,分别执行其中的代码,然后根据测试条件选择一个结果,这被称为Flatten。或者编译器会真的编译出if指令,真正的动态分支。这取决于平台是否支持。比如在老的OpenGL ES 2.0平台,编译器总是进行Flatten,所以if分支才被视作性能杀手。当然即便是没有Flatten,真正的动态分支由于会让同一个Warp中的线程不能同步执行而互相等待,也会造成性能问题。在DX11中,编译器支持[branch][flatten]指令,这样就可以主动选择是flatten还是真动态分支了:

[branch] if(x)
{x = sqrt(x);
}
[flatten] if(x) 
{ x = sqrt(x); 
}

具体参考:https://docs.microsoft.com/en-us/windows/win32/direct3dhlsl/dx-graphics-hlsl-if

  • 另外,如果if中的测试条件是uniform,这样编译器也是可以安全的优化为只执行一个分支的代码的,效率和没有分支一样。

  • 关于shader分支优化还有很多的说法,比如使用lerp,以及使用一些特殊的函数计算来代替分支,还有三元运算符等等,但是随着硬件平台和编译器的发展,一些方法已经不能优化,甚至反而是负优化了,这儿就不展开了(其实是我也没完全弄明白)。本文只想说一下Unity shader中,对于flatten和branch的处理。

UNITY_BRANCH和UNITY_FLATTEN

由于Unity Shader是跨平台的,不仅仅是DX系列的HLSL,还支持OpenGL, Metal, Vulkan等平台的Shader,因此对branch和flatten进行了包装,也就是UNITY_BRANCHUNITY_FLATTEN。例如:

UNITY_BRANCH
if (screenPos.x < 0.5) {
// run expensive code A
} else {
// run expensive code B
}
UNITY_FLATTEN
if (screenPos.x < 0.5) {
// run expensive code A
} else {
// run expensive code B
}
  • 使用UNITY_BRANCH时,if分支只会执行满足条件的那个分支,而使用UNITY_FLATTEN两种情况都需要执行。看起来我们应该总使用branch,但是branch指令本身也是有消耗的,如果if两边的操作都比较简单,使用branch反而可能得不偿失。

  • 在OpenGL中,其实是没有branch指令的,编译器会自己选择是否flatten。以及上面说过的GLES 2.0,直接就只有flatten。所以这个指令只是一个hint,具体还是要看平台。

branch不能使用的一种情况

fixed4 color = fixed4(0,0,0,0);
UNITY_BRANCH
if (screenPos.x > 0.5) {float2 uv = screenPos * 2.0;color = tex2D(_MyTex, uv);
}

这儿调用tex2D会产生错误,因为 tex2D 会使用uv的导数(即一个像素到另一个像素的变化值)去决定mip map的级别,但是由于这儿的 uv 只在if分支中计算,这不能保证可以计算出导数(因为导数需要邻近像素的数据)。修改方法如下:

fixed4 color = fixed4(0,0,0,0);
float2 uv = screenPos * 2.0;
if (screenPos.x > 0.5) {color = tex2D(_MyTex, uv);
}

URP中使用UNITY_BRANCH的地方

color grading

        UNITY_BRANCHif (userLutContrib > 0.0){input.rgb = LinearToSRGB(input.rgb); // In LDR do the lookup in sRGB for the user LUThalf3 outLut = ApplyLut2D(TEXTURE2D_ARGS(userLutTex, userLutSampler), input, userLutParams);input = lerp(input, outLut, userLutContrib);input.rgb = SRGBToLinear(input.rgb);}

因为if中需要采样LUT贴图,如果不是动态分支,不使用 userLut的情况下也会执行这个代码,代价就太大了。

附加光realtime阴影

    // We have to branch here as otherwise we would sample buffer with lightIndex == -1.// However this should be ok for platforms that store light in SSBO.UNITY_BRANCHif (lightIndex < 0)return 1.0;float4 shadowCoord = mul(_AdditionalShadowsBuffer[lightIndex].worldToShadowMatrix, float4(positionWS, 1.0));
#elsefloat4 shadowCoord = mul(_AdditionalLightsWorldToShadow[lightIndex], float4(positionWS, 1.0));
#endifhalf4 shadowParams = GetAdditionalLightShadowParams(lightIndex);return SampleShadowmap(TEXTURE2D_ARGS(_AdditionalLightsShadowmapTexture, sampler_AdditionalLightsShadowmapTexture), shadowCoord, shadowSamplingData, shadowParams, true);

这个代码注释也说了,必须branch,否则就会多采样shadow map。

参考资料

  • https://forum.unity.com/threads/correct-use-of-unity_branch.476804/
  • https://zhuanlan.zhihu.com/p/122467342
  • https://docs.microsoft.com/en-us/windows/win32/direct3dhlsl/dx-graphics-hlsl-if
  • https://zhuanlan.zhihu.com/p/525931936

相关文章:

  • 前端面试题日常练-day43 【面试题】
  • LeetCode 每日一题 数学篇(2769.找出最大的可达成数字)
  • 掌握 NestJS 10.x:NestJS 结合 PostgreSQL 使用详解
  • RabbitMQ 如何保证消息不丢失
  • Niantic利用Meta Llama让数字生物栩栩如生
  • 使用`War`包部署`Jenkins`(超级详细)
  • Ubuntu20.04 Mysql基本操作知识
  • Windows11 wsl2编译Android14 使用ASfP Debug windows上启动的模拟器
  • 初始C++
  • HTTP的系统登录页面,如何避免明文传输用户密码?
  • 【算法】贪心算法——柠檬水找零
  • 个人关于ChatGPT的用法及建议
  • 颠覆传统:探索Web3对传统计算机模式的冲击
  • Linux-struct list_head的快速使用
  • TPL0401B使用教程
  • 77. Combinations
  • Docker 笔记(2):Dockerfile
  • ES6简单总结(搭配简单的讲解和小案例)
  • js学习笔记
  • JS字符串转数字方法总结
  • Laravel 实践之路: 数据库迁移与数据填充
  • MYSQL 的 IF 函数
  • ng6--错误信息小结(持续更新)
  • Redis中的lru算法实现
  • supervisor 永不挂掉的进程 安装以及使用
  • UEditor初始化失败(实例已存在,但视图未渲染出来,单页化)
  • vue和cordova项目整合打包,并实现vue调用android的相机的demo
  • Vue源码解析(二)Vue的双向绑定讲解及实现
  • vue中实现单选
  • Vultr 教程目录
  • 快速体验 Sentinel 集群限流功能,只需简单几步
  • 入手阿里云新服务器的部署NODE
  • 跳前端坑前,先看看这个!!
  • 吐槽Javascript系列二:数组中的splice和slice方法
  • 详解NodeJs流之一
  • 用 Swift 编写面向协议的视图
  • 2017年360最后一道编程题
  • Mac 上flink的安装与启动
  • MyCAT水平分库
  • ​Kaggle X光肺炎检测比赛第二名方案解析 | CVPR 2020 Workshop
  • ​虚拟化系列介绍(十)
  • #NOIP 2014#day.2 T1 无限网络发射器选址
  • (2/2) 为了理解 UWP 的启动流程,我从零开始创建了一个 UWP 程序
  • (26)4.7 字符函数和字符串函数
  • (4)事件处理——(6)给.ready()回调函数传递一个参数(Passing an argument to the .ready() callback)...
  • (5)STL算法之复制
  • (day6) 319. 灯泡开关
  • (Matalb回归预测)PSO-BP粒子群算法优化BP神经网络的多维回归预测
  • (八)Docker网络跨主机通讯vxlan和vlan
  • (附源码)ssm学生管理系统 毕业设计 141543
  • (机器学习-深度学习快速入门)第三章机器学习-第二节:机器学习模型之线性回归
  • (论文阅读22/100)Learning a Deep Compact Image Representation for Visual Tracking
  • (七)Knockout 创建自定义绑定
  • (十一)c52学习之旅-动态数码管
  • (已解决)Bootstrap精美弹出框模态框modal,实现js向modal传递数据