NVIDIA AI访谈:内部DLSS 4和Bryan Catanzaro的机器学习
在CES 2025上,NVIDIA宣布了带有DLSS 4的RTX 50系图形卡。在演出中 ,我们与应用深度学习研究的NVIDIA VP Bryan Catanzaro谈到了新DLSS如何运作的详细信息,该详细信息是从其改进的超级分辨率和射线重新构造和新的Multoi forse the Multi-Multii forne the New Multi forne the New Multi forse the New Multi forse the New Multi forse the New Multi forse Generation(Mfg Generation(MFG)的特征(mfg) 。
尽管我们上次接受Bryan采访仅一年多了,这与DLSS 3.5和Cyberpunk 2077 Phantom Liberty的发布相吻合,但这里有一些相当重大的进步 ,其中一些将保留给RTX 50系列所有者和其他一些人,而另一些则可以用于Nvidia prapensics的更宽范围。
访谈随后进行,轻度编辑以供往常一样长和清晰。如果您愿意 ,可以通过嵌入的视频获得完整的采访。享受!
这是CES 2025演出楼的Bryan和Alex的完整视频采访 。
00:00简介
00:48为什么要从CNN转换为变压器?
02:08 DLSS 4超级分辨率可以改善哪些图像特性?
03:17是否有空间可以继续改善超级分辨率?
04:12 DLSS 4超级分辨率要运行多少?
05:25变压器模型如何改善射线重建?
09:43为什么不再使用硬件光流?
13:06新框架生成可以在RTX 3000上运行吗?
13:44与DLSS 4框架生成的框架起搏发生了什么变化?
15:37框架一代会支持标准V-Sync吗?
17:18您能解释Reflex 2的工作方式吗?
21:11什么是DLSS 4框架生成的最低可接受的输入帧速率?
22:13实时图形的未来是什么样的?
我们上次谈论的是雷重建第一次出来时,现在,有了RTX 5000 ,有一个新的DLSS模型 - 自2020年以来,我们首次看到了事情的做法发生了很大的变化。那么,为什么要切换到这个新的变压器模型呢?首先 ,它如何具体改善超级分辨率?
布莱恩·卡坦扎罗(Bryan Catanzaro):我们现在已经发展了超级分辨率模型已有五到六年了,使模型更加聪明变得越来越具有挑战性。试图将越来越多的智力塞入同一空间 。您必须创新;您必须尝试一些新的东西。
对于语言建模,图像生成 ,变压器体系结构是一件很棒的事情。我们今天看到的所有进步都像chatgpt或稳定的扩散 - 这些都建立在变压器模型上 。变压器模型具有这种出色的属性,因为它们非常可扩展。您可以在大量数据上训练它们,并且由于他们能够围绕图像引导注意力,因此允许模型对正在发生的事情和生成什么做出更明智的选择。我们可以在更多数据上训练它 ,获取更智能的模型,然后取得突破性结果 。我们对DLSS 4中的新射线重建和超级分辨率模型能够实现的图像质量的种类感到非常兴奋。
在超级分辨率模式下,新的变换模型可以改善哪些关键图像特性?
布莱恩·卡坦扎罗(Bryan Catanzaro):您知道超级解决方案的问题 - 诸如稳定 ,幽灵和细节之类的事情。我们一直在努力推动所有这些维度,它们通常会权衡 。如果您积累了更多的话,更容易获取更多细节 ,但是这会导致鬼魂。或者的相反,当您遇到稳定问题时,因为模型每帧都不同选择 ,然后您在距离内有类似的几何形状,这些几何形状闪闪发光和闪烁,这也很糟糕。这些是任何形式的图像重建的标准问题。我认为 ,我们通过新的超级解决方案和射线重建模型进行的权衡取决于我们过去的折衷方案 。
这是我们的DF直接讨论Alex和Oliver的NVIDIA新闻。
这种模型也有更好的潜力吗?有了旧的型号,似乎我们就可以实现的质量撞到了墙。有变压器模型有更好的轨迹吗?
布莱恩·卡坦扎罗(Bryan Catanzaro):是的,绝对 。在机器学习中,始终是正确的 ,如果数据是高质量的,那么对更多数据培训的更大模型将获得更好的结果。当然,使用DLSS或任何类型的实时图形算法 ,我们就每帧的毫秒毫秒都有严格的计算预算。我们足够勇敢地尝试构建用于超级分辨率和射线重建的基于变压器的图像重建算法的原因之一是因为我们知道Blackwell [RTX 50系列]将具有惊人的张量核心 。它被设计为神经渲染GPU;进入张量芯的计算马力的量呈指数上升。因此,我们有机会尝试一些更雄心勃勃的事情,这就是我们所做的。
如果我没记错的话 ,在RTX 4090上4K的超级分辨率的特定性能成本为低于0.5ms 。您能给我每帧毫秒的球场差异吗?
Bryan Catanzaro:新的超级分辨率模型的计算比旧型号要高四倍,但是执行时间不超过四倍,尤其是在Blackwell上 ,因为我们已经设计了该算法以及张量核心,以确保我们以非常高的效率运行。我不能在50系列卡上引用确切的毫秒数,但是我可以说它的计算增加了四倍。在布莱克韦尔(Blackwell)上 ,我们认为这是最好的比赛方式 。
我们上次交谈时,很明显的是,Ray重建是该行业应该进入的方向,因为您不能仅在每个环境环境中手动调整Denoiser。这是有道理的 ,但是我们注意到了一开始的问题点,既有特定于某些标题和更普遍的标题。变压器模型如何改善这些特定领域?
Bryan Catanzaro:其中有些只是波兰语 - 我们已经有了一年的时间来迭代它,并且我们总是提高数据集的质量。我们正在分析故障案例 ,将其添加到我们的培训集和我们的评估方法中 。而且,新模型要大得多,并且在其中拥有更多的计算 ,只会使其更大的学习能力。很多时候,当我们在这些DLSS模型之一中遇到失败时,它看起来像是闪烁的 ,鬼影或模糊游戏。我们认为这些模型失败;该模型只是做出不良的选择 。例如,它需要决定不积累这是否会导致鬼魂。例如,它需要没有偏见来使边缘上的creneat楼楼梯模式 ,因为这是抗降解的重点。由于很多技术原因,我们一直在DLSS中进行战斗多年,我认为这些模型只是更聪明的,因此失败少 。
这是DLSS 4首先看视频Alex和Bryan在采访中指的是。
是的 ,那是我关于DLSS 4的关键要点之一。有时候,使用AI,输出略有风格 ,而我根本没有看到[在DLSS 4 B-ROLL ROLL RICER ROCLED]中,所以我很高兴看到这一点 。
布莱恩·卡坦扎罗(Bryan Catanzaro):我注意到[在数字铸造视频中]里奇(Rich)正在看动画纹理,这也总是困扰着我。对于DLSS超级分辨率或射线重建而言 ,这是一件非常棘手的事情,因为游戏中的运动向量描述了事物的发展方式并不与纹理相伴。
电视只是坐在那里,但是您不希望电视上的屏幕随着东西的移动而模糊 。这要求模型忽略游戏中的运动向量 ,基本上分析场景并认识到“哦,该区域实际上是一台具有动画纹理的电视 - 我要确保不要模糊。”
就此教授先前的CNN模型真的很难。我们尽了最大的努力,并且确实取得了很多进步 ,但是我觉得这个新的变压器模型为我们解决了解决这些问题的新空间。
我希望我们能够专门研究雷的重建 。因为它是如此新生的技术;感觉这几乎是比我们从超级分辨率看到的要大的飞跃。
布莱恩·卡坦扎罗(Bryan Catanzaro):我认为这是真的。
其中的另一部分是框架gen,现在不像RTX 40系列那样使用硬件光流,为什么要进行更改?
布莱恩·卡坦扎罗(Bryan Catanzaro):嗯,因为我们以这种方式获得了更好的结果 。技术始终是建造时间的函数。当我们构建DLSS 3框架生成时 ,我们绝对需要硬件加速度来计算光流,因为我们没有足够的张量芯,并且没有实时的光流算法在张量芯上运行的实时光流算法 ,可以适合我们的计算预算。因此,我们相反,我们使用了NVIDIA多年来建立的光流加速器作为我们的视频编码器技术的发展 ,而我们的汽车计算机视觉加速度用于自动驾驶汽车等等 。
像光流这样的算法的任何硬件实现的困难部分是,很难改进它。就是这样。通过更智能的神经网络无法撤消该硬件光流的失败,因此我们决定将它们替换为完全基于AI的解决方案 ,这是我们在DLSS 4中为帧生成所做的工作 。
这种新的框架一代算法明显更张紧核心重量,因此它仍然具有很多硬件要求,但是它具有一些良好的属性。它是它使用较少的内存 ,这很重要,因为我们一直在努力保存每个兆字节。两个是它具有更好的图像质量,这对于50系列MFG尤其重要,因为游戏玩家要查看生成的框架的时间百分比要高得多 ,因此任何伪像都将更加明显 。因此,我们需要使图像质量更好。三个是我们需要使算法更便宜地以毫秒为角度来运行,尤其是对于50系列卡片时 ,我们进行了MFG。
我们想做的是使我们生成的多个框架上的许多工作都可以摊销很多工作。如果您考虑一下,实际上,我们正在分析两个渲染框架 ,以便在其中创建一系列帧 。似乎您应该一次进行比较,然后您应该做其他事情来生成每个帧。因此,这需要不同的算法。
现在 ,该框架一代正在全面运行,显然是更密集的,但是是什么使它无法在RTX 3000上运行?
Bryan Catanzaro:我认为这是优化 ,工程和用户体验的问题 。我们正在使用50系列启动这一多框架,我们将来可以从旧硬件中挤出什么。
另一部分是框架起搏,这实际上一直是一个极端的挑战,尤其是在VRR场景中。DLSS 3框架生成和DLSS 4框架生成之间的框架起搏方面发生了变化?
布莱恩·卡坦扎罗(Bryan Catanzaro):我们在布莱克韦尔(Blackwell)中有一个更新的翻转计量系统 ,其可变性较低,并且在确切决定何时呈现帧时将CPU从方程式中取出 。因此,与以前的最佳框架起搏相比 ,我们能够将显示的框架时间可变性减少约5或10。这对于多帧一代尤其重要,因为您要显示的框架越多,变异性就越开始将扳手扔给体验。
我很想知道那些框架的节奏改进是否会影响例如RTX 40系列?
Bryan Catanzaro:DLSS 4比DLSS 3好 ,所以我希望在40系列上也会更好 。
NVIDIA框架生成的另一个要素是使用Reflex来减少延迟,现在具有Reflex 2的生成AI方面。您能谈谈吗?
布莱恩·卡坦扎罗(Bryan Catanzaro):我一直在思考三个维度的实时图形;平滑度,响应能力和图像质量 - 包括射线追踪和更高的分辨率以及更好的质感等。使用DLSS ,我们希望改进所有这些领域 。我们对Reflex 2感到兴奋,因为这是一种考虑降低延迟的新方式。
我们正在做的是实际上以正常方式渲染场景,但是在我们完成图像完成图像之前 ,我们再次采样了相机位置,以查看用户是否在GPU渲染该框架时移动了相机。如果发生这种情况,我们将图像弯曲到新的相机位置。对于大多数像素,这看起来真的很好 ,并且会大大降低鼠标和相机之间的延迟 。
有时,当相机移动时,揭示了以前隐藏的东西 ,然后您将有一个漏洞,而没有有关应该存在的信息:不合格。诸如Reflex 2之类的技术的技巧正在填充这些孔,以使令人信服的图像?对于真正敏感的潜伏期的游戏玩家来说 ,我们对Reflex 2进行的权衡将非常令人兴奋。我认为还有更多的工作要使图像质量变得更好,您可以想象AI在这里也可以发挥重要作用 。
是的,这也很有趣 ,因为输入延迟是一个感知的问题,这完全可以使用。在技术层面上,它实际上并没有移动真正的3D场景 - 它是2D图像操纵 ,对吗?但是您几乎会得到相同的效果。
布莱恩·卡坦扎罗(Bryan Catanzaro):这对我来说很有趣 。与Reflex 2一起玩游戏完全不同,感觉更加连接。我认为很多游戏玩家会喜欢它,尤其是在某些非常敏感的标题中。但是您知道,DLSS试图为人们提供更多的选择 ,以便他们可以玩自己想要的方式=如果他们想降低延迟,如果他们想提高图像质量,如果他们想要平滑度 。DLSS适合所有人。
能够选择两个 ,三个或四个插入框架的框架的能力。
Bryan Catanzaro:是的,这很重要,您也可以在NVIDIA应用程序中执行此操作 ,这对于覆盖DLSS 3帧一代开发的游戏非常有用,并且没有用于选择2X,3X或4X帧帧生成的UI 。我们没有尝试更新所有游戏中的所有UI ,而是认为游戏玩家能够选择自己想要的东西将很有用。
进入多帧生成,MFG最低的输入帧速率是什么?
布莱恩·卡坦扎罗(Bryan Catanzaro):我认为3倍或4倍可接受的输入帧速率仍然与2倍相同。我认为挑战与连续两个连续的框架之间的运动的大小有关。当运动变得很大时,很难弄清楚在这些框架之间该怎么做 。但是 ,如果您了解一个物体是如何移动的,将运动分为较小的零件实际上并不那么棘手,对吗?因此,诀窍是弄清楚对象的移动方式 ,因此与我们生成的框架无关。
您在哪里看到框架一代的未来?现在,我们正在采取任何一种原始性能,我们可以得到它 ,并以较小的性能和延迟成本炸毁它,但最终我们将拥有1000Hz监视器。框架一代在哪里适合未来?
布莱恩·卡坦扎罗(Bryan Catanzaro):好吧,我对1000Hz监视器感到兴奋 。我认为这会感到很棒 - 而且我们将使用大量的框架一代达到1000Hz。图形正在变化;我们一直在使用神经渲染来重新定义图形的旅程已有近七年了 ,我们仍在开始。如果我们考虑用于图形的近似值,那么我们仍然想摆脱很多东西 。
您之前提出的一种是地下散射。今天,在3D图形中 ,我们主要是在模拟2D歧管,真是太疯狂了。我们实际上并不是在做3D图形 。我们正在从折纸头或其他东西的纸上弹出光线,但实际上我们并没有通过3D对象将光线移动。在大多数情况下 ,不透明的事情可能并不重要,但是对于许多半透明的事情来说,许多使世界感到真实和纹理的事物 - 实际上,我们确实需要在三个维度上使用材料(例如通过材料)在三个维度上使用轻型运输方式做得更好。因此 ,您问自己,多边形的角色是什么?如果工作是考虑光线如何通过三维对象进行交互,那么过去50年来我们一直使用的模型 - “让我们真正仔细地对象的外表面建模 ” - 这可能不是正确的表示 。
因此 ,这种现象是,我们正在发现神经表示和神经渲染算法,这些算法能够从现实世界中的数据和非常昂贵的模拟中学习 ,而这些模拟永远不会是实时的,因此我们能够提出比传统的“自下而上”的“自下而上”的技术,这些技术将变得更加现实和令人信服。
自下而上的渲染是 ,当您试图建模每个模糊的头发,每一个雪花,每一滴水和每个光光子 ,以便我们可以模拟现实。在某个时候,您知道,我们正在从这种明确的,自下而上的图形转变为更自上而下的生成图形 ,例如,我们在其中学习了雪花的外观。当画家画一个场景时,他们实际上并没有模拟每个几何形状的每个光子和每个方面 。他们只是知道它应该是什么样的。
因此 ,我认为神经渲染正在朝这个方向发展,我对克服当今图形的许多局限性的前景感到非常兴奋,我认为这确实很难扩展。您知道 ,我们对自下而上的模拟进行的忠诚度越多,我们要做的工作就越多才能捕获纹理和几何形状并为其动画 。它变得非常昂贵且真正具有挑战性。由于我们只是没有艺术家带宽,因此我们没有时间或储存一切来节省一切。但是 ,我们将拥有神经材料,神经渲染算法,神经辐射缓存;我们将找到使用AI的方法 ,以了解应该如何绘制世界,这将开辟许多新的可能性,以使游戏更有趣,更有趣 。
是的 ,我一直对基于多边形的图形感到遗憾的一件事是,无法代表异质量和射线跟踪之类的任何东西几乎是实时不可能的。因此,我很高兴神经渲染将开始弥合差距 ,以获取更复杂的变形材料,流体模拟以及所有这些内容。这就是我希望将来看到的 。
布莱恩·卡坦扎罗(Bryan Catanzaro):那是我们当然要去的地方。
相关文章
发表评论