小黑盒游戏新闻 ( ) • 2024-04-23 10:12

在众所周知的原因推动下,想要以理想的价格买到GeForce RTX 4090已然不太现实,所幸黄氏刀法着实精准,用GeForce RTX 4090 D实现了合规与性能之间的新平衡点。并且由于没有Founders Edition版本,国内发售的重任落到了几家AIC品牌上,作为NVIDIA好基友的索泰自然是其中之一。

手握GeForce RTX 4090 D GPU的索泰自然不会闲着,索泰GeForce RTX 4090 D PGF、索泰GeForce RTX 4090 D AMP AIRO、索泰GeForce RTX 4090 D天启、索泰GeForce RTX 4090 D TRINITY 月白上齐一套,其中索泰GeForce RTX 4090 D TRINITY 月白不仅上架电商,在众友商定价中,也是颇具性价比的一款。

那么GeForce RTX 4090 D的表现究竟如何?评测就此奉上。

AD102的新篇章

与GeForce RTX 4090所使用的AD102-300-A1不同,索泰GeForce RTX 4090 D TRINITY 月白采用的GPU型号为AD102-250-A1。两款GPU均源自相同的AD102,并以此为基础向下屏蔽单元,实现不同的性能定位。

从整体上看,完整的AD102包含了12个图形处理集群(Graphics Processing Clusters,GPC),72个纹理处理簇(Texture Processing Clusters,TPC),144个流式多处理器(Streaming Multiprocessors,SM),以及搭配了12个32-bit控制器的显存接口,共计384-bit。

同时每个GPC独立使用1个光栅引擎(Raster Engine,RE),6个TPC,2个光栅处理分区(Raster Operations partitions)。其中每个光栅处理分区包含8个光栅处理单元(Raster Operations,ROP),因此总共16个ROP。

每个TPC下包含2个流式多处理器(Streaming Multiprocessors,SM)。从Maxwell架构开始,SM之下细分出了处理块(Sub-Core)概念,AD102中每个SM包含4个处理块,每个处理块包含1个64KB寄存器堆,1个L0指令缓存,1个Warp调度器,1个调度单元,4个加载/存储单元,1个特殊功能单元(Special Function Unit,SFU)用于执行超越函数指令(比如正弦、余弦、倒数、平方根等)和图形差值算法指令。包含16个专门用于FP32的CUDA Core,16个可以在FP32和INT32之间切换的CUDA Core,因此共计32个CUDA。

此外每个SM还包含1个第三代RT Core,4个第四代Tensor Core,4个纹理单元(Texture Units),256KB寄存器堆,以及可根据需求进行配置的128KB L1共享缓存。

有意思的是,你会发现无论GeForce RTX 4090还是GeForce RTX 4090 D其实都没有用到完整的AD102核心,而是通过禁用GPC或者TPC的数量从而实现不同的定位。而GeForce RTX 4090 D相当于在GeForce RTX 4090的基础上再屏蔽1组GPC实现。

因此索泰GeForce RTX 4090 D TRINITY 月白总共包含57个TPC,114个SM,14592个CUDA Core,456个第四代Tensor Core,114个第三代RT Core。大致对比如下:

可以看到在显存配置和GPU频率上,GeForce RTX 4090 D没有做出删减,同样保持了24GB GDDR6X 384-bit显存,等效21Gbps频率,1008GB/s的显存带宽。另外L2缓存容量也维持在了72MB,GPU频率2.52GHz。大容量显存和L2缓存的配置,都仍然能够给后续的游戏,特别是AI加速性能提供优秀的基础。

在72MB超大L2缓存的加持下,第三代RT Core和第四代Tenor Core作为提升游戏特效性能的主力也有了更多的用武之地。其中,第三代RT Core不仅可以通过L2缓存在路径追踪从中获得巨大收益,本身相对第二代RT Core也提升了射线/三角形求交测试吞吐量,并引入透明度微图引擎(Opacity Micro-Map,OMM)和位移式微型网面引擎(Displaced Micro-Mesh,DMM)。

第四代Tenor Core则是当下火热的DLSS 3以及开始普及的DLSS 3.5的重要组成部分。这是一套利用光流加速器实现像素级的测量,并通过云端的夜以继日的寻找提升高质量图像的途径,这使得GPU摆脱了渲染重建高分辨率方法,让渲染工作大幅度减少,以两帧为例,DLSS 3会承担起第一帧的3/4的工作和第二帧的所有工作,实际上GPU只需要完成其中的1/8的渲染即可,从而节省了大量的计算资源。

而接下来的DLSS 3.5则能同时包含DLSS帧生成(FG)与光线重建(RR, Ray Reconstruction)技术搭配,再加上超分辨率(Super Resolution)、DLAA、帧生成(Frame Generation)多种技术融合。最终构建出一套高效的运行方式,但所有的前提都依靠第四代Tenor Core和光流加速器配合实现的。

此外,索泰GeForce RTX 4090 D TRINITY 月白还包括第八代NVENC和第五代NVDEC编解码器对媒体提供支持,从而在诸如AV1编解码加速上获得更好的体验。

全副武装的TRINITY

让我们把焦点放回显卡本身,索泰GeForce RTX 4090 D TRINITY提供了月白和黑色两种颜色可选,在散热上主要选择了IceStorm 3.0散热系统,优化了空气散热效能,并支持SPECTRA 2.0 ARGB灯效。

其中IceStorm 3.0散热系统提升了散热效能,提供了3个110mm的盾鳞2.0风扇,在提升扇叶面积的同时,也优化了每一片扇叶的曲率和鳞状仿生条纹,从而实现提升风扇风量、风压和风流的效果。

风扇下方提供了一块大面积VC均热板覆盖GPU核心,以实现快速导热至热管阵列。表面抛光工艺可进一步减少与GPU接触间隙,使导热效率更高。而显卡本身的厚度也达到了3.5个槽位,原因在于内置加厚、加高的镀镍散热鳍片模组,从而实现更好的导热能力。

另外热管部分也进行了升级,增加热管壁厚度和内壁脉络状导液沟槽,升级替换更高导热系数的导热介质,加大冷凝液与热管内壁接触面积的同时,进一步加快冷凝液导热循环。

索泰采用的背板、散热器多点分布安装的方式,让结构得以加强。并使用了铝合金加固骨骼结构件形式,确保PCB均匀受力,减少弯曲。另外合金背板本身也提升了显卡的静电防护能力。

GPU背面则使用了加固和背板裸露的形式,科技感拉满。同时支架没有上保修贴,也方便显卡后期的改装。

因此在压力测试下,索泰GeForce RTX 4090 D TRINITY 月白的GPU可以保持再65℃左右的清凉状态。如果用红外线检测,在室温22℃的环境中,也可以看到整张显卡的发热量不高,长时间高负荷工作是没有问题的。

SPECTRA 2.0 ARGB灯效系统本身支持1600万色ARGB和多种灯效模式,并且可以通过软件调节变换预设灯效。

有意思的是,在索泰GeForce RTX 4090 D TRINITY 月白电源后方还提供了一个5V 3pin的RGB接口,还可以给通过显卡制造RGB同步效果,做到在游戏中即刻感受到随时变换的RGB氛围。

在周边配件上,索泰GeForce RTX 4090 D TRINITY 月白则显得比较简约,包括纸质说明文档、1个二次元立牌,1个显卡支架和1根RGB同步线,以及1根16pin(12VHPWR)转8pin x4的电源线。

除了使用16pin(12VHPWR)电源口,显示接口包括3个DisplayPort 1.4a和1个HDMI 2.1接口。

实践见真章

现在让我们进入实战环节。测试平台包括了Core i9-14900K、ROG MAXIMUS Z790 DARK HERO、G.SKILL Trident Z5 DDR5-7200 16GBx2,并配以1250W电源作为支持。

在基础性能测试中,主要参考检测DirectX 11和DirectX 12性能的3DMark Time Spy,3DMark Time Spy Extreme,3DMark Fire Strike Extreme,3DMark Fire Strike Ultra,Port Royal。能顾看到索泰GeForce RTX 4090 D TRINITY 月白表现是非常强劲的,相对RTX 4080 SUPER可以有20%乃至30%的性能提升,距离RTX 4090只有3%到6%的差距。

在常规的DLSS 2游戏中,索泰GeForce RTX 4090 D TRINITY 月白自然也表现出了强劲的战斗力,在4K分辨率最高画质并且开启光线追踪的前提下,提升超过30%以上。相对RTX 3080 Ti性能则超过110%乃至更多了。

前面提到,GeForce RTX 40系列带来的DLSS 3和DLSS 3.5技术才是将游戏体验拉开差距的一套算法。如果用3DMark DLSS 3 Feature作为比较,就会看到明显的提升差距,索泰GeForce RTX 4090 D TRINITY 月白表现非常突出,在8K分辨率下也能轻松达到97FPS以上,这是绝大多数GPU不敢想象的。

因此在DLSS 3游戏中,索泰GeForce RTX 4090 D TRINITY 月白的战斗力立马就展现出来了,相对RTX 4080 SUPER提升有35%到40%,而相对RTX 3080 Ti提升120%以上,最高可以超过300%。

同时DLSS 3.5也带来了更好的画质表现,得益于光线重建(RR, Ray Reconstruction)加入,游戏画面得到更明显的提升。比如在《赛博朋克2077》画面进行对比,无论是车灯在地面的漫反射,还是远处的霓虹灯光,在DLSS 3.5光线重建加持下获得更为自然的效果,重点这是在获得更高帧率前提下实现的。

另外索泰GeForce RTX 4090 D TRINITY 月白带来的DLSS 3本身也融合了Reflex技术,可以更有效的降低游戏时候的系统响应延迟。比如在1080p分辨率下,索泰GeForce RTX 4090 D TRINITY 月白能够让《CS2》、《APEX英雄》等竞技游戏获得远高于显示器刷新率的帧率同时,还将系统延迟降低到10ms以下,这也是GeForce RTX 40的传统艺能了。

AI与创作一把手

毋庸置疑,了24GB GDDR6X 384-bit显存的索泰GeForce RTX 4090 D TRINITY 月白厉害的地方还在于内容创作和生成式AI上的表现。例如近段时间火热的Stable Diffusion XL本身运行需要依靠Transformer变换器和卷积神经网络实现,这两者均需要GPU进行大规模并行计算,这无疑是NVIDIA最擅长的事情。也正因为如此,近几年AI的飞速发展,很大程度上就是NVIDIA GPU技术发展所推进的。

其中Stable Diffusion XL在模型体量上相当Stable Diffusion 1.5扩大了3倍,从而导致计算的数据量提升,但也带来了更好的画质。这里以Stable Diffusion Web UI + TensorRT进行配置,用更短的语言描述生成10张分辨率为768x768的星际航行图片,每次运算1张图片,即总共执行10次,采样步数设置为50。

文字描述部分为:epic space battle over a water planet, many ships, cinematic lighting, Depth of Field, hyper-detailed, beautifully color-coded, 8k, many details, chiaroscuro lighting。通过记录时间,推算出每分钟推算图片效率,参考公式为60 / (TotalTime / (BatchSize * BatchCount)) = Images Per Minute。

得益于更大的内存,索泰GeForce RTX 4090 D TRINITY 月白领先幅度是其他GPU无法比拟的,哪怕是RTX 4080 SUPER也能有翻倍的提升,并且与RTX 4090相当接近。

而就在最近,UL Benchmark旗下的Procyon正式在AI Image Generation Benchmark子项中加入了Stable Diffusion 1.5和Stable Diffusion XL支持,测试过程有效避免了初次运行时的数据干扰,让实际测试性能变得更具有参考性。

可以看到索泰GeForce RTX 4090 D TRINITY 月白在AI Image Generation Benchmark的Stable Diffusion 1.5和Stable Diffusion XL基准测试下,战斗力是非常惊人的。Stable Diffusion 1.5(FP16)可以做到1.299s/image,Stable Diffusion XL(FP16)则可以做到11.535s/image,也就是在短短数秒内就可以完成一张文生图,并且整体评分与RTX 4090差距不大,同时比RTX 4080 SUPER,RTX 4070 Ti SUPER都拉出了明显的距离。

同样,DLSS 3.5也已经作为AI加速部分应用于专业软件中,D5渲染器已经率先展开了支持。DLSS 3.5在D5渲染器中比DLSS 3多出了5倍的训练量,因此也可以更好的识别光线追踪效果,在时间、空间数据中做出更合理的判断,从而实现高效率的扩展。

这里不妨让我们做一下效果对比,窗户上的光斑自然度,以及噪点控制,DLSS 3.5下都给予了更好的画质。

同时DLSS 3.5也给D5渲染器带来了更流畅的帧率。索泰GeForce RTX 4090 D TRINITY 月白可以轻松在复杂的建筑场景中以高于75FPS的帧率运行。这意味着就算是高负荷的渲染场景,索泰GeForce RTX 4090 D TRINITY 月白也能给予类似于游戏的顺畅感。

AI加速的另一个应用是利用ON1 Resize AI 2022对图片分辨率进行提升,这里使用五个场景进行测试并记录平均时间。也可以看到索泰GeForce RTX 4090 D TRINITY 月白节省了更多的AI推算时间,比RTX 4080 SUPER快上12%左右。

然后是传统的内容创作环节。Blender Benchmark引入的Moster、Junkshop、Classroom三个参考场景中,索泰GeForce RTX 4090 D TRINITY 月白可以相对RTX 4080 SUPER提升20%到30%。

同样在V-Ray 5 Benchmark中,分别对CUDA Core和RTX进行检测,借助更多的CUDA Core数量,索泰GeForce RTX 4090 D TRINITY 月白的领先幅度也近乎是翻倍的。

Octane Render RTX则是用来测试GPU的光线追踪性能表现,在复杂场景下考验GPU每秒产生的样本率,索泰GeForce RTX 4090 D TRINITY 月白相对RTX 4080 SUPER的领先幅度也达到了30%。

SPECviewperf用来考验OpenGL和Direct X API的3D图形性能,测试场景包括3dsmax、Catia、Creo、Energy、Maya、Medical、SNX、Solidworks。索泰GeForce RTX 4090 D TRINITY 月白已经能够轻松应付所有专业软件的运行,大显存和海量CUDA起到了绝对性的优势。

写在最后:旗舰级优选

凭借着强劲的性能,索泰GeForce RTX 4090 D TRINITY 月白给人留下了颇为深刻的印象。特别是在RTX 4090难以购买的现况下,索泰GeForce RTX 4090 D TRINITY 月白已经能够很好的充当替代品,虽然在理论数据上相差在3%到6%之间,但从实际的游戏、AI创作感受来看,体感差别不大。

重点在于,索泰GeForce RTX 4090 D TRINITY 月白并没有在技术上做任何删减,同样是基于性能金字塔顶端的Ada Lovelace的AD102 GPU打造,支持最新的DLSS 3.5和更高效能的路径追踪特效,超大的显存不做任何删减,维持住了最高水平的单卡AI性能,甚至实际功耗还要比RTX 4090低一些。

同时索泰一如既往优质的做工让索泰GeForce RTX 4090 D TRINITY 月白的散热表现、个性化都表现的非常出色,并且在一众RTX 4090 D中维持着较低的售价,比较之下,性价比已然凸显。如果你是一个性能控、AI重度用户、影音工作者,不要犹豫,索泰GeForce RTX 4090 D TRINITY 月白就是很好的选择之一,特别是搭配Core i9-14900K,大容量DDR5内存,配合4TB SSD以上存储空间,想必也会成为每一个电竞男生今年的终极梦想。

特别是在未来新品更新还有很长一段时间,价格日趋稳定的情况下,一步到位上到顶配,兴许才是最具性价比的解决方案之一。如果你已经攒好了钱,那么不必由于,在RTX 4090 D中,索泰GeForce RTX 4090 D TRINITY 月白确实是非常值得考虑的那一款。