% L. x$ i/ t- F `% v* }9 P! Y- i 显卡的流处理器数量越多,频率越高,性能就会越强。 , @+ A5 j% _' _7 c: N x $ p7 ~, {' X* @ V* u 如果把每组SM类比成一个CPU核心,那么这颗GPU就相当于一颗76核9728线程的处理器。不过,CPU核心就像经验丰富的数学家,能处理更加复杂的任务;而GPU核心更像是只会四则运算的小学生,适合做简单的并行计算。在AI模型的训练和推理、3D游戏里的图形渲染都是需要这样大量简单计算的场景。显卡核心的数量优势就比CPU核心的质量优势更加有效率。要理解为什么显卡更适合这样的运算,我们就需要了解一下游戏画面到底是如何渲染的?图片8 K& W. N/ F6 c( g3 ^% w
8 V# p. s2 y4 n0 X- U& L 认识图形渲染的基本流程,只需要知道我们看到的世界是由无数个带坐标的模型世界构成,想要观察这个世界,我们还需要一个虚拟摄像机,只有位于摄像机视野范围内的模型才会被渲染出来,同时这些模型相对于摄像机的位置也会被重新计算,得到新的坐标值。0 x+ S, u" R* W! @9 r
+ a3 c2 l* a8 i! Z' x* x6 J) A# P 摄像机所捕获到的这些画面实际上是一个二维平面。三维空间中的模型是要通过投影的方式映射到这个平面上,最后我们需要将这个二维画面显示在由像素点构成的屏幕上。为了获得最终的渲染效果,我们还需要对每个像素点的纹理、光照和颜色等属性进行单独计算。经过这一系列复杂的运算,才能最终生成一帧在屏幕上显示的图像。 4 |/ @! i$ m8 C0 g. J. r9 z# w. l/ L4 B
在这个计算的过程中,构成三角面的顶点坐标会精确到小数点后七位,转换成计算机能理解的二进制,就是32为0和1,我们管这个叫做FP32单精度浮点数。/ F8 x- E: g6 V
9 f1 s& Y! h5 v. g% Z 流畅的画面需要每秒30帧甚至60帧以上的图像,而每一帧都需要大量精确的数据来计算,每秒钟能算的次数就是单精度浮点数算力,可以用来衡量图形渲染的性能。; \' F' ?, P! {. M+ q- @
M K! l8 \! I. r$ \! |4 k
RTX4080的GPU核心可以让9728个CUDA核心同时进行单精度浮点计算,在2800兆赫兹的频率下,可以提供大约54T pro4的单精度浮点算力,意味着每秒钟可以计算五十四万亿次。图片 ; K+ N+ A u5 n% U. T- O; v0 T$ w$ n1 c' c. \5 Z
而像I9这样的高端CPU FT32的算力也只有2.5T Flops,对比之下你就会发现GPU比CPU更加适合图形渲染,单精度浮点主要影响的是游戏图像的渲染性能。( R' |0 p, Y- j$ `( C3 |0 v1 G' X
X" D# e8 a2 T! ~, t' ^1 Z1 K7 O 在这颗4080的GPU核心中,所有的CUDA都能计算单精度浮点数,除了能计算FP32之外,同时向下兼容精度更低的半精度浮点FP16和1/4精度浮点FP8,但只有一半的CUDA能支持整数计算。英伟达会把不同GPU支持的具体算力标注在官网上供大家查询。 ) l* J$ W+ t2 X9 r R0 }/ Y7 V, r- K9 C& v5 y
这里要说明的是GPU的算力和架构有关,架构是GPU的设计方案,设计方案越先进,相同算力下的图形渲染效率就越高。比如GTX1660的GPU架构比GTX980更先进,虽然他们的FP32算力差不多,但1660的游戏性能却明显更强。所以Nvdia在官网标注算力的同时还会标注GPU的架构。 9 _ k9 j5 O% r3 Y6 [( B: q) O T5 l f) K" n, R
单精度浮点算力和架构共同决定了GPU的游戏性能。/ e; a, M+ r( Z, A, t. F7 T
, v" P8 G" I( r 但现在的GPU除了玩游戏和做渲染建模之外,还承担了许多AI相关的任务,在CUDA核心的右边是第四代Tensor Core张量核心,它非常适合做AI相关的深度学习计算,所有的Tensor Core一共可以提供780 AI TOPS算力。比如说现在的AI绘图软件就可以调用Tensor Core,生成图片的速度远比纯CUDA要快很多。6 e/ { Y. X, c4 V
+ g$ J$ |5 C* [* R
游戏里的DLSS功能同样可以调用Tensor Core,用更低的分辨率渲染,再通过AI上采样到更高的分辨率,从而提升游戏的流畅度。 ; { o( Z( j# a* j( j0 S7 G( C' Q! w) J" E, s/ a: `
逼真的游戏画面还离不开真实的光照效果,而光线的反射和折射需要庞大的算力,这张4080的核心中,每组SM里都有一颗第三代RT Core光线追踪核心,专门用来加速光照和反射的计算,一共可以提供113 RT-TFLOPS光追算力,光线追踪可以明显提升画质,但也非常的吃性能,如果用的是低端显卡,开了光追以后就可能很卡顿,只有性能更强的高端显卡才适合开启光线追踪。 * K \( T8 x' Z! x$ d+ N9 b. v2 ]
在SM单元之外,还有很多其他的单元,视频解码器让显卡能把0101的数据转换成连续播放的视频画面,解码器性能过弱,就可能在播放视频时出现卡顿掉帧。而视频编码器则可以让你把拍摄到的视频数据以新的编码方式压缩成期望的格式和大小。编码器性能过弱则会在剪辑视频导出时浪费过多的时间,显存控制器让GPU和显存得以顺利交互数据。PCIE控制器则让显卡能和主板上的CPU、内存、硬盘等其他元器件交互数据。 3 ~' ], f$ a, N; v" V: E4 w " C( Z0 X* n. c' {; \ 除开上述内容,显卡的电路板上还有很多其他的附属芯片和接口,他们共同协作让显卡得以顺利运行。 + s) Z* v2 R# r6 x$ V 5 ^6 b2 I L' S, ?+ [, O; q" N9 e; Y
现在你对显卡的硬件已经有一定的了解了。最后我们来讲讲该如何选择适合自己的显卡?0 @) q* g) a, y" ~9 [. q
- H% |) `' O) E8 m/ j
四.如何选择适合自己的显卡?6 ]) [$ W4 S' d1 [- i/ j% w8 e& U
# d' |. Z% }- B
挑选一张显卡的顺序大概可以按照:性能需求、GPU型号、AIC品牌、实际产品 这四个步骤来考虑,性能需求可以借助Time SPY天梯图做参考。0 |4 ?0 F G- C2 K5 |
5 R# X( z& E# [( c F
在各个网站里你都可以搜到,它这个显卡的跑分,从高到低依次排列,虽然跑分和实际的游戏性能会略有差异,但是一个非常值得参考的数据,在天梯图里随便盲选一张显卡,然后搜索它的评测类节目,大概就可以知晓这张显卡在不同游戏中可以看到什么样的画质,达到什么样的流畅度,也可以看到它在专业软件中和其它显卡之间的性能差异。2 O Z: j# L1 k- {