0 v% m' N# m* U2 m* J$ T6 y 就像主板上所有的元器件都是为CPU服务一样,显卡电路板上的所有元器件也都是为GPU而服务的。视频接口让显卡可以直接把运算好的图像发送给显示器显示。这张4080猛禽搭载了两个HDMI2.1和三个DP1.4接口,不同版本的视频接口能承载的分辨率和刷新率不同。 ( m) g8 p0 a& Z7 c5 ]+ D+ w e' @% e2 G* Q
PCIE接口让显卡能够通过主板和CPU、内存等其他原器件交互数据,它的数据传输能力和版本以及规则有关。比如说这张4080猛禽用的就是PCE4.0 x16接口,在主板同样支持PCE4.0的情况下,单条4.0通道每秒可以传输2GB的数据,16条总共可以传输每秒32GB的数据。 9 X2 s* w( X! J9 s# _: n% t0 l/ Q2 w- n3 w& P; S
% t; }. r0 A$ `, f& B 供电模块保证了显卡有充足的电力分配,它们分布在GPU和显存的外围,由PWM芯片、电容、电感和。MOS管组成电源会从右上方的供电接口输入+12伏的供电,之后再用供电模块儿降压至1.1伏与1.35伏,输送给GPU与显存。这张RT4080猛禽采用直出供电的设计,一个MOS管和一个电感就是一个供电项,总共有18项70A的GPU供电和三项50A的显存供电,即使显卡满载运转,也能提供持续稳定的电能。4 A, G; o( \5 f8 C# b) h
" w, ]5 {4 z; L1 ` 显卡的流处理器数量越多,频率越高,性能就会越强。 % ]5 a5 Y9 Y/ f4 I0 M2 I, Q" I5 b2 A3 |
如果把每组SM类比成一个CPU核心,那么这颗GPU就相当于一颗76核9728线程的处理器。不过,CPU核心就像经验丰富的数学家,能处理更加复杂的任务;而GPU核心更像是只会四则运算的小学生,适合做简单的并行计算。在AI模型的训练和推理、3D游戏里的图形渲染都是需要这样大量简单计算的场景。显卡核心的数量优势就比CPU核心的质量优势更加有效率。要理解为什么显卡更适合这样的运算,我们就需要了解一下游戏画面到底是如何渲染的?图片5 ~- M. S0 z( J- F
p, v% r8 \- }% p 认识图形渲染的基本流程,只需要知道我们看到的世界是由无数个带坐标的模型世界构成,想要观察这个世界,我们还需要一个虚拟摄像机,只有位于摄像机视野范围内的模型才会被渲染出来,同时这些模型相对于摄像机的位置也会被重新计算,得到新的坐标值。 , L2 X: t2 r) r9 w/ d" y) {2 O 9 h# K4 s5 s6 f' C% J. Y Z8 @ 摄像机所捕获到的这些画面实际上是一个二维平面。三维空间中的模型是要通过投影的方式映射到这个平面上,最后我们需要将这个二维画面显示在由像素点构成的屏幕上。为了获得最终的渲染效果,我们还需要对每个像素点的纹理、光照和颜色等属性进行单独计算。经过这一系列复杂的运算,才能最终生成一帧在屏幕上显示的图像。* H, ^# h0 Z/ X. n& J: M9 y
5 x* \5 r( E* q0 p 在这个计算的过程中,构成三角面的顶点坐标会精确到小数点后七位,转换成计算机能理解的二进制,就是32为0和1,我们管这个叫做FP32单精度浮点数。 1 n+ p9 t6 v7 q; u. p 1 @$ k* F. J/ W: ~ 流畅的画面需要每秒30帧甚至60帧以上的图像,而每一帧都需要大量精确的数据来计算,每秒钟能算的次数就是单精度浮点数算力,可以用来衡量图形渲染的性能。' [3 K. j% `7 [+ y! B: c
+ H/ B2 G+ q6 N. i" G
RTX4080的GPU核心可以让9728个CUDA核心同时进行单精度浮点计算,在2800兆赫兹的频率下,可以提供大约54T pro4的单精度浮点算力,意味着每秒钟可以计算五十四万亿次。图片 ; y. s8 C7 \$ O# H k* N9 x , I9 [* l& K7 f% n! t3 f* A. M( G 而像I9这样的高端CPU FT32的算力也只有2.5T Flops,对比之下你就会发现GPU比CPU更加适合图形渲染,单精度浮点主要影响的是游戏图像的渲染性能。# c, I6 |( I8 d/ k' T
" @4 [! @0 [& A! k: @& T
在这颗4080的GPU核心中,所有的CUDA都能计算单精度浮点数,除了能计算FP32之外,同时向下兼容精度更低的半精度浮点FP16和1/4精度浮点FP8,但只有一半的CUDA能支持整数计算。英伟达会把不同GPU支持的具体算力标注在官网上供大家查询。% h# Z& I' N. A7 c% v! m
3 _' l8 G; k. [7 W7 a: \ 这里要说明的是GPU的算力和架构有关,架构是GPU的设计方案,设计方案越先进,相同算力下的图形渲染效率就越高。比如GTX1660的GPU架构比GTX980更先进,虽然他们的FP32算力差不多,但1660的游戏性能却明显更强。所以Nvdia在官网标注算力的同时还会标注GPU的架构。 ! Y2 {% e1 v( P d$ k: \* P E5 Y & w% k% R* T8 z, X 单精度浮点算力和架构共同决定了GPU的游戏性能。 ' i5 g& i" A) k- M# I: S2 f; ~4 p% S
但现在的GPU除了玩游戏和做渲染建模之外,还承担了许多AI相关的任务,在CUDA核心的右边是第四代Tensor Core张量核心,它非常适合做AI相关的深度学习计算,所有的Tensor Core一共可以提供780 AI TOPS算力。比如说现在的AI绘图软件就可以调用Tensor Core,生成图片的速度远比纯CUDA要快很多。9 L7 }* I. [5 P) n# ~
+ N' p% q- I8 B( ?6 {+ j1 ?$ O
游戏里的DLSS功能同样可以调用Tensor Core,用更低的分辨率渲染,再通过AI上采样到更高的分辨率,从而提升游戏的流畅度。 4 l, p( B; M( ^8 `7 c 4 W4 [) o; _, |/ b3 Z 逼真的游戏画面还离不开真实的光照效果,而光线的反射和折射需要庞大的算力,这张4080的核心中,每组SM里都有一颗第三代RT Core光线追踪核心,专门用来加速光照和反射的计算,一共可以提供113 RT-TFLOPS光追算力,光线追踪可以明显提升画质,但也非常的吃性能,如果用的是低端显卡,开了光追以后就可能很卡顿,只有性能更强的高端显卡才适合开启光线追踪。 . R5 x t; G0 N3 b3 J) ^% M7 H X) w: x7 Z" a' H3 }
在SM单元之外,还有很多其他的单元,视频解码器让显卡能把0101的数据转换成连续播放的视频画面,解码器性能过弱,就可能在播放视频时出现卡顿掉帧。而视频编码器则可以让你把拍摄到的视频数据以新的编码方式压缩成期望的格式和大小。编码器性能过弱则会在剪辑视频导出时浪费过多的时间,显存控制器让GPU和显存得以顺利交互数据。PCIE控制器则让显卡能和主板上的CPU、内存、硬盘等其他元器件交互数据。 P3 x" A. t7 Y% K T' E6 U
0 E; D( y3 N: w) s; f
除开上述内容,显卡的电路板上还有很多其他的附属芯片和接口,他们共同协作让显卡得以顺利运行。7 X7 Y" Z2 G g# G9 ?# D
! y5 G8 Z* e4 L s
现在你对显卡的硬件已经有一定的了解了。最后我们来讲讲该如何选择适合自己的显卡? # W! |) G7 i% n9 `6 o! k, a% A5 t
四.如何选择适合自己的显卡? 4 A0 w7 z/ m8 B6 q2 L8 U , J8 ^* c& G+ T- j3 ?! Q7 P6 O1 ]7 e 挑选一张显卡的顺序大概可以按照:性能需求、GPU型号、AIC品牌、实际产品 这四个步骤来考虑,性能需求可以借助Time SPY天梯图做参考。 $ U+ ~* C) j" l; w3 S0 f2 m; r' }) S5 u
在各个网站里你都可以搜到,它这个显卡的跑分,从高到低依次排列,虽然跑分和实际的游戏性能会略有差异,但是一个非常值得参考的数据,在天梯图里随便盲选一张显卡,然后搜索它的评测类节目,大概就可以知晓这张显卡在不同游戏中可以看到什么样的画质,达到什么样的流畅度,也可以看到它在专业软件中和其它显卡之间的性能差异。. ^. L9 d8 w+ s( n& z- {1 _! z! f
1 F6 q" n+ I6 U9 L
最后去查询这张显卡的价格,京东与官方旗舰店还有天猫旗舰店是存在一定的溢价的,建议使用淘宝第三方店作为价格参考,这样你就知道了多少钱可以买到一张跑分多少性能如何的显卡。; N) ^* }8 } T2 g/ P4 o