/ f/ g8 A: b$ K0 d9 Q k0 p4 Y r8 d( |% r F
许多人都喜欢玩电脑游戏,而3D游戏里的每一帧画面都依赖于显卡的强大性能。显卡是现代PC里规模最庞大的核心组件,不仅能用于游戏和三维渲染,还在人工智能领域发挥着重要的作用。它有哪些结构,又如何生成游戏画面?本期我们将会带你从零开始认识显卡。我们在玩儿的电脑游戏,形态各异的建筑,细节丰富的车辆,一切都很真实,它们的本质其实是一个个不同位置的点,这些顶点在空间中相互连成线,形成无数个三角面,再经过贴图、光照、着色等复杂的渲染过程最终形成了我们看到的精美画面,从三角形的生成再到图像的输出,其中每一个步骤都需要显卡。作为电脑里进气管儿数量最多的核心组件,显卡有哪些结构,又是如何工作的?以这张ROG strix RTX4080猛禽为例,带你从零开始认识显卡。 c( s! T% j2 ]* b' O% z7 n7 w: E
" s" n m9 |8 x3 H4 M; B+ e
# e; F; t& c, Z: [6 ]& I; o' l
( F% z3 |5 ^, Y2 [: ~
) L; e8 k: r! |5 u! O0 [9 }+ y 台积电会根据英伟达的设计方案,在一块儿12英寸的硅晶圆上,通过复杂的生产工艺刻制出复杂的电路图案。数量庞大的晶体管在GPU的内部组成了复杂的电路结构,就像一座微缩的城市,其中大部分的电路都可以用于图形运算。 9 E) p! _) |* ^! X8 @9 \9 x8 h 4 J- T. ^3 y) F5 r0 h 我们一般会用一张简化图来观察GPU结构:主要由SM流式多处理器、L2缓存、NENC视频编码器、NEC视频解码器、显存控制器和PCE控制器构成。 : S9 a. W0 ^1 d1 K# k E. P' Y4 i0 F" b( R, j ` o- U
SM流式多处理器占据了GPU的大部面积,他负责了几乎所有的图形运算。这颗AD103-301核心里一共有76组SM单元,每组SM单元里包含128个流处理器,总共9728个流处理器。英伟达把这些流处理器叫做CUDA核心。 ) L: U/ t+ d# d9 T( U, Z: l$ M- B7 U9 S( s$ j2 [4 h" e
显卡的流处理器数量越多,频率越高,性能就会越强。. \# C* _( @7 t; `
) P. b. H7 ], E v! l" U 如果把每组SM类比成一个CPU核心,那么这颗GPU就相当于一颗76核9728线程的处理器。不过,CPU核心就像经验丰富的数学家,能处理更加复杂的任务;而GPU核心更像是只会四则运算的小学生,适合做简单的并行计算。在AI模型的训练和推理、3D游戏里的图形渲染都是需要这样大量简单计算的场景。显卡核心的数量优势就比CPU核心的质量优势更加有效率。要理解为什么显卡更适合这样的运算,我们就需要了解一下游戏画面到底是如何渲染的?图片7 K7 P1 ~: n4 I
+ v Y6 W% o3 [% `) y+ M
认识图形渲染的基本流程,只需要知道我们看到的世界是由无数个带坐标的模型世界构成,想要观察这个世界,我们还需要一个虚拟摄像机,只有位于摄像机视野范围内的模型才会被渲染出来,同时这些模型相对于摄像机的位置也会被重新计算,得到新的坐标值。 ! [! Q) s, `; q: N 9 L/ W( }. ~+ x) I: c- Z 摄像机所捕获到的这些画面实际上是一个二维平面。三维空间中的模型是要通过投影的方式映射到这个平面上,最后我们需要将这个二维画面显示在由像素点构成的屏幕上。为了获得最终的渲染效果,我们还需要对每个像素点的纹理、光照和颜色等属性进行单独计算。经过这一系列复杂的运算,才能最终生成一帧在屏幕上显示的图像。 $ u: K( s/ @4 p+ f5 q! v8 H' d2 l! z 3 n$ m! N+ C9 I. |: W( c 在这个计算的过程中,构成三角面的顶点坐标会精确到小数点后七位,转换成计算机能理解的二进制,就是32为0和1,我们管这个叫做FP32单精度浮点数。 + N9 w0 `9 y- S ( n' |% l4 U) F 流畅的画面需要每秒30帧甚至60帧以上的图像,而每一帧都需要大量精确的数据来计算,每秒钟能算的次数就是单精度浮点数算力,可以用来衡量图形渲染的性能。3 s; X7 P$ Q6 s2 Q7 x2 _: U
+ j2 z) d: g& ~# R* g* x# g
RTX4080的GPU核心可以让9728个CUDA核心同时进行单精度浮点计算,在2800兆赫兹的频率下,可以提供大约54T pro4的单精度浮点算力,意味着每秒钟可以计算五十四万亿次。图片 - u: Z6 m- `4 n$ |0 P' _0 X 6 P4 U. D! N: g5 o 而像I9这样的高端CPU FT32的算力也只有2.5T Flops,对比之下你就会发现GPU比CPU更加适合图形渲染,单精度浮点主要影响的是游戏图像的渲染性能。 . }+ Q# z8 v- ?* o! V7 w* a. k7 @5 `2 m8 D, y8 l0 h4 r, T
在这颗4080的GPU核心中,所有的CUDA都能计算单精度浮点数,除了能计算FP32之外,同时向下兼容精度更低的半精度浮点FP16和1/4精度浮点FP8,但只有一半的CUDA能支持整数计算。英伟达会把不同GPU支持的具体算力标注在官网上供大家查询。5 p% B& F3 Z. q+ m/ a% c
3 F& s7 v% d: Z- g 这里要说明的是GPU的算力和架构有关,架构是GPU的设计方案,设计方案越先进,相同算力下的图形渲染效率就越高。比如GTX1660的GPU架构比GTX980更先进,虽然他们的FP32算力差不多,但1660的游戏性能却明显更强。所以Nvdia在官网标注算力的同时还会标注GPU的架构。- z/ h0 R* m: n4 {8 O
& j" H! J# w# V" ^) ^9 d0 x, Z7 R. b
单精度浮点算力和架构共同决定了GPU的游戏性能。& m/ f3 v" V" I9 W
6 a/ O0 C: d! e) a5 P1 |) u/ m
但现在的GPU除了玩游戏和做渲染建模之外,还承担了许多AI相关的任务,在CUDA核心的右边是第四代Tensor Core张量核心,它非常适合做AI相关的深度学习计算,所有的Tensor Core一共可以提供780 AI TOPS算力。比如说现在的AI绘图软件就可以调用Tensor Core,生成图片的速度远比纯CUDA要快很多。7 C3 Z# J( M* H/ C
& A n: ?/ V& C9 ~2 K' h7 q+ Z& r
游戏里的DLSS功能同样可以调用Tensor Core,用更低的分辨率渲染,再通过AI上采样到更高的分辨率,从而提升游戏的流畅度。+ S* y4 T1 W: h* }, F
% X0 W2 q* L4 O3 @ 逼真的游戏画面还离不开真实的光照效果,而光线的反射和折射需要庞大的算力,这张4080的核心中,每组SM里都有一颗第三代RT Core光线追踪核心,专门用来加速光照和反射的计算,一共可以提供113 RT-TFLOPS光追算力,光线追踪可以明显提升画质,但也非常的吃性能,如果用的是低端显卡,开了光追以后就可能很卡顿,只有性能更强的高端显卡才适合开启光线追踪。 : i3 H+ Q6 O0 Y8 @ |4 r0 y/ U7 w& \* M% s8 t* Z' ^, P& H$ L
在SM单元之外,还有很多其他的单元,视频解码器让显卡能把0101的数据转换成连续播放的视频画面,解码器性能过弱,就可能在播放视频时出现卡顿掉帧。而视频编码器则可以让你把拍摄到的视频数据以新的编码方式压缩成期望的格式和大小。编码器性能过弱则会在剪辑视频导出时浪费过多的时间,显存控制器让GPU和显存得以顺利交互数据。PCIE控制器则让显卡能和主板上的CPU、内存、硬盘等其他元器件交互数据。 7 g% ^* t# T4 l1 [ - S4 w1 N7 J8 T& q4 k* S 除开上述内容,显卡的电路板上还有很多其他的附属芯片和接口,他们共同协作让显卡得以顺利运行。7 Y! o, H5 m% A- D) O0 X- E! S
# w! Z8 j: U9 B }; Z3 _- ]2 s& r
现在你对显卡的硬件已经有一定的了解了。最后我们来讲讲该如何选择适合自己的显卡? \' n2 ^3 W% q5 I; u4 I/ j$ T/ W7 Z
2 |9 w6 p/ G% R
四.如何选择适合自己的显卡?! @+ u7 W4 q q7 Z
) w! ~1 k6 O& j8 D Y2 A5 `
挑选一张显卡的顺序大概可以按照:性能需求、GPU型号、AIC品牌、实际产品 这四个步骤来考虑,性能需求可以借助Time SPY天梯图做参考。 ! D7 q/ f) e1 h9 h; n+ m + p+ c" S; \- {4 ^' Y1 D) Y 在各个网站里你都可以搜到,它这个显卡的跑分,从高到低依次排列,虽然跑分和实际的游戏性能会略有差异,但是一个非常值得参考的数据,在天梯图里随便盲选一张显卡,然后搜索它的评测类节目,大概就可以知晓这张显卡在不同游戏中可以看到什么样的画质,达到什么样的流畅度,也可以看到它在专业软件中和其它显卡之间的性能差异。& d5 R/ m6 y" h( a- }: ^5 P! B
( q; r3 {0 e' T! d, v
最后去查询这张显卡的价格,京东与官方旗舰店还有天猫旗舰店是存在一定的溢价的,建议使用淘宝第三方店作为价格参考,这样你就知道了多少钱可以买到一张跑分多少性能如何的显卡。 Y K6 ?% H2 V: L4 @$ I: D& H
# ?6 Q' s% `6 t6 P
如果觉得超出预算,就在天梯图里往下找,如果觉得性能不太满足要求,那么就往上找,多看几张显卡,性能评测与价格几个来回下来,平衡一下预算和性能需求,该选择什么型号的GPU就非常清晰了。! [) U2 m# n7 t. A t
. y/ ~8 x0 J& i2 _ 确定好GPU型号以后,网上一搜就会发现虽然都是4070,却有着各种各样不同型号不同品牌的显卡,不免让小白犯难。这里我们其实可以剥离成两部分来看,一部分是品牌,另一部分是品牌内部的子型号。 5 x9 a# Y2 L/ J* ^- N. D / |, j3 @2 E+ o3 {+ u2 B% X 由于AIC品牌只完成电路板和散热模块儿的设计与生产,所以在确定了GPU型号是4070以后,各个品牌之间的性能差距不会非常的大,不同品牌之间的差异主要集中在外观、散热、噪音、做工、用料、售后以及特色功能上。 : o7 k, _" {! _# z& l, J- C6 r4 c6 k1 u* O. o
而这些也往往和各家品牌内部的子型号挂钩,这是目前市面上通过的官方认证的主流AIC厂商。通常来讲,我们会更建议小白选择例如华硕这样的一线大厂,他们的全自动化制程技术不仅在品控上更有保障,大品牌在售后服务上也会更加完善。如果你看中的品牌不在这个表里,那建议谨慎考虑。" R3 b+ S3 y: B
( ^$ M f9 p* ?# J' f/ n0 y1 e 在品牌内部也划分有子型号,虽然GPU型号相同,性能差距也不大,但这些子型号往往决定了显卡的用料水平。高端产品线往往具有更强大的供电、更好的散热、更低的噪音、更好的超频空间以及更拉风更炫酷的外观,但通常也会更贵;低端产品线,可能在散热、噪音、用料以及外观上相较于旗舰产品会欠缺一些,但它的价格也相对便宜,适合那些追求性价比的用户。到底是选择更贵的旗舰还是选择性价比高的主流产品?还是要根据自己的钱包、喜好的外观、对噪音和温度的接受程度以及是否要超频来决定好。 3 o, X) Z8 U( A; B0 x3 D 8 s- w6 s8 K w6 _
/ J$ X ~4 R! L6 q5 o" a + L U7 R* U+ _. L. W1 w/ N d( t0 b. q5 K
当然你也可以直接拨打电话13101986181,让我帮你组装电脑,装机!0 _- j% e: P2 Z2 i0 \ % K9 F, [" `# A' ]8 W / q, l1 K, B- G: {# u8 h