/ I& g% X) Y% r1 m' ?- R / s' u* ^5 E2 p4 h9 n w" k; L: I7 A5 i$ |# k) b
6 J( c& B. \& K' Y
GPU相当于显卡的大脑,负责几乎所有的运算任务。要注意,GPU并不等于显卡,GPU通常指的是最中间的这块儿芯片,而显卡指的是包括芯片、显存、供电接口、电路板以及散热模块的整体。( h2 ~8 ]) f0 |) A) U" f. h
) j; K) I0 D$ c# J
GPU芯片主要由英特尔、AMD和Nvidia 三家厂商供应,而我们熟知的华硕等AIC厂商主要完成的是电路板与散热的设计和生产。 8 E9 ?9 ^9 \! T: }, ^& N5 ^3 [; P# r6 X2 j/ J: ]
就像主板上所有的元器件都是为CPU服务一样,显卡电路板上的所有元器件也都是为GPU而服务的。视频接口让显卡可以直接把运算好的图像发送给显示器显示。这张4080猛禽搭载了两个HDMI2.1和三个DP1.4接口,不同版本的视频接口能承载的分辨率和刷新率不同。 v2 A0 _5 l, H% }% j2 ]3 d. p3 V
# ^7 ?% {. o% }/ s& d3 _( B/ C z PCIE接口让显卡能够通过主板和CPU、内存等其他原器件交互数据,它的数据传输能力和版本以及规则有关。比如说这张4080猛禽用的就是PCE4.0 x16接口,在主板同样支持PCE4.0的情况下,单条4.0通道每秒可以传输2GB的数据,16条总共可以传输每秒32GB的数据。# ~3 W1 W5 }: }' y
$ L6 w5 c$ H; j/ U! H& i" p
( P! B P4 L. V' y( Y1 M
供电模块保证了显卡有充足的电力分配,它们分布在GPU和显存的外围,由PWM芯片、电容、电感和。MOS管组成电源会从右上方的供电接口输入+12伏的供电,之后再用供电模块儿降压至1.1伏与1.35伏,输送给GPU与显存。这张RT4080猛禽采用直出供电的设计,一个MOS管和一个电感就是一个供电项,总共有18项70A的GPU供电和三项50A的显存供电,即使显卡满载运转,也能提供持续稳定的电能。. q5 t6 I5 k' |7 j0 ^! s8 m
8 Y7 u' |6 q9 R& a CPU在计算时需要把数据临时存放在内存里,而高速运行的GPU同样需要把数据暂存在显存里,GPU周围黑色的小方块就是显存,这块4080猛禽使用的是最新的GDDR6X显存,频率1400兆赫兹,每颗显存都是2GB的容量,32bit的位宽,八颗一共16GB、256bit。图片 ; I, e+ o& N+ u8 R0 m2 r, Y $ N+ G3 t, i7 h# ] 显存的总带宽是由频率、位宽还有显存类型共同决定的。显存的频率代表一秒钟可以传输多少个周期,位宽代表显存一次可以传输的数据量。GDDR6X显存每个周期内可以传输16倍的数据,把它们相乘,再把bit换算成Byte以后,就得到了716.8GB/s的总带宽,代表显存每秒能传输的数据量。& x X& r% m" M8 ]
1 l% h4 m8 U, `' B" Z! O9 A$ n 一般来说,游戏的分辨率越高,贴图和模型越精致,对显存容量和带宽的要求就越高,但在显存够用的情况下,显卡的性能还是由显卡的核心GPU来决定。这张RTX4080显卡搭载的GPU芯片叫做AD 103-301。它使用的是Nvidia最新的ADA-Lovelace架构,面积只有379平方毫米,不过一个矿泉水瓶盖儿大小,但内部却集成了整整459亿颗晶体管。之所以能有这么高的晶体管密度,靠的是台积电先进的5nm光刻工艺。% j6 K; Y8 b( J j, D5 U% Q5 s
/ S# h; p. j5 o" K
台积电会根据英伟达的设计方案,在一块儿12英寸的硅晶圆上,通过复杂的生产工艺刻制出复杂的电路图案。数量庞大的晶体管在GPU的内部组成了复杂的电路结构,就像一座微缩的城市,其中大部分的电路都可以用于图形运算。; v6 B( |8 s! j$ F
4 M$ G9 s( d6 E' n1 {# i4 O( n
我们一般会用一张简化图来观察GPU结构:主要由SM流式多处理器、L2缓存、NENC视频编码器、NEC视频解码器、显存控制器和PCE控制器构成。) T, E4 |) ?) c- u" U) y
& I: \# i' P/ e' T, G/ L SM流式多处理器占据了GPU的大部面积,他负责了几乎所有的图形运算。这颗AD103-301核心里一共有76组SM单元,每组SM单元里包含128个流处理器,总共9728个流处理器。英伟达把这些流处理器叫做CUDA核心。 7 \7 L' O) Q2 q6 c7 h W c) x9 t" S& d
显卡的流处理器数量越多,频率越高,性能就会越强。* }$ m( y' A. j
* ~- E, ? o+ k( |4 G; R# c" K& O: n) G 如果把每组SM类比成一个CPU核心,那么这颗GPU就相当于一颗76核9728线程的处理器。不过,CPU核心就像经验丰富的数学家,能处理更加复杂的任务;而GPU核心更像是只会四则运算的小学生,适合做简单的并行计算。在AI模型的训练和推理、3D游戏里的图形渲染都是需要这样大量简单计算的场景。显卡核心的数量优势就比CPU核心的质量优势更加有效率。要理解为什么显卡更适合这样的运算,我们就需要了解一下游戏画面到底是如何渲染的?图片- t8 [ p+ ^1 q) \6 n9 `& y
: v- }9 M5 t5 D8 Q 认识图形渲染的基本流程,只需要知道我们看到的世界是由无数个带坐标的模型世界构成,想要观察这个世界,我们还需要一个虚拟摄像机,只有位于摄像机视野范围内的模型才会被渲染出来,同时这些模型相对于摄像机的位置也会被重新计算,得到新的坐标值。: e' }+ A: C2 Y
1 ]4 {/ z& B+ X& e' z 摄像机所捕获到的这些画面实际上是一个二维平面。三维空间中的模型是要通过投影的方式映射到这个平面上,最后我们需要将这个二维画面显示在由像素点构成的屏幕上。为了获得最终的渲染效果,我们还需要对每个像素点的纹理、光照和颜色等属性进行单独计算。经过这一系列复杂的运算,才能最终生成一帧在屏幕上显示的图像。5 a- _+ K/ }! A: O7 b) g4 c
0 x- m" z( z6 d q/ W& w" ] 在这个计算的过程中,构成三角面的顶点坐标会精确到小数点后七位,转换成计算机能理解的二进制,就是32为0和1,我们管这个叫做FP32单精度浮点数。/ i$ ~7 k, h! z
7 K9 r T+ H1 X: ~7 o( O
流畅的画面需要每秒30帧甚至60帧以上的图像,而每一帧都需要大量精确的数据来计算,每秒钟能算的次数就是单精度浮点数算力,可以用来衡量图形渲染的性能。 9 @; z+ \, a* D Z5 R6 b5 r4 Z 4 \) K# b9 U+ M; a$ R/ A$ W$ B( w6 } RTX4080的GPU核心可以让9728个CUDA核心同时进行单精度浮点计算,在2800兆赫兹的频率下,可以提供大约54T pro4的单精度浮点算力,意味着每秒钟可以计算五十四万亿次。图片$ \3 p" b6 A$ L- ]
3 I# Y- m# B$ g7 F. ]( g 而像I9这样的高端CPU FT32的算力也只有2.5T Flops,对比之下你就会发现GPU比CPU更加适合图形渲染,单精度浮点主要影响的是游戏图像的渲染性能。 5 K6 U5 b8 N0 E3 \- D7 |% ^ T4 a' P# R+ j, v3 n3 ? 在这颗4080的GPU核心中,所有的CUDA都能计算单精度浮点数,除了能计算FP32之外,同时向下兼容精度更低的半精度浮点FP16和1/4精度浮点FP8,但只有一半的CUDA能支持整数计算。英伟达会把不同GPU支持的具体算力标注在官网上供大家查询。 ' L/ \+ ]5 b: W7 C. B! ^- Q9 C 3 k" ~/ @# K. d6 ]$ e& ? 这里要说明的是GPU的算力和架构有关,架构是GPU的设计方案,设计方案越先进,相同算力下的图形渲染效率就越高。比如GTX1660的GPU架构比GTX980更先进,虽然他们的FP32算力差不多,但1660的游戏性能却明显更强。所以Nvdia在官网标注算力的同时还会标注GPU的架构。 3 {! t. W- B O: \0 M: x0 S; x ; y2 U$ w: [! w1 i& @$ n/ a 单精度浮点算力和架构共同决定了GPU的游戏性能。3 y7 |3 U- }* }; k
9 W" T6 g% ?% t! ]$ r
但现在的GPU除了玩游戏和做渲染建模之外,还承担了许多AI相关的任务,在CUDA核心的右边是第四代Tensor Core张量核心,它非常适合做AI相关的深度学习计算,所有的Tensor Core一共可以提供780 AI TOPS算力。比如说现在的AI绘图软件就可以调用Tensor Core,生成图片的速度远比纯CUDA要快很多。 ' k6 H6 g9 ^9 t( n& L: K6 u- Q 9 ]& }; M* Z+ v- m- G* g" L 游戏里的DLSS功能同样可以调用Tensor Core,用更低的分辨率渲染,再通过AI上采样到更高的分辨率,从而提升游戏的流畅度。 : ^. ^+ ~; s0 m7 I+ N* J, _& b1 m- E2 K" L* K0 J" q3 w9 Y- P' a$ v
逼真的游戏画面还离不开真实的光照效果,而光线的反射和折射需要庞大的算力,这张4080的核心中,每组SM里都有一颗第三代RT Core光线追踪核心,专门用来加速光照和反射的计算,一共可以提供113 RT-TFLOPS光追算力,光线追踪可以明显提升画质,但也非常的吃性能,如果用的是低端显卡,开了光追以后就可能很卡顿,只有性能更强的高端显卡才适合开启光线追踪。 6 [0 Y( S8 L6 I 3 x9 W7 P U. _3 m4 F: ?% ~ 在SM单元之外,还有很多其他的单元,视频解码器让显卡能把0101的数据转换成连续播放的视频画面,解码器性能过弱,就可能在播放视频时出现卡顿掉帧。而视频编码器则可以让你把拍摄到的视频数据以新的编码方式压缩成期望的格式和大小。编码器性能过弱则会在剪辑视频导出时浪费过多的时间,显存控制器让GPU和显存得以顺利交互数据。PCIE控制器则让显卡能和主板上的CPU、内存、硬盘等其他元器件交互数据。 - I v9 r+ x& q% {' ? 6 x% V" |5 }. ?5 m* K' F* W 除开上述内容,显卡的电路板上还有很多其他的附属芯片和接口,他们共同协作让显卡得以顺利运行。! i# }* l1 @( @5 w* A. q
U0 Q( y6 n: r9 g% k! K( s
现在你对显卡的硬件已经有一定的了解了。最后我们来讲讲该如何选择适合自己的显卡? 8 h$ ?: p3 K# l- x- `( m1 n4 Q, e* [6 B ~; l) K7 _' ^: l
四.如何选择适合自己的显卡?' A. M- _! X3 ]# \3 G3 Z
3 N; O0 F) b/ s
挑选一张显卡的顺序大概可以按照:性能需求、GPU型号、AIC品牌、实际产品 这四个步骤来考虑,性能需求可以借助Time SPY天梯图做参考。 & j& X, ?+ } h- a# e' \ 3 K' w7 K& {* S" o) l- [( ? 在各个网站里你都可以搜到,它这个显卡的跑分,从高到低依次排列,虽然跑分和实际的游戏性能会略有差异,但是一个非常值得参考的数据,在天梯图里随便盲选一张显卡,然后搜索它的评测类节目,大概就可以知晓这张显卡在不同游戏中可以看到什么样的画质,达到什么样的流畅度,也可以看到它在专业软件中和其它显卡之间的性能差异。 0 [8 W$ H/ D$ ? & D) I0 w; D6 e( }2 I$ \) r 最后去查询这张显卡的价格,京东与官方旗舰店还有天猫旗舰店是存在一定的溢价的,建议使用淘宝第三方店作为价格参考,这样你就知道了多少钱可以买到一张跑分多少性能如何的显卡。3 f" b, P/ N$ a# f0 L
. R, g4 [. T4 W1 X 如果觉得超出预算,就在天梯图里往下找,如果觉得性能不太满足要求,那么就往上找,多看几张显卡,性能评测与价格几个来回下来,平衡一下预算和性能需求,该选择什么型号的GPU就非常清晰了。 L! r, y- `$ q * t; e2 a. ?4 F9 F0 G% O 确定好GPU型号以后,网上一搜就会发现虽然都是4070,却有着各种各样不同型号不同品牌的显卡,不免让小白犯难。这里我们其实可以剥离成两部分来看,一部分是品牌,另一部分是品牌内部的子型号。' H7 G0 d# I! D/ I
, }7 x; L' ]; B2 k/ |0 L 由于AIC品牌只完成电路板和散热模块儿的设计与生产,所以在确定了GPU型号是4070以后,各个品牌之间的性能差距不会非常的大,不同品牌之间的差异主要集中在外观、散热、噪音、做工、用料、售后以及特色功能上。& j$ z/ N9 N3 M1 t$ M
" N3 U% z% X3 T" B7 |0 e8 W 而这些也往往和各家品牌内部的子型号挂钩,这是目前市面上通过的官方认证的主流AIC厂商。通常来讲,我们会更建议小白选择例如华硕这样的一线大厂,他们的全自动化制程技术不仅在品控上更有保障,大品牌在售后服务上也会更加完善。如果你看中的品牌不在这个表里,那建议谨慎考虑。/ {+ @6 N: v3 I* S* v; Z7 T