; f; m4 N( `% g. U2 u而尾部则是用来连接显示器的视频接口。( q8 [' v! ?# Y/ @, R7 l* _
0 x# @* X! y7 w( n/ _9 ?5 B) J3 p显卡通常会以侧插的形式安装在主板接口上,此时风扇会朝向机箱底部,视频接口则会出现在机箱尾部,从机箱的侧面观察我们通常只会看到显卡的侧面和背板。3 ]5 d" y1 m/ W. m
% D) ^8 H Q$ S8 E( w* `8 r一.显卡的供电 # Z' G3 x6 I$ |, }3 h# [ " M s6 f6 {3 e之前大部分显卡都使用8pin PCIE供电接口,能提供225W左右的供电,高功耗显卡则使用多个8pin才能满足需求。# \. {* T/ P* p' ^% M
7 [: d3 F1 i/ S& k
这张4080猛禽使用了最新的12V-2x6接口,体积十分小巧,单个接口可提供高达600W的供电。 / P2 ^7 R+ o/ H3 R5 v! Z / j F( W B3 E; I2 U华硕也设计出了无需外接供电线的背插显卡,可以直接从主板取电,安装以后会更加的简洁美观,但要搭配特定的主板或转接头才能使用。4 Q% T/ h6 t" O0 ?
* ^2 e* B R" U$ I6 L8 S' k' D" k4 U
二.显卡的散热, I6 i" q* w1 A5 a4 f; q
4 _* a" e( _2 l6 K
这张显卡在满载时的功耗可以达到360W,为了有效的排出热量,巨大的散热模组占据了整张显卡90%的体积。 - z, b. A2 A% W% W6 i; j- ~ Q, I) q. N& ~$ s
而最下面这张小小的电路板才是显卡的本体,也是热量的来源。/ T. V, T0 c v/ \) f2 f$ B
/ g6 M: @3 x- f( x8 o. a- e: W
' ]* n/ ?1 F) @. M1 r3 v0 K % b; q' V4 e9 O y散热模组由风扇,鳍片,热管与均热板构成,这里的核心是热管,热管的内壁是由粉末烧结成的多孔结构,在制造成型后,热管内部会填充少量的高纯水,并被抽成真空,以降低水的沸点和凝固点。( A8 q* s w8 V! H8 @. E8 B. Y9 v
8 S/ Y) P8 ?3 B' T( g
散热原理:当热管一侧接触到热源,这一侧的水就会蒸发为水蒸气,往压强更低的另一侧飘荡,在温度更低的区域释放热量,重新凝结成液态水,而凝结的液滴,会在毛细作用下,沿着多孔的内壁回流,达成气液循环,通过气体液体的转化,实现热量的高效传导。& W" c: e. Y- {9 `7 K& N1 K) E% i
' X5 j0 _, v& ^" h! G5 x5 F- \2 }
为了提高导热效果,大部分显卡会使用多根热管来传递热量,但热管直接接触核心不仅会有空隙,还会有热管无法接触到GPU芯片。所以现在高端显卡一般会使用大铜底包裹热管进行均热,一些高端显卡会使用到能力更强的均热板取代大铜底。均热板,你可以理解为面积非常大的板状热管,同样采用气液转换传递热量,导热能力是纯铜底的数倍。 1 n" h# V) g3 x# ^+ k6 o ' `: j. b- M! d: q7 d 不过热管和均热板能提供的对流面积非常有限,因此还需要搭配大量的铝制散热鳍片,扩大散热面积,最后通过风扇加强空气对流,带走芯片上的热量。早期的显卡采用下压式风扇设计,从风扇面进风,从侧面出风。现在显卡为了提高散热效果,会采用贯穿式风道设计,热量可以直接从背板的隔栅处排出。4080猛禽的风扇还使用了特殊的设计,中间的风扇与左右两侧的风扇旋转方向不同,保证风扇之间的气流方向相同,从而更高效的排出热量并降低噪音。 ( E: i" H3 {5 S" _, w- i 9 P% K, g5 _* ?2 ~- q3 h. u+ k) u' `% K& \. ^5 f2 F! R
三.显卡的主板7 f" M5 n+ Y5 P1 }0 V) b
% A6 R. U; E) i9 \ 我们可以把这块电路板从外往里划分成四个部分:接口,供电,显存以及GPU。: L: d6 D# I/ b
V" `& S4 I, w9 s: h( C' ]9 | * w4 }" e) A |) H4 u* z$ r/ V* a 6 L0 l9 P" X( H$ X2 U4 X 3 C' R$ p6 d9 ?; _ GPU相当于显卡的大脑,负责几乎所有的运算任务。要注意,GPU并不等于显卡,GPU通常指的是最中间的这块儿芯片,而显卡指的是包括芯片、显存、供电接口、电路板以及散热模块的整体。# B/ X' i7 K2 t, S0 y: b
, A. U/ ] D- k+ J7 H* W
GPU芯片主要由英特尔、AMD和Nvidia 三家厂商供应,而我们熟知的华硕等AIC厂商主要完成的是电路板与散热的设计和生产。, _5 V, u- L) z. V* h& {$ C- K
3 n( y+ J3 z D" W: J1 X 就像主板上所有的元器件都是为CPU服务一样,显卡电路板上的所有元器件也都是为GPU而服务的。视频接口让显卡可以直接把运算好的图像发送给显示器显示。这张4080猛禽搭载了两个HDMI2.1和三个DP1.4接口,不同版本的视频接口能承载的分辨率和刷新率不同。0 n5 y |" S. L! |- u/ a
4 c8 i) f% |0 ]- P9 J6 \( h PCIE接口让显卡能够通过主板和CPU、内存等其他原器件交互数据,它的数据传输能力和版本以及规则有关。比如说这张4080猛禽用的就是PCE4.0 x16接口,在主板同样支持PCE4.0的情况下,单条4.0通道每秒可以传输2GB的数据,16条总共可以传输每秒32GB的数据。. S: d o4 y1 `
( Z7 L9 G4 `$ F' L' O
3 N9 R& C1 X9 P# _
供电模块保证了显卡有充足的电力分配,它们分布在GPU和显存的外围,由PWM芯片、电容、电感和。MOS管组成电源会从右上方的供电接口输入+12伏的供电,之后再用供电模块儿降压至1.1伏与1.35伏,输送给GPU与显存。这张RT4080猛禽采用直出供电的设计,一个MOS管和一个电感就是一个供电项,总共有18项70A的GPU供电和三项50A的显存供电,即使显卡满载运转,也能提供持续稳定的电能。" @- ^* _5 N6 P6 d9 S: I
7 Q. o6 z6 c- Y6 F
CPU在计算时需要把数据临时存放在内存里,而高速运行的GPU同样需要把数据暂存在显存里,GPU周围黑色的小方块就是显存,这块4080猛禽使用的是最新的GDDR6X显存,频率1400兆赫兹,每颗显存都是2GB的容量,32bit的位宽,八颗一共16GB、256bit。图片7 ^! Y$ l, Q8 K2 z! I
Z9 q6 p- n, ?4 S: S# ? 显存的总带宽是由频率、位宽还有显存类型共同决定的。显存的频率代表一秒钟可以传输多少个周期,位宽代表显存一次可以传输的数据量。GDDR6X显存每个周期内可以传输16倍的数据,把它们相乘,再把bit换算成Byte以后,就得到了716.8GB/s的总带宽,代表显存每秒能传输的数据量。 ; |4 `7 f7 k4 o, F& Q' ?/ o 3 l% m& N. E, Q' X 一般来说,游戏的分辨率越高,贴图和模型越精致,对显存容量和带宽的要求就越高,但在显存够用的情况下,显卡的性能还是由显卡的核心GPU来决定。这张RTX4080显卡搭载的GPU芯片叫做AD 103-301。它使用的是Nvidia最新的ADA-Lovelace架构,面积只有379平方毫米,不过一个矿泉水瓶盖儿大小,但内部却集成了整整459亿颗晶体管。之所以能有这么高的晶体管密度,靠的是台积电先进的5nm光刻工艺。 6 u z; O4 u; z' ]' k& z, ?1 O v/ `6 j8 Q* e7 O3 ] 台积电会根据英伟达的设计方案,在一块儿12英寸的硅晶圆上,通过复杂的生产工艺刻制出复杂的电路图案。数量庞大的晶体管在GPU的内部组成了复杂的电路结构,就像一座微缩的城市,其中大部分的电路都可以用于图形运算。/ ^) h/ Y( b+ G, _, l, V c+ O
r- R g1 @& g. C0 ?1 D
我们一般会用一张简化图来观察GPU结构:主要由SM流式多处理器、L2缓存、NENC视频编码器、NEC视频解码器、显存控制器和PCE控制器构成。4 N3 O( q4 n2 j* \) ~ N
* y! o& j+ ?4 w P1 [
SM流式多处理器占据了GPU的大部面积,他负责了几乎所有的图形运算。这颗AD103-301核心里一共有76组SM单元,每组SM单元里包含128个流处理器,总共9728个流处理器。英伟达把这些流处理器叫做CUDA核心。4 @9 u* p! ~& |( g% b
1 A+ s0 A# W1 }- b 在这个计算的过程中,构成三角面的顶点坐标会精确到小数点后七位,转换成计算机能理解的二进制,就是32为0和1,我们管这个叫做FP32单精度浮点数。 : j0 E& ~! e! C z ?" J+ c u' w2 G% G5 f; k! N 流畅的画面需要每秒30帧甚至60帧以上的图像,而每一帧都需要大量精确的数据来计算,每秒钟能算的次数就是单精度浮点数算力,可以用来衡量图形渲染的性能。 , z( V$ f! N: P% F9 J6 V 2 g' {4 f2 x: R4 L* N- R m RTX4080的GPU核心可以让9728个CUDA核心同时进行单精度浮点计算,在2800兆赫兹的频率下,可以提供大约54T pro4的单精度浮点算力,意味着每秒钟可以计算五十四万亿次。图片5 s% H" e, N. _% @) |& a
/ L4 R2 j9 t, y- r! a' Q' u3 X- D# \
而像I9这样的高端CPU FT32的算力也只有2.5T Flops,对比之下你就会发现GPU比CPU更加适合图形渲染,单精度浮点主要影响的是游戏图像的渲染性能。 5 \2 t. l) Q Q8 T' b3 ?* m( g% h, W& ^4 R
在这颗4080的GPU核心中,所有的CUDA都能计算单精度浮点数,除了能计算FP32之外,同时向下兼容精度更低的半精度浮点FP16和1/4精度浮点FP8,但只有一半的CUDA能支持整数计算。英伟达会把不同GPU支持的具体算力标注在官网上供大家查询。 4 {, F7 z- A$ t ) M: I- V6 x' l4 B$ g 这里要说明的是GPU的算力和架构有关,架构是GPU的设计方案,设计方案越先进,相同算力下的图形渲染效率就越高。比如GTX1660的GPU架构比GTX980更先进,虽然他们的FP32算力差不多,但1660的游戏性能却明显更强。所以Nvdia在官网标注算力的同时还会标注GPU的架构。+ i3 ^/ J5 v' F7 ]& D
. A( a' K: v& B) t7 l4 e 单精度浮点算力和架构共同决定了GPU的游戏性能。- ~! [3 b7 s- a$ l. n% M. i% M
[$ ]" k0 b6 H% P7 v' C
但现在的GPU除了玩游戏和做渲染建模之外,还承担了许多AI相关的任务,在CUDA核心的右边是第四代Tensor Core张量核心,它非常适合做AI相关的深度学习计算,所有的Tensor Core一共可以提供780 AI TOPS算力。比如说现在的AI绘图软件就可以调用Tensor Core,生成图片的速度远比纯CUDA要快很多。 7 p, z# u7 X- o , z% z- c5 {, A) P# a8 f) n1 x 游戏里的DLSS功能同样可以调用Tensor Core,用更低的分辨率渲染,再通过AI上采样到更高的分辨率,从而提升游戏的流畅度。 & A' z: ?7 C3 d) \ " B+ f7 r/ O& w 逼真的游戏画面还离不开真实的光照效果,而光线的反射和折射需要庞大的算力,这张4080的核心中,每组SM里都有一颗第三代RT Core光线追踪核心,专门用来加速光照和反射的计算,一共可以提供113 RT-TFLOPS光追算力,光线追踪可以明显提升画质,但也非常的吃性能,如果用的是低端显卡,开了光追以后就可能很卡顿,只有性能更强的高端显卡才适合开启光线追踪。 ! R @" U4 e. r7 N7 h" J3 L / a( u7 X( r3 \) X. z6 S 在SM单元之外,还有很多其他的单元,视频解码器让显卡能把0101的数据转换成连续播放的视频画面,解码器性能过弱,就可能在播放视频时出现卡顿掉帧。而视频编码器则可以让你把拍摄到的视频数据以新的编码方式压缩成期望的格式和大小。编码器性能过弱则会在剪辑视频导出时浪费过多的时间,显存控制器让GPU和显存得以顺利交互数据。PCIE控制器则让显卡能和主板上的CPU、内存、硬盘等其他元器件交互数据。& K4 l& m6 ^7 ?; U D o) u
& `" `6 x' D( S' ] 除开上述内容,显卡的电路板上还有很多其他的附属芯片和接口,他们共同协作让显卡得以顺利运行。& h/ ?$ f( |0 n( D% y