NVIDIA的Ampere SM详细说明以及RTX 3080限于10GB内存的原因

砍柴网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

来源:新浪VR NVIDIA的Ampere SM详细说明以及RTX 3080限于10GB内存的原因

在Reddit问答中,NVIDIA回答了 游戏 玩家和新闻界最棘手的问题,包括SM结构,内存缓冲区,RTX IO等。第一个问题是相对于RTX 3080基本上没有变化的内存缓冲区到它的前身。

NVIDIA的Ampere SM详细说明以及RTX 3080限于10GB内存的原因

NVIDIA的贾斯汀·沃克(Justin Walker)在回答该问题时解释说,根据该公司的分析,10GB足以以4K超高速度运行所有现有和即将推出的游戏,而不会遇到任何内存瓶颈。此外,他还透露,所有最新的AAA游戏,例如《古墓丽影》,《地铁出埃及记》,《奥德赛》,《无主之地3》,在RTX 3080(4K)上只有4-6GB的内存使用情况下都能很好地运行。最后,沃克承认,拥有更多的内存总是更好,但是将其增加到10GB以上将使3080不必要地变得更高。

NVIDIA的Ampere SM详细说明以及RTX 3080限于10GB内存的原因

[Justin Walker]  我们一直在分析最新游戏的内存需求,并定期与游戏开发者进行审查,以了解他们对当前和即将推出的游戏的内存需求。3080的目标是以最高可能的价格最大化所有设置,以高达4k的分辨率提供出色的性能。

为此,您需要一个功能强大的GPU,具有高速内存和足够的内存以满足游戏需求。举几个例子-如果您看《古墓丽影》,《刺客信条:奥德赛》,《地铁出埃及记》,《德军总部》,《战争机器5》,《无主之地3》和《荒野大镖客2》,它们在3080上以4k的最大设置运行(包括任何适用的高价) res texture packs)和RTX On(如果游戏支持),您将获得60-100fps的范围,并使用4GB至6GB的任何内存。

额外的内存总是很不错,但是会增加显卡的价格,因此我们需要找到合适的平衡点。

安培流多处理器(SM)

每个SM有两个数据路径或流水线。四个分区中的每个分区都由两个ALU集群组成:一组16个FP32内核以及一组32个FP32和INT16。 作为这种新分区的结果,每个Ampere SM分区可以每个时钟执行32条FP32指令,或者每个周期执行16条FP32和16条INT32指令。实际上,您要用整数性能来换取两倍的浮点功能。幸运的是,由于大多数图形工作负载都是FP32,因此应该可以发挥NVIDIA的优势。

总体而言,所有四个SM分区组合在一起可以每个时钟执行128个FP32操作或每个时钟执行64个FP32和64个INT32操作。

感谢Andreas Schilling的样机

与Turing SM相比,Ampere 30系列SM的主要设计目标之一是实现FP32操作的两倍吞吐量。为了实现此目标,Ampere SM包括针对FP32和INT32操作的新数据路径设计。每个分区中的一个数据路径由16个FP32 CUDA内核组成,每个时钟能够执行16个FP32操作。另一个数据路径包括16个FP32 CUDA内核和16个INT32内核。作为这种新设计的结果,每个Ampere SM分区每个时钟能够执行32个FP32操作,或者每个时钟能够执行16个FP32和16 INT32操作。所有四个SM分区组合在一起,每个时钟可执行128 FP32操作,是Turing SM FP32速率的两倍,或者每个时钟执行64 FP32和64 INT32操作。

要使数学吞吐量增加一倍,就需要将支持它的数据路径增加一倍,这就是为什么Ampere SM还将SM的共享内存和L1缓存性能提高一倍的原因。(每个Ampere SM为128字节/时钟,而在Turing中为64字节/时钟)。GeForce RTX 3080的总L1带宽为219 GB /秒,而GeForce RTX 2080 Super则为116 GB /秒。

GPC是主要的高级硬件模块,所有关键图形处理单元都位于GPC内部。每个GPC都有一个专用的光栅引擎,现在还包括两个ROP分区(每个分区包含八个ROP单元),这是NVIDIA Ampere Architecture GA10x GPU的新功能。有关NVIDIA Ampere架构的更多详细信息,请参见NVIDIA的Ampere架构白皮书,该白皮书将在未来几天内发布。

NVIDIA的Tony Tamasi

为了允许使用两个数据路径和2倍的FP32性能,L1缓存带宽(和相关的共享内存)也必须加倍:每个Ampere SM 128字节/时钟,而Turing中64字节/时钟。RTX 3080的L1总带宽为219 GB /秒,而RTX 2080 Super的总L1带宽为116 GB /秒。

栅格后端也被抛光。现在,每个GPC都有一个带有两个ROP分区的栅格引擎,每个分区打包八个ROP。这意味着您有16个ROP,而不是每个32位内存控制器8个。这导致RTX 3080的总ROP计数为160,而3090的总ROP计数为192。

随意打赏

提交建议
微信扫一扫,分享给好友吧。