成功的基石 寒武纪推第四代智能处理器架构
伴随着寒武纪思元370的正式推出,寒武纪第四代智能处理器架构MLUarch03也终于浮出水面,MLUarch03带来哪些改进和优化,又有哪些值得关注的特点呢?
在全新的MLUarch03架构加持之下,思元370算力最高可达256TOPS(INT8),是上一代产品思元270算力的2倍。相较于峰值算力的提升,思元370在实测性能和能效方面的表现更为优秀:以ResNet-50为例,MLU370-S4加速卡(半高半长)实测性能为同尺寸主流GPU的2倍;MLU370-X4加速卡(全高全长)实测性能与同尺寸主流GPU相当,能效则大幅领先。
MLUarch03架构采用新一代张量运算单元,内置Supercharger模块大幅提升各类卷积效率;采用全新的多算子硬件融合技术,在软件融合的基础上大幅减少算子执行时间;片上通讯带宽是上一代MLUarch02的2倍、片上共享缓存容量最高是MLUarch02的2.75倍;推出全新MLUv03指令集,更完备,更高效且向前兼容。
Supercharger和多算子硬件融合技术
稳步提升定点算力的同时,思元370全面加强了FP16、BF16以及FP32等不同类型的浮点算力,可同时推理和训练任务,增强兼容性以实现更快部署。市场只会留给有准备的人。寒武纪作为初创企业,对客户需求的把握也精细到全流程跟进。比如思元370,不仅可以作为推理芯片,也可以作为训练芯片使用。这样做的好处不仅是寒武纪自己的产品能够兼顾训练与推理,也方便客户全流程的模型部署、业务落地。
此外,思元370还是国内第一款公开发布支持LPDDR5的云端AI芯片,内存带宽是上一代产品的3倍,访存能效达GDDR6的1.5倍。
寒武纪智能芯片架构演进
值得强调的是,寒武纪坚持自研智能芯片架构、指令集的研发工作,是国内外在该技术方向积累最为深厚的公司之一。
通过如思元370这样更具效率的AI芯片在云端场景替代传统GPU,就能够大幅降低前期基础设施建设成本,减少后期运行能耗。可以说,思元370成功推出的背后,不仅是寒武纪研发人员的日夜努力,也是社会各行各业对更高效率AI芯片的迫切需求。