2023数博会丨大模型发展面临诸多挑战,优刻得为大模型发展提供安全可靠支撑
2023中国国际大数据产业博览会今天上午在贵阳市开幕。本届数博会以“数实相融 算启未来”为年度主题开展峰会、展览、大赛等活动。5月25日,由上海张江集团、贵州贵安发展集团联合承办的人工智能大模型高端对话在贵阳国际生态会议中心举办,贵阳市市长马宁宇出席会议并致辞,中国工程院院士、清华大学计算机系教授郑纬民等专家在会上作主旨演讲。优刻得公司受邀参会,与其他来自芯片、服务器、数据中心、行业协会等领域的嘉宾,围绕“数实相融,创新智算”主题开展圆桌对话,共同探讨数据、算力与AI大模型的技术和产业趋势。
大模型引领了AI落地和应用的新篇章,云计算为大模型的快速发展提供所需的智算基础设施支撑。UCloud优刻得副总裁刘杰认为,国内大模型的发展存在算力、数据、算法和工程四个方面的挑战。
在算力层面,训练大模型需要庞大的计算集群和高性能的硬件设备。随着模型规模的增加,所需的算力也会相应增加。目前国内大模型因为禁售等原因面临高端算力芯片供给不足,同时国产算力芯片形成规模化应用能力还需要一定时间。
在数据层面,大模型需要大规模的数据集进行训练,数据的多样性和广覆盖,对于模型的性能至关重要。目前,国内基于中文语义的大模型训练所需要的中文数据总量不够,且质量不高,同时数据流通还面临信息安全等问题。
在算法层面,大模型的训练涉及上千亿参数,需要高效的算法来加速和优化模型性能。千亿模型的混合精度训练性能不稳定且调试困难,而传统的机器学习算法和模型结构,难以有效地扩展到大模型训练。
在工程层面,大模型训练需要数千张甚至上万张卡同时进行计算,涉及到基础设施的性能、网络架构的设计等,以确保高性能、可扩展性和可靠性,工程化的实践非常难。
当前,UCloud正通过全栈云计算技术能力和工程实践能力,为AI大模型提供安全可靠的智算基础设施服务。
在算力方面,基于“东数西算”两大自建数据中心——内蒙古乌兰察布数据中心和上海青浦数据中心,UCloud为大模型训练和应用提供低成本、高附加值的算力服务。UCloud自建数据中心内部署了GPU高性能计算产品,上线了NVIDIA的V100S等多款显卡,,A800也即将上线,满足大模型用户在多场景下的GPU加速需求。值得一提的是,位于西部的乌兰察布数据中心电力价格相对较低,可为大模型训练降低30%-50%的运营成本。
面对大模型落地的私有化场景,UCloud还推出了全栈私有云解决方案,基于 UCloudStack 私有云、UCloudStor 分布式存储及 USDP 智能大数据平台等,构建安全稳定的私有化大模型基础设施。
在数据方面,为降低数据存储成本,UCloud在数据中心内部署了新一代归档存储产品US3,相较标准存储降低80%存储成本,为大模型训练需要的海量语料数据存储和备份,提供更具性价比的解决方案。在数据流通环节,UCloud数据安全流通平台安全屋,将数据所有权和使用权分离,采用可信数据沙箱、安全多方计算、联邦学习等多种技术,保障数据可用不可见,可用不可拿,促进数据要素的流通,让更多专业性、稀有性、独特性数据释放价值。
在工程方面,作为一家 创业 型的云计算公司,UCloud拥有从数据中心、服务器、到计算、存储网络、安全、架构设计等全方面的资源积累和技术积累,可以为大模型行业快速构建稳定可靠的基础设施。
随着AI行业发展,MaaS模式将成为AI应用的全新形式且快速发展,重构AI产业的 商业 化结构生态,激发新的产业链分工和商业模式。当前,UCloud也在探索与达观数据、云知声等拥有数据和大模型的公司合作,以“大模型+大算力”的方式,为产业客户提供MaaS服务,降低AI应用开发门槛,促进大模型在产业场景中的落地。
与会嘉宾还探讨了“东数西算”与大模型训练的关系。刘杰表示,大模型的“东数西训”,正是国家“东数西算”战略的一部分。大模型训练和推理对算力需求是不一样的,训练用算力对训练集群外部的延时不敏,完全可以放在西部地区的数据中心进行。
刘杰表示,包括贵安、乌兰察布在内的西部数据中心,承载大模型训练具有以下优势:一是西部地区有可靠的数据中心环境,为大模型训练提供一个稳定的基础设施保障;二是训练成本低,西部地区电力资源丰富,电价比较低;三是西部地区有大量的可再生能源、清洁能源,为大模型需要的算力提供绿色能源支持。