盘古大模型向无人区撒了一张“网”,但华为能捞上“鱼”吗? | 速途网
2021年盘古大模型上线至今,随着国内多家企业相继推出类ChatGPT大模型,华为也升级发布盘古大模型。
此前,外部猜测华为将推出“盘古Chat”对标ChatGPT的多模态千亿级大模型产品,不过,很快华为进行了辟谣,不会有“盘古Chat”此类命名,也不“对标”业界产品。
在今天召开的华为开发者大会2023(Cloud)上,华为常务董事、华为云CEO张平安宣布,华为云盘古大模型3.0正式发布。
据介绍,盘古大模型3.0分为L0基础大模型、L1行业大模型、L2场景模型三层架构,将重塑千行百业。重点面向政务、金融、制造、医药、矿山、铁路、气象等行业。
在Open AI发布ChatGPT后,各种大模型层出不穷,据不完全统计,全球已发布数百个大模型,中国发布超80个,to C类应用百花齐放。与百度的文心一言、阿里的通义千问不同,华为的盘古大模型“不作诗,只做事”,并没有对标类ChatGPT产品,而是专职“为行业而生”,强调在细分场景的落地应用。
整体来看,华为大模型布局侧重点:一是推动人工智能走深向实,深耕算力;二是从通用大模型到行业大模型,服务好千行百业。
打造世界另一极,华为AI for Industries
张平安介绍称通过持续研发,目前盘古大模型在性能、深度、架构及数据增强方面均进行了升级。盘古大模型实现了以鲲鹏和昇腾为基础的AI算力云平台,以及异构计算架构CANN、全场景AI框架昇思MindSpore、AI开发生产线ModelArts的全栈自主创新,实现极致效能,打造世界AI另一极。
此外,端到端的技术优化为大模型开发和运行提供分布式并行加速,算子和编译优化、集群级通信优化等关键能力,使盘古大模型训练效率对比业界主流GPU平均提升1.1倍。
从华为盘古3.0的发布,我们可以看到华为云相比于其他做大语言模型的方面,更加注重鲜有人涉足的产业及各领域细分场景,我们很钦佩华为云勇于探索“无人区”的精神,但是这些场景缺乏先期的经验积累,缺乏一套得到市场验证的评判机制,如何切实保证大模型与这些场景的充分融合,这将给华为云带来较大的不确定性。
值得注意的是,基于AI框架昇思MindSpore“紫东太初”2.0版本大模型平台,在近期的世界人工智能大会上亮相,据大模型之家实测,紫东太初拥有以文生图、图生文、视觉问答等功能。
以图生文为例,在实际的体验中发现,以笔者手机中的小龙虾图片为例,紫东太初识别分析结果为“一只大橙色的大橙色坐在盘子上”,识别分析的语句也不完整,随后笔者使用手机中多个照片进行图生文测试,三次结果均不正确,由此可见,紫东太初识别图片的准确度不高。
在使用紫东太初的实例图片中可见,图生文功能正常,这也可能存在领域适应性不足的问题。例如,在某些特定领域中,图像和文本之间的关联性更强,而在其他领域中则可能存在更多的多样性。
当然,如果用于训练紫东太初2.0大模型的数据质量不高,例如存在标注错误、数据偏差等问题,那么模型在图生文功能上就可能存在缺陷。
同时,昇腾AI云服务除了支持华为全场景AI框架昇思MindSpore外,还支持Pytorch、Tensorflow等主流AI框架。这些框架中90%的算子,都可以通过华为端到端的迁移工具平滑迁移到昇腾平台。
据悉,华为云盘古研发团队由华为云人工智能领域首席科学家、国际欧亚科学院院士、IEEE Fellow田奇教授带领,包括多位华为天才少年,博士比例超过60%。田奇教授表示,“大模型已经成为科研创新走向产业应用的重要枢纽。未来,AI for Industries或将是人工智能新的爆发点。”
大模型如何更好地应用到千行百业
在发布会上,张平安表示,盘古大模型3.0是一个完全面向行业的大模型系列,包括 5+N+X 三层架构:
L0层是5个基础大模型,包括自然语言大模型、视觉大模型、多模态大模型、预测大模型、科学计算大模型,它们提供满足行业场景的多种技能。
L1层是N个行业大模型,既可以提供使用行业公开数据训练的行业通用大模型,包括政务,金融,制造,矿山,气象等。
L2层是为客户提供更多细化场景的模型,它更加专注于某个具体的应用场景或特定业务,为客户提供开箱即用的模型服务。
在L0和L1大模型的基础上,华为云还为客户提供了大模型行业开发套件,通过对客户自有数据的二次训练,客户就可以拥有自己的专属行业大模型。同时,根据客户不同的数据安全与合规诉求,盘古大模型还提供了公用云、大模型云专区、混合云多样化的部署形态。
华为本次发布的盘古大模型3.0,围绕行业重塑,技术扎根,开放同飞三大方向,持续打造核心竞争力,为更加专注于具体的应用场景或特定业务,更好地落地在行业主业务场景。
华为云人工智能领域首席科学家田奇认为,目前通用大模型落地行业面临的主要挑战有:通用性强,但专业性弱;知识虽多,但技能不足;价值挖掘快,但数据安全难保障。
而盘古大模型3.0通过L0基础大模型的视觉、自然语言、多模态、预测、科学计算能力,叠加L1层行业大模型的专业数据,加之L2层卷宗审核、财务异常检测、铁路TFDS检测等场景模型能力能够更好的应用的各行各业。
此外,田奇提到实现行业大模型的四大关键举措:
一是沉淀行业知识,基础大模型的知识扩充和领域适配,进行混合增量式的行业自监督训练;
二是淬炼行业技能,进行增强知识的行业问答,语义向量检索增强的生成模型训练,向行业标准对齐优化;
三是对话专业工具,丰富大模型行业插件,全面的模型类型;
四是保障安全合规,其中包括数据合规、数据安全、产品安全和运营安全。
值得注意的是,7月6日,国际顶级学术期刊《自然》(Nature)杂志正刊发表了华为云盘古大模型研发团队研究成果——《三维神经网络用于精准中期全球天气预报》。《自然》审稿人对该成果给予高度评价:“华为云盘古气象大模型让人们重新审视气象预报模型的未来,模型的开放将推动该领域的发展。”
大模型之家认为,华为盘古3.0对国产大模型的发展产生了深远的影响,推动了人工智能技术的实际应用和发展,促进了国内人工智能产业的进步和发展,提高了国内人工智能在国际市场上的竞争力和影响力。未来,期待国产大模型的更好表现。