百度要为中国 AI 的黄金十年搭好桥造好路

砍柴网 • 3年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

改革开放之初，有一句脍炙人口的口号叫作 " 要致富先修路 "。

这句话很好理解，简单来说，人们想要致富，需要把本地的资源变成财富，这就需要和外界交流沟通，外界的资金、人才能通过一条条路走进来，本地的资源、商品也能通过一条条路运输出去，所以要打通本地与外界联系的关键就在于修路。

过去全国还没有高速公路，普通的公路也通行条件不足，一直到八十年代道路基建才在全国各地大规模展开，我国的经济也随之迅猛增长，将城市、乡村相互连接起来的万千道路使得各区域间互联互通，商品流通更加便捷，大大推动了地方经济的发展和群众生活的改善。

如果说一条条公路的建成是经济腾飞的大动脉，那么在信息化时代，互联网技术则是数字经济发展的重要枢纽。如今，随着移动互联红利的消退，元宇宙、Web3.0、人工智能、量子信息等各类新老概念提法涌出，人们迫切想抢先一步抓住下一个世代技术发展的关键要素，换一句话说，面向未来的技术发展中，" 路 " 是什么呢？

知识增强大模型让 AI 走向通用性

《奇点临近》的作者雷 · 库兹韦尔曾在书中表示："2045 年左右，人工智能将会来到一个 ' 奇点 '，跨越这个临界点，人工智能将超越人类智慧，人类历史将会彻底改变。"12 月 27 日，百度创始人、董事长兼 CEO 李彦宏在百度 Create 2021（百度 AI 开发者大会）演讲中表示，" 人机共生 " 时代，中国将迎来 AI 黄金十年。

人工智能的 " 奇点 " 将给人类带来什么现在不得而知，但人工智能确实在当今人类社会扮演的角色愈加重要，其背后的关键原因正是人工智能正变得越来越 " 聪明 "，这种 " 聪明 " 不仅指的是 AI 背后的模型更加智能，而且代表 AI 具备了一定的自主学习和推算功能，能在更广阔的范围内得到应用。

简单来说，决定一个人工智能模型是否 " 聪明 " 好用的关键一个在于算法本身，另一个则是算法背后用于训练算法的数据广度和深度。这就客观要求如今的 AI 模型有着更广的数据来进行训练，同时通过系列知识图谱来保证单纯追求参数量基础上模型的学习效率和质量。

AI 过去在各行各业落地周期长的的一个原因就在于，传统 AI 模型泛化性差、依赖昂贵的人工标注数据、落地成本高等问题，如果想要扩大一个模型的应用范围，时常会出现如 A 模型往往专用于特定 A 领域，将 A 模型应用到领域 B 时效果并不好这样的问题。

大模型的出现提供了一种 " 预训练大模型 + 下游任务微调 " 的方式，来有效扩展模型的通用性。这也是为何大型模型近年来越来越受欢迎，如 OpenAI 就推出 1750 亿参数的 AI 模型 GPT-3，GPT-3 耗费了千万美元对人类的诗歌、小说、新闻等海量自然语言进行训练（主要是英语），也因此 GPT-3 对自然语言具备了一定程度的理解能力。

不久前，百度发布文心系列产业级知识增强大模型，并联合鹏城实验室重磅发布双方共同研发的全球首个知识增强千亿大模型——鹏城 - 百度 · 文心，该模型参数规模达到 2600 亿，相比 GPT-3 的参数量提升 50%。是目前全球最大中文单体模型，在 60 多项 NLP 任务中取得世界领先效果。

百度要为中国 AI 的黄金十年搭好桥造好路除了在中文世界首屈一指高达 2600 亿的参数训练规模，" 知识增强 " 是文心大模型的核心特色。如今的 AI 在某些领域上获取知识的速度和广度都已远超人类，但这是否代表着 AI 能如同人类一样认识世界、感知世界并能举一反三对世界做出反馈呢？这是人工智能领域数十年来一直在争论的问题。

如果想让计算机像人类一样理解和认知世界，首先需要让计算机具备获取、运用知识的能力。传统的大模型虽然参数量很大，但只是死记硬背海量文本的规律，这些模型并不能从本质上理解世界是怎样运行的，仅仅解决了一些文本表象上的问题。

百度知识增强大模型能够从大规模知识和海量无结构数据中融合学习，学习效率更高、效果更好，具有良好的可解释性。 某种意义上来说，通过知识增强，使模型能够在一定程度上更好地理解世界是怎么运行的，也就更加智能。

这背后，是百度在知识图谱领域的十余年积累。百度早在 2011 年就开始研发知识图谱技术。截至目前，构建了包含 5500 亿知识的大规模知识图谱，覆盖生活的方方面面，也包括制造、医疗、法律、金融、科技、媒体等领域的专业知识。

此外，人类的历史上有成千上万种语言，机器要想理解真实世界，也需要学习和理解多种语言的能力。人类是通过语言、语音、视觉等多种模态获得对真实世界的统一认知，机器如果想要理解真实世界也需要听懂语音、看懂图像视频，这就需要突破不同模态、异构信息的语义融合统一难题。可以简单理解为，机器需要综合理解文字、语言、图像、视频等不同媒介的信息。

百度文心能够实现跨语言、跨模态的学习，让百度大脑更好地支持各种 AI 应用，满足各种场景需求。百度的知识增强跨语言大模型 ERNIE-M 可同时从多种语言中学习，提升跨语言理解能力；知识增强跨模态理解大模型 ERNIE-ViL 在视觉常识推理任务榜单获得第一名；知识增强跨模态生成大模型 ERNIE-ViLG 实现文图双向生成，是全球规模最大中文跨模态生成模型。

在百度 Create 2021 大会上，百度首席技术官王海峰便现场展示了百度的知识增强大模型的跨模态理解与生成能力，王海峰在现场说了一句：" 百度大脑，我们一起创作一幅水墨画吧。这边是连绵的山脉，山上云雾缭绕，山脚下有一座草堂建在江边，江上有一条船，一个人站在船头；然后这边有一行飞鸟掠过天空。" 百度大脑即刻便将王海峰语言文字的描述转换为一幅颇有意境的中国画来展现。

百度要为中国 AI 的黄金十年搭好桥造好路在知识增强大模型的支撑下，百度大脑更好地支持金融、医疗、保险、证券、办公、互联网、物流等各种 AI 应用，满足各种场景需求。

降低 AI 使用门槛，在 AI 时代打造自主的底层系统

百度知识增强大模型等技术能加速创新的背后，离不开国产自主的 AI 深度学习平台飞桨和强大算力底座在背后的支撑。

计算机编程的产品是 " 程序 "，深度学习研究的产品是 " 模型 "，深度学习平台及其背后的深度学习框架，就如同不同品牌的积木，积木的各个组件相当于不同的模型或算法的一部分，开发者可以根据自己的不同需求选择各深度学习框架来进行产品模型的研发。

用一个不算准确的比喻来简单说明，深度学习框架在 AI 领域的重要程度，可能相当于 PC 时代的操作系统。虽然不同的深度学习框架、不同的 " 操作系统 " 都能实现某一深度学习目标，但在人工智能时代提前做好 AI 的底层操作系统——深度学习框架，对我国在芯片、光刻机、手机电脑的操作系统等方面遭人 " 卡脖子 " 的当下异常重要。

深度学习和国有自主的深度学习框架也是推动人工智能进入工业大生产阶段的关键。 早在 2017 年国务院就印发了《新一代人工智能发展框架》，明确提出在 2030 年中国要成为世界主要人工智能创新中心。面向技术和产业发展需求的 AI 大生产平台可以让 AI 技术以标准化、自动化和模块化的方式输出给千行百业，实现规模化应用，同时以平台为基础促进融合创新、共同发展。也因此，中国更需要本土的 AI 创新基础来为庞大的中国 AI 产业与开发集群服务。

其实深度学习框架本身的搭建并不算难，很多研究人员或公司都会自己搭建一个深度学习平台，但要想搭建一个通用性广的深度学习框架却是一件不容易的事。好的深度学习框架源于产业实践，一个深度学习框架只有参与过千行百业的 AI 模型部署实践，见过无数种千奇百怪的硬件组合，最后能使用于各种情况能搭配各类方案，像 USB 插口一般 " 即插即用 "，使得让模型上线工作事半功倍，才能叫 " 产业级 " 的深度学习框架。

能做到这一点的深度学习框架并不多，如今全世界最为流行的深度学习框架有 PaddlePaddle、Tensorflow、PyTorch、Caffe、Theano、MXNet、Torch 等，前三者号称三大主流框架。其中 PaddlePaddle 飞桨便是百度自主研发的国内首个开源开放的产业级深度学习平台。

面向开发、训练和推理部署的全流程，飞桨提供了一整套降低门槛的技术和服务。在开发阶段，飞桨在业内率先实现了 " 动静统一 " 的核心框架，兼顾科研开发的灵活和产业开发的高效。飞桨提供丰富的 API，支持开发者便捷、高效地开发深度学习模型。飞桨推出的系列科学计算 API，支持量子计算、生命科学、计算流体力学、分子动力学等应用，助力中国科研实力的提升。

在训练阶段，飞桨发布了自适应大规模分布式训练技术，针对模型特点和硬件特点，搜索最优的机器组合和模型切分策略，并采用异步流水运行机制，以及高通信和高并发的方式，使大模型训练效率达到最优。百度文心知识增强大模型，正是基于这一核心技术训练的。

在推理和部署阶段，飞桨打造了推理部署工具链，使得高速推理引擎的多端多平台部署更加便捷。飞桨提供的模型压缩等辅助工具，将大模型参数规模压缩至 1/1000，得到满足产业实际应用需求的小模型，帮助开发者加速业务落地。

如今，百度飞桨通过技术开源、零门槛开发等不断降低 AI 技术的应用门槛，让开发者甚至无须从第一行算法代码写起，就能进行技术创新和业务拓展，让工程师可以更专注于应用本身的开发，加速 AI 创新应用落地。

此外，百度飞桨已经建立起成熟完善的产业级复合型 AI 人才培养体系，包括面向一线算法工程师的 "AI 快车道 "，面向技术负责人的 "AI 私享会 " 和面向 CTO、架构师层级的 "AICA 首席 AI 架构师培养计划 "，为产业界输送了大量 AI 人才。截至目前，百度飞桨已汇聚了来自于各行各业的 406 万开发者，创建了 47.6 万个 AI 模型，累计服务 15.7 万企事业单位，中国深度学习平台综合市场份额第一。

百度要为中国 AI 的黄金十年搭好桥造好路 打造绿色算力底座

AI 的快速发展离不开算力的支撑。同时，达成 " 双碳 " 目标已是社会共识，打造绿色低碳的算力底座，势在必行。

百度的绿色算力底座，包括了自主研发的 AI 芯片、高智能的计算架构，以及绿色节能的数据中心，有力支撑 AI 技术研发及大规模应用。百度自主研发了通用 AI 芯片百度昆仑，今年 8 月，国内首款采用 GDDR6 显存的昆仑 2 代芯片实现量产，性能比 1 代芯片提升 2-3 倍。同时，昆仑芯片与百度飞桨等多款深度学习框架完成端到端适配，具备软硬一体的全栈国产化 AI 能力。

计算平台方面，百度打造了 AI 异构计算平台百舸。百舸平台由 AI 计算、AI 存储和 AI 容器组成，具备大算力、大吞吐、极致弹性的特性，支持超大数据、超大模型的训练，同时昆仑芯片也已应用于百舸平台。

数据中心是算力传输与存储的关键设施，通过极简供电、高效制冷、智能控制等多项技术，百度的数据中心实现了从硬件、电气、动力系统等多方位节能减排，单体数据中心年均 PUE 低至 1.08，PUE ( Power Usage Effectiveness，电源使用效率 ) 是衡量数据中心电力能源利用率的国际通用指标，越接近 1 表示数据中心对电能的利用效率越高。百度单体数据中心年均 PUE1.08 的数值已远远低于 1.59 的全球数据中心平均水平。在 2020 年时，百度阳泉数据中心荣获国内首个 5A 低碳数据中心认证。

如今，百度在 AI 核心技术、AI 底层平台系统以及绿色算力底座上均取得了不错的成绩，可以说百度已为加速发展的 AI 时代搭好桥、造好路，无论是在前沿技术研究领域，还是广泛的产业应用方面，百度的 AI 技术已走进千行万业。

在前沿技术方面，百度推出业界首个 mRNA 疫苗序列设计算法，可以在短短十分钟内找出稳定的疫苗序列，百度已经和中国疾病预防控制中心开展科研和应用合作，正加速推动疫苗和药物研发。在量子计算领域，百度打造了百度量子平台，这是国内首个提供从应用到量子处理器一站式服务的量子计算云平台，它降低了量子计算学习与应用的门槛，推动量子计算在化学、金融、材料等领域的广泛应用。