埋头做事的百度抛出深水炸弹!一图看懂文心大模型3.5到底有多顶 | 速途网
人工智能大模型是指使用海量数据和强大计算力训练出来的具有强大泛化能力和生成能力的人工智能模型。大模型的出现,一举打破了数据资源有限、算力投资难度大、模型泛化能力差、高水平人才稀缺的发展瓶颈,重新点燃了行业对于人工智能技术应用的兴趣。
今年以来,大模型如雨后春笋般涌现, “百模大战”的行业竞争格局正在形成,每家大模型企业一方面不断探索着大模型能力的边界,同时也在寻找大模型与实体产业结合的触点。
例如,自然语言处理和语义理解的能力大模型在医疗健康领域可以用于疾病诊断和个性化治疗;数据分析和预测的能力能够用于数字零售;智能决策和优化的能力能够在智能交通等领域大放异彩。
今天,国际数据公司(IDC)正式发布《AI大模型技术能力评估报告2023》(后简称《报告》)中,围绕大模型市场发展前景、行业应用、技术趋势、产品能力、成本情况和优缺点,全面剖析AI大模型的发展情况。
大模型之家注意到,此前,行业内仍缺少统一的大模型评估标准,大多数企业依旧在拼参数量级,通过更大的参数量来提升模型的准确度。然而,随着大模型的数据量级达到万亿规模,数据的多少和模型的性能收益之间容易出现边际效应递减的现象,为大模型的应用部署带来了挑战。
为此, IDC在报告中提出了一套技术评估标准,重点评估AI大模型代表厂商的技术和商业能力,从这份评估结果中,我们不仅可以看到各家企业的大模型产品技术的深度,还可以看到大模型与行业深度融合的广度。
无愧大模型国家队队长,百度文心综合评分第一
据了解,IDC在《报告》中,重点调研了百度、阿里巴巴、科大讯飞、第四范式、澜舟科技、云从科技、智谱AI、中国电信智科以及中科闻歌9家中国市场主流大模型技术厂商,此外还包括360、minimax、华为、商汤、腾讯等。
通过将大模型评估标准分为产品技术、服务生态以及行业应用三层指标,对每一层的能力进行测评,主要考察指标为算法模型、通用能力、创新能力、平台能力、安全可解释、大模型的应用行业以及配套服务和大模型生态等指标。每项指标最高5分,得分越高代表实力越强。
从评估数据可以看到,这9家企业所推出的大模型,能力上各有千秋。其中,百度旗下的文心大模型在综合成绩上位列《报告》评估的国内大模型之首。
值得注意的是,百度文心大模型在算法模型、通用能力、创新能力、平台能力、生态合作能力以及行业覆盖7大指标中表现突出,均取得了最高的评级。其中,算法模型、行业覆盖两项指标,更是本次参加评估的大模型中,唯一取得满分的大模型。七项满分、三个绝对第一,体现了百度文心大模型的基础技术深度和产业应用覆盖广度。
在衡量生成式AI最底层的技术基础的产品分数上,凭借着国内唯一满分的“算法模型”优势,百度文心大模型展示了其在模型能力上的技术领先。这种优势的根源可以追溯到百度在人工智能领域长期以来的技术积累,尤其在模型能力、工具平台、生态布局以及行业覆盖方面表现出明显的优势。
首先,百度在人工智能领域拥有完整的四层架构布局,包括芯片层、框架层、模型层和应用层。这种端到端的布局和优化使得百度能够在框架层和模型层之间实现协同优化,从而提升文心大模型的模型效果、训练速度和推理速度。并基于百度自研的深度学习平台飞桨(PaddlePaddle),为大模型的高效训练和推理提供了强力支持。通过整合不同层次的技术和资源,百度能够更好地满足大模型产品的需求,提供更出色的用户体验。
同时,知识增强作为文心大模型的核心特色之一,通过融合海量知识和数据进行学习,使得模型具有更高的效率、更好的效果和更强的可解释性。百度持续进行技术创新,并将其广泛应用于各个领域,如自然语言处理(NLP)、计算机视觉(CV)和跨模态等。通过布局这些大模型技术,大模型覆盖了文本、视觉、跨模态等多个领域,并在180多个权威公开评测集上刷新了SOTA(State-of-the-Art)结果。这种技术和生态的投入使得百度能够在大模型产品中处于领先地位,满足用户对于复杂任务和多样化需求的需求。
得益于全栈布局的优势,百度能够保持大模型能力的快速迭代。今年3月,百度正式发布文心一言作为国内率先推出对标 ChatGPT 的大模型,集知识增强、检索增强、对话增强技术创新于一体。而仅在3个月后,迭代上线的文心大模型3.5,经过飞桨与文心大模型的协同优化,更是在能力上取得了进一步突破,模型效果提升50%,训练速度提升2倍,推理速度提升30倍。
在AGIEval、C-Eval等中英文权威测试集和MMLU英文权威测试集中,取得了超过ChatGPT和LLaMa、ChatGLM等其他大模型的分数表现,在中文评测项中超越了GPT-4,综合能力走在世界前列。
不仅如此,文心大模型3.5还能通过插件方式扩增了大模型的能力边界:例如默认内置插件“百度搜索”,使得文心一言具备生成实时准确信息的能力;“ChatFile”插件可基于长文档进行问答和摘要。成功将百度作为国内最大的搜索引擎的技术积淀与大模型技术相结合,使模型效果及场景适配能力进一步显著提升。
文心大模型与产业实践深度融合,行业覆盖脱颖而出
大模型出现之前,AI最被诟病、落地最难的是,实际产业环境场景碎片化。但在基础大模型下,不需要太多精调数据,不需要训练太多轮数,就可以获得非常好的结果,大大降低了企业使用人工智能的门槛,为企业布局人工智能技术实现降本增效带来了空前的机遇。
在《报告》中,IDC指出,大模型的通用性显著降低了 AI 的应用门槛,为人工智能的工程化落地提供了更多可能性。从产业应用来看,大模型为企业提供生产优化与创新的新路径,并已经在搜索、地图、数字人、智能对话、推荐以及业务流程优化等场景表现出巨大的潜力。
不过,想要保持大模型技术的领先,不仅需要算力、有数据、有经验丰富的AI工程师的长期积累,仍然要持续在技术生态高强度投入。以百度为例,过去10年,百度在AI方向投入已超过1000亿元。百度作为一家技术公司,每年研发投入的营收占比都超过20%。
每个企业都需要用大模型,但并非每家企业都需要从零开始做大模型。因此,作为技术企业,推动大模型与行业深度融合,支撑起产业转化,实现以虚促实,成为行业亟待解决的问题。
大模型之家认为,在实际应用中,大模型需要综合考虑多个因素来确定最适合的模型规模。针对不同行业的场景特点,进行有针对性的知识增强在解决现阶段问题中将发挥重要作用。通过与不同行业的场景特点通过将大模型与知识库相链接,进行知识增强,可以使大模型具备更强的专业知识和推理能力,从而提高大模型在特定领域的表现和适应性。
目前,大模型已经具备较高的识别准确率和较强的场景迁移性,在多模态的任务下也有明显的突破,并已在金融、电商、能源等行业试水成功,并逐步向千行百业渗透。
百度文心大模型源于产业实践,服务于产业实践。在近年的大模型技术探索与产业实践中,百度文心形成了支撑大模型产业落地的关键路径,构建文心大模型层、工具平台层,以及以基于文心大模型构建的系列产品与社区,能够为用户提供更多样化、更高效的大模型产品,并已提前进入商业化落地探索阶段。
在IDC《报告》中,也针对大模型行业覆盖层面,以及面向具体行业给出了详细的打分。其中,百度文心大模型在中行业覆盖指标中,成为了唯一取得满分5分的模型。另外,在行业相关的能源领域,百度文心大模型在能源中脱颖而出,取得了行业满分的成绩。
IDC在报告中指出:百度文心大模型源于产业实践,服务于产业实践。在近年的大模型技术探索与产业实践中,百度文心形成了支撑大模型产业落地的关键路径,构建文心大模型层、工具平台层,以及以基于文心大模型构建的系列产品与社区。
在模型层,文心大模型包含30多个大模型,涵盖基础大模型、任务大模型、行业大模型的三级体系,全面满足产业应用需求。在工具与平台层,全面升级大模型开发套件、文心 API、提供全流程开箱即用大模型能力的 EasyDL 和 BML 开发平台,全方位降低应用门槛。这些模型能力为百度的产品、服务带来巨大变化,推动云计算加速进入AI时代,加速实现百度智能云提出的“云智一体”战略。
目前,百度“文心一言”大模型+飞桨深度学习框架,已联合国网、浦发、泰康、吉利、哈尔滨市、深圳燃气、TCL、上海辞书出版社等行业客户合作打造了11个行业大模型,涵盖电力、燃气、金融、航天、传媒、城市、影视、制造、社科等行业大模型,加速推动行业的智能化转型升级。
例如,与吉利汽车合作构建了智能客服知识库、汽车领域知识库等,节省了75%的研发人力成本。此外,文心一言自3月份内测以来,百度已经陆续接到了超过15万家客户的接入请求。
2023年5月,全球首个一站式企业级大模型生产平台“文心千帆大模型平台”发布,不但提供包括文心一言在内的文心大模型及第三方大模型服务,还提供大模型开发和应用的整套工具链。目前文心千帆可以支持公有云服务、私有化部署多样的交付模式。企业可根据自身业务需求,选择适合自身的模型服务方式。
以能源电力为例,在全球最大的公用事业企业–国家电网有限公司,面向复杂电网的专业场景,基于百度文心大模型,百度与智研院联合训练电力行业大模型,在电网设备、客服等实际业务场景进行试点验证,可以显著增强电网运营的精细化、自动化、智能化水平。百度也和深圳燃气联合发布了燃气行业大模型,破解燃气企业运营场景繁杂、安全风险识别困难等难题。
随着大模型落地千行百业,将成为推动我国高质量发展的核心动力。大模型不仅为行业创新和发展注入了新的动力,也推动着技术的突破和商业模式的创新。在这一过程中,在以百度等为代表的中国科技公司们的积极推动下,其前景亦令人充满期待。在大模型产业的持续创新之下,将为行业贡献更多价值,引领我国在数智化的征程中取得更大的成功。