中科闻歌+华为云：高质量打造数据平台底座推动大模型赋能产业

砍柴网 • 6月前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

面对新一轮大模型引领的人工智能变革，加快推进大模型赋能数智化应用健康发展具有重要意义。如何把大模型技术应用到数据开发、治理与分析全流程，提供高效产品与服务，让AI和数据持续释放价值，成为包括中科歌闻在内的众多人工智能企业的探索和实践方向。

6月22日，华为开发者大会2024（HDC 2024）在广东东莞松山湖召开，中科闻歌技术副总经理盘浩军先生受邀出席大会，并在DataArts全新升级专题论坛上围绕《基于Data4AI为模型训练打造高质量数据平台底座》作主题分享，深入交流基于数据集的大模型构建实践，探索新的创新方向和可能。

作为一家中科院自动化所孵化的人工智能公司，中科闻歌聚焦复杂数据解析和 AI 辅助决策。三年来，中科闻歌与华为云携手共进。通过华为云IaaS、PaaS以及昇腾云等云服务的支撑，中科闻歌在云上打造了认知与决策智能基础平台DIOS和雅意大模型，引领人工智能技术实现跨越，全面赋能各行业数字化、智能化的转型升级。

盘浩军先生表示，作为训练大模型的基石，数据集的质量直接影响到模型的表现，当前国内高质量数据集面临中文、小语种高质量数据缺乏，意识形态安全性不可控，行业专业知识、著作等高质量精确数据缺少以及数据质量参差不齐等问题。针对行业痛点，中科闻歌基于数据集的大模型构建，提出了“数据工程、模型工程、领域工程”领域AI落地三步曲。

数据工程：高质量领域数据治理

大模型的预训练到推理应用需要高质量的数据。来自开源和企业内部的原始数据，要经过高质量数据清理工具的处理，才能成为高质量数据。中科歌闻多语言语料库经过文档数据去重、标准化、启发式清理、段落及句子去重、“毒性”过滤5大工序层层加工，确保预训练数据安全可控。

丰富的数据集提升模型对各种数据格式、各个场景任务的响应能力，多语言语料库增强了模型多语言场景的理解和分析能力，中科闻歌参与国家级AI高质量数据集平台的数据积累已达240TB，为雅意大模型开发提供了坚实的数据基础。

模型工程：继续预训练、多模型适配

在模型工程上，盘浩军先生表示可以采取“1+N+MoE”的策略，暨“打造一个基座模型确保自主可控，多种领域模型博采众长，形成多专家模型”。中科闻歌的雅意大模型作为国产安全可靠的原生大模型代表，具备国产自主可控、十余年数据集积累、生态开源开放，垂直领域知识增强等特点，可提供多语言理解、多模态内容生成、多智能体辅助决策的核心能力。

雅意大模型2.0从数据、算法、模型到应用拥有全自主知识产权，可面向行业应用场景自主训练和微调，支持多款国产算力硬件兼容，为政府、企业打造安全可靠的专属AI模型能力。盘浩军先生透露，进一步升级的雅意大模型3.0即将在2024年7月推出。

领域工程：以AI为中心的领域应用

会上，盘浩军还分享了某银行财报问答、航天信息财税大模型、深圳市龙华政务问答GPT、中医科学院国医金匮智能问诊等雅意大模型在金融、媒体、安全领域的应用案例。

对于中科闻歌来说，未来大模型的发展方向要瞄准通用人工智能前沿技术，从理解语义到理解世界，从感知智能向认知和决策智能跨越，不唯参数规模，做“小”做“精”做“深”大模型，打造更高效、更经济的轻量化行业专用模型

随着AI应用场景不断丰富，大模型加速更迭，算力需求也迎来持续扩张,“大模型+大算力+大数据”成为新一代人工智能发展的基本范式。未来，中科闻歌将继续携手华为云及相关合作伙伴，基于国产算力突破训练国产模型，高质量打造数据平台底座，共同构建大模型行业生态集群，加速行业大模型落地应用。