国内首个大模型安全一体化解决方案亮相：蚂蚁集团发布“蚁天鉴” | 速途网

速途网 • 1年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

速途网讯 9月11日，2023国家网络安全宣传周在福州开幕。记者探营发现，蚂蚁集团发布的大模型安全一体化解决方案“蚁天鉴”成为亮点。该方案包含了大模型安全检测平台“蚁鉴2.0”、大模型风险防御平台“天鉴”两大产品，拥有AIGC安全性和真实性评测、大模型智能化风控、AI鲁棒和可解释性检测等多项功能。这也是大模型浪潮以来首个可实现产业级应用的大模型安全检测与防御一体化解决方案。目前这两项产品已对外开放。

（图：生成式大模型安全检测平台“蚁鉴2.0”）

在“百模大战”的当下，AIGC（生成式人工智能）的安全问题日益备受关注。这些问题存在于从数据到算法到模型应用的AI全周期关键节点，包含数据投毒、数据泄露、大模型幻觉、算法偏见、恶意利用等等。今年以来，AIGC图片在全球蹿红，不仅引发伦理、侵权等大量争议，也给电信诈骗、金融盗用、黄暴恐等违法犯罪带来可趁之机。

现场工作人员表示，大模型安全问题产生的本源主要为“用于训练的数据源头有毒、推理过程不可控、外部恶意诱导”三个因素。此次发布的“蚁天鉴”，主要从大模型安全性检测度量、智能风险防控、数据去毒对齐等方面，来保障大模型在生产和使用过程中更加安全、可控、可靠。

“蚁鉴2.0”就像是大模型安全性的“诊疗师”，在大模型上线前对其进行全方位的安全扫描，从数据安全、内容安全、科技伦理等类型的数百种风险维度，提前识别和挖掘风险漏洞。

现场工作人员介绍，“蚁鉴2.0”是业内首个产业级支持文本、图像等全数据类型的AI安全检测平台。它相当于站在“黑产”角度，通过智能攻击对抗技术，自动生成数百万的诱导性问题，对生成式大模型进行诱导式问答，并对大模型的回答实时、自动化的检测计算，24小时不眠不休“找茬”大模型存在的弱点和安全问题。

“蚁鉴2.0”最新实现对AIGC生成图片、视频等多模内容的“真伪”辨别和安全性检测，基于生成模型构建的近千万深度伪造样本，可快速分辨内容是机器生成还是人工生成，及是否存在伦理道德等风险。展区现场可体验AIGC图片评测全过程，感受“魔法打败魔法，以AI对战AI”的产业实战对抗交互技术，可现场生成鉴定报告。

（图：生成式大模型风险防御平台“天鉴”）

“天鉴”则相当于在大模型外围又加上了一个“防护盾”，通过智能化风控技术，帮助大模型挡住外界的恶意提问，同时对生成的回答内容进行风险过滤，保障大模型上线后从用户输入到生成输出的整体安全防御。

据了解，“天鉴”平台基于问（人类知识）、答（AI知识）环节不同的特点，构建了一套护栏防御的智能风控方案，支持风险内容识别、阻断、反制等全链路服务。通过该方案，不仅可以在用户输入阶段即对其意图做快速理解和风险判断，并输出拒绝回答、知识代答等不同的风控交互方式，还可以快速迭代大模型的风险认知和防御能力，在兼顾用户体验的同时，确保其输出的内容合规、健康。

据介绍，“天鉴”平台集大数据底座、AI计算平台、智能运营、应用场景为一体，可实现低成本、规模化快速应用，服务零售、金融、直播、游戏等提供生成式人工智能服务的业务场景。

此外，针对数据源头有毒、深度黑盒不可控等问题，蚂蚁集团结合“天鉴”平台在大模型的训练和应用过程中，也在通过数据去毒、对齐训练、可解释研究等手段保障模型安全。

本届国家网络安全周上，蚂蚁集团还展示了可信AI决策大脑、隐私计算技术栈隐语、蚂蚁链摩斯隐私计算商用平台、安全平行切面等网络安全领域的核心前沿技术创新突破。多年来，蚂蚁集团以可信AI技术驱动，已形成了面向网络安全、数据安全、内容安全、交易安全等全方位全链路的安全技术产品及服务体系，为产业数字化提供安全保障。（栀橙）