当AI面临瓶颈，安全合规的数据生态该如何构建

砍柴网 • 1年前扫码分享

自从 ChatGPT 横空出世后，一石激起千层浪，人工智能也正在从感知理解走向生成创造，这是一个关键里程碑。生成式大模型完成了从0到1的飞跃，并且已成为未来发展趋势，推动AI迈向通用人工智能。

在ChatGPT发布后的短短4个月时间里，已经有至少30个国内研发机构与企业纷纷推出自己品牌的大模型与相关产品。例如百度的“文心一言”、阿里的“通义千问”、科大讯飞的“星火认知大模型”、京东的“言犀产业大模型”等等。

但是2023年4月，马斯克突然与1000多名人工智能专家和行业高管在公开信中呼吁：“ChatGPT等AI研究室需暂停研发6个月！”给出的理由是“只有当我们确信它们的影响是积极的，并且它们的风险是可控的时候，才能开发更强大的人工智能系统。”

聚焦大模型的“隐患”

事实上，对大模型的隐忧还不仅仅限于风险不可控，一项来自 Epoch AI Research 团队的研究抛出了一个残酷的现实：目前，公域中高质量的语言数据存量将在 2026 年耗尽，低质量的语言数据和图像数据的存量也将在未来20年中逐步耗尽。这意味着，如果数据效率没有显著提高或有新的数据源可用，那么到 2040 年，模型的规模增长将放缓。而如何合法合规地利用手机等终端设备上的私域数据，将是解决大模型训练数据不足问题的关键。

当AI面临瓶颈，安全合规的数据生态该如何构建

即便是现在的大模型还没涉及私域数据领域，但有相关政策法规已经开始进行规范。 4月11日，国家网信办就《生成式人工智能服务管理办法（征求意见稿）》公开征求意见，在责任和义务方面，尤为强调数据合法性与对个人数据和信息的保护。其中提到：提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责；禁止非法获取、披露、利用个人信息和隐私、商业秘密。

当AI面临瓶颈，安全合规的数据生态该如何构建

由此可见，数据隐私之忧已经成为全行业的共识。而除了数据隐私的忧虑之外，由于大模型通常需要消耗大量的算力和数据，也就是说只有少数大公司拥有足够的资源来训练和部署这些模型。这可能导致市场上的垄断现象，限制了中小企业参与机器学习和AI应用领域的机会，导致垄断和不公平的产生。在云服务器上运行的大模型还会面临安全攻击风险。恶意攻击者很可能通过攻击云服务器来窃取模型及其数据，或者反向工程模型参数以训练新模型。

数据隐私泄露、安全漏洞、市场垄断、不公平性、公域数据即将耗尽等等大模型发展所面临的“隐患”该如何解决？

分散的小模型协作会成为大模型未来发展趋势吗？

4月18日，OpenAI CEO Sam Altman在讨论大模型发展的趋势的时候认为，让模型变得更大将不会进一步带来新进展。“我认为我们正处于将模型做大这一时代的尽头。我们将以其他方式使它们变得更好。”未来模型参数应该向更小的方向发展，或者以多个小模型协作的方式工作。

“让大模型变小”已经成为众多研究者非常感兴趣的一条路，大家先后做了很多尝试，先是 Meta 开源了 LLaMA，让学界和小公司可以训练自己的模型。随后斯坦福研究者启动了 Lamini，为每个开发者提供了从 GPT-3 到 ChatGPT 的快速调优方案。

最近由 TVM、MXNET、XGBoost 作者，CMU 助理教授，OctoML CTO 陈天奇等多位研究者共同开发的开源新项目MLC LLM面世，希望实现在个人手机和电脑等各类设备平台上编译运行大语言模型。

今年4月，隐私计算联邦学习开源平台FATE (Federated AI Technology Enabler）正式发布联邦大模型FATE-LLM功能模块，同样是“小模型协作”的思路，FATE-LLM则是通过将联邦学习和大模型结合，在各参与方的敏感数据不出本地域的前提下，根据各方实际数据量进行算力投入，联合进行大模型训练。

基于此技术方案，多个机构可以通过FATE内置的预训练模型进行横向联邦，利用各自隐私数据进行联邦大模型微调，从而提升自身大模型应用的效果。联邦大模型不仅主要解决的是大模型训练阶段的隐私保护问题，未来还将研究在使用大模型的过程中如何保护用户的隐私。

这种用小模型联动大模型的方式，也很好地诠释了小模型协作的精髓。联邦学习作为一种分布式机器学习新范式，其“数据不动模型动，数据可用不可见”的特点使得各参与方可以在保护各自数据安全与用户隐私的前提下，进行AI协作，打破数据孤岛。

也正是因为联邦学习的这一属性，为未来大模型的发展提供新的思路：联邦学习与大模型结合，构建安全合规的数据生态大陆。

近期联邦大模型对现有大模型的支持已经在实操层面上有了很多新进展，FATE开源社区TSC Maintainer、开发专委会核心成员范涛告诉我们：“目前的FATE-LLM可以提供对主流大模型的支持，4月发布了联邦大模型FATE-LLM对GPT-2等大模型的支持，5月发布了对清华GLM大模型的支持。”

当AI面临瓶颈，安全合规的数据生态该如何构建

联邦大模型，也有需要面对的“原生困境”

和大模型面临的隐忧类似，即便是以大化小，联邦大模型更根本地解决了大模型面临的一些问题，但是联邦大模型依然有着自己要解决的“原生困境”。

公平性是否能够得到保障？数据隐私性是否能够有效保护？规模大小不一的异构模型集如何统一调配训练？这些也给联邦大模型的研究者们提出了难题。从2018年开始，香港科技大学讲席教授杨强和其团队始终致力于联邦学习的研究，如今，面对联邦大模型可能遇到的技术难题，杨强教授认为，想要在多个维度实现“既要，又要”，那么就必须在“平衡”上做文章。

面对联邦大模型是如何通过大大小小的分布式模型协作来解决私域数据的安全性问题，杨强教授认为：“未来，人工智能模型一定会成为我们贴身的人工智能助理，这就要求人工智能对个人的需求有更强的适配能力，更好的理解能力，这个时候，就会用到私域数据，包括个人的生理的数据，物联网数据以及一些跟个人非常强相关的数据。使用这些数据，一方面会让AI给我们提供更贴身的、更个性化的服务，但另一方面在用这些数据的时候也面临隐私保护的需求。联邦大模型针对这个问题提出的解决方案可以做到很好的平衡：一方面数据是分布的，另一方面，我们的这些大大小小的模型有的是分布式的，有的是个人化的、定制化的，他们一起来对联邦大模型总体产生性能的提升、效率的提升以及安全隐私的保护。这样，我们一方面能够享受到大数据带来的好处，另一方面我们还是能够安心的，放心地使用这些模型，不至于因为使用这些模型就泄露了不该泄露的数据。”

然而，即便是“为解决数据隐私问题而生”的联邦大模型，自身依然有要面对的安全性难题。联邦学习中数据和模型的安全性到底该如何保障呢？微众银行人工智能首席科学家范力欣告诉我们：“我们针对窃取数据和模型，以及破坏数据和模型两种安全隐患已经有相应的防御措施。针对数据窃取，我们通过加密数据来进行防御；针对模型窃取则是通过水印机制来进行制约。目前我们已经有一套技术方案能够支撑和有效的管理、追踪整个模型的全生命周期的合法使用，这同样对模型的知识产权进行了很好的保护。另外，针对数据攻击、数据投毒这一部分行为，我们通过对模型的锁定，对参数进行锁定，对数据样本进行锁定的方式去防御数据投毒。”

但在诸多的大模型发展的隐忧中，不仅仅有私域数据的隐私保护问题，还有样本分布不均衡导致模型本身的公平性问题，这该如何解决？微众银行人工智能首席科学家范力欣告诉我们：“样本分布不均衡导致模型不公平性的问题其实早就提出来，在大模型之前或者联邦学习之前已经提出来。这个问题的基本的解决方案是有整体思路的：在训练模型时我们不仅仅是提升模型性能，而是对公平性、可解释性、鲁棒性等一系列跟伦理相关的目标都作为优化的约束条件或者优化的多目标一起来参与学习训练。”

这种思路在理论上提出了“多目标联邦学习优化”的“可信联邦学习”技术框架。在实际应用中，需要用相应的算法去一一衡量这些不同目标之间的平衡。

范力欣说：“我们模型性能要好，这是一个基本要求，但同时我们要保证它的公平性、可解释性要做到可度量的，并且跟模型性能一起来进行优化。比如我们联合多家机构承担的国家科技部科技创新2030-‘新一代人工智能’重大项目里面就应用了这样的解决方案，效果显著。再比如在与北航童永昕教授团队合作的联邦网约车调度中，通过设计合理的激励机制，使得司机完成任务的积极性大为提高，同时司机间的收入分布也更加均衡。”

联邦大模型从诞生开始就备受瞩目，其未来的应用也被业界普遍看好，联邦大模型未来将有机会重塑金融、零售、工业等多行业的数字化形态。相关应用场景包括在金融领域的智能客服、内容风控、金融资讯情感分析、文本意图识别、营销场景智能创意生成和优化等。尽管机构自身拥有的数据量和算力可能不足，却仍然能够通过发挥大模型的优势，安全合规地提升客服、营销、风控的效果。

人工智能正在经历从计算、感知到认知的发展阶段。联邦学习、可信联邦学习以及联邦学习大模型，在保证安全、高效的要求下，进一步满足了可解释性和普惠性等人工智能伦理的核心命题，将看似为难的“既要，又要”，变成了可以将之平衡的解决方案，这也将为人工智能生态的良性、可持续发展提供助力。