AI“既帮助好人也帮助坏人”,变革浪潮下大模型面临隐私和数据风险
近日,一批匿名人士向OpenAI及其 投资 方微软公司发起集体诉讼,指责被告方从 互联网 上窃取和挪用了大量个人数据和信息来训练AI工具。起诉书声称“OpenAI在用户不知情的情况下,使用这些‘窃取’来的信息”。
再倒回前两个月,“AI换脸”诈骗曾引起很大讨论,据包头警方消息,骗子通过智能AI换脸和拟声技术,佯装好友对福州某 科技 公司法人代表实施了诈骗,10分钟内其被骗430万元。
在火热的AIGC浪潮下,技术带来变革的同时,其阴暗面也越来越多被关注。
“人工智能就如同双面人,既帮助好人,也帮助坏人。善用AI可以创造很好的功能,但如果不能做好安全管理,AI可以带来危险。”在C3安全大会上,英普华亚太及日本区技术副总裁周达伟表示,在过去很注重的是远程安全和应用安全,但在大模型的产业互联网的时代,会更注重数据安全。
大模型背后的网络安全
“去年年底到今年年初,生成式AI带来了灯塔式的指引,从国家到所有的企业都在拥抱这次变革。”亚信安全首席研发官吴湘宁在大会上表示,大家都希望通过人工智能、大数据、 区块链 、物联网等技术来改变现状。
但AI系统越来越大,本身的安全就是一个关键。亚信安全首席安全官徐业礼在采访中表示,“这里面涉及到AI投毒,模型被篡改,包括AI系统本身有边界防护端点防护的能力。”AI可以做坏事,也可能生成一些误导的信息,此外大量使用AI,尤其是境外的AI可能导致数据的泄露,这都是非常大的风险和问题。
亚信安全终端安全产品总经理汪晨认为,一方面,AI技术可以帮助甄别出病毒软件的DNA,即使他们进行了伪装,也能识别出其是黑是白;但另一方面,因为AI需要通过大量数据训练才能获得能力,如果用黑客污染过的数据进行训练,训练出的模型就会存在漏洞。如何确保训练数据的准确率和精准度,是目前面临的新挑战。
对于最近兴起的AI换脸诈骗,徐业礼对第一财经表示,这属于较为特别的网络安全问题,绝大部分针对个人发生,换成高管的照片或者模拟高管的声音录制一段语音发给员工,要求汇款转账,这些情况防不胜防,且由于AIGC的出现,诈骗实施起来越来越简单,成本极低。
徐业礼认为,对于一个管理较好的公司,这类诈骗绝大部分情况下不会发生,而主要发生在安全意识不强、汇款等流程极不完善的小规模企业。对于亚信这样的网络安全公司来说,一般也能通过邮件和公司的系统监测到 商业 诈骗邮件,对诈骗网站和钓鱼网站进行识别检测。
AI一直在安全领域有所应用。徐业礼介绍,在ChatGPT出现前的AI 1.0时代,亚信更多用AI做判断,做分类和聚合,亚信早期产品很多引擎都大量使用AI技术,包括2018年开始的卷积神经网络都用得很频繁。
不过,如ChatGPT这样的大模型是一个革命性的改变。ChatGPT事实上已经可以理解为过了图灵测试的终极阶段,达到了一般人的智能,如今AI行业也从1.0时代到了2.0时代,AI的功能越来越丰富,生成式AI能够模仿人、复制安全专家的能力,加速系统的自动化运营。
吴湘宁介绍,在过去安全行业已经可以通过自然语言的识别,通过报警、日志发现关键的威胁点,形成威胁图谱,但做威胁图谱的解读、写威胁分析报告,还需要专门的运维人员或安全专家,但今天随着大模型技术的发现,可以更容易把专家的知识和大模型进行结合,从而自动生成报告。
AI训练面临信息风险
在训练大模型中,作为必备要素的数据还面临着信息安全、来源确权等方面的挑战。
除了OpenAI被起诉使用用户数据进行用户画像或广告推广等商业用途,此前三星员工在与ChatGPT聊天过程中也发生过信息泄漏事故。
三星有员工要求聊天机器人检查敏感数据库源代码是否有错误,此外还有员工要求ChatGPT帮助其优化代码,以及将会议记录输入ChatGPT并要求它生成会议记录。
腾讯安全天御研发工程师周维聪对第一财经记者表示,在三星的案例中信息已存在风险,大模型提供方理应在该环节具备审核拦截能力,提示用户该环节中存在严重的泄露隐私风险。
周维聪表示,对于企业方,首先在技术层面可以对用户隐私信息进行相应的提取。另外,如果用户输入的内容涉及隐私相关信息,技术侧也可以鉴别出来,不会将这部分数据用于模型训练或商业产品的能力打造上。
另外,周维聪表示,腾讯安全会提示合作方使用数据时,合法获得经过用户确权的数据,未经确权的数据不会被保存下来,“这是一个需要严格遵守的点。”
实际在现实生活中,除了经过确权的信息数据,更多的是广泛分布于互联网的分散的用户数据信息,对于这部分信息的使用,周维聪对记者表示,平台一般会以严格的技术规范数据合规流程,每一家厂商理应都在遵循这样的流程。因为除了要确保数据经过用户授权,也是因为数据一旦用于开发其他能力,有可能涉及人脸、声纹等敏感信息,这类信息在合规流程上都会被严加控制与监管。“行业内部都会有这样一个标准,只是目前还没有达到通用化的程度。”周维聪表示。
腾讯安全内容风控产品经理李镐泽对第一财经表示,AIGC的内容安全是一个全链路的问题,从模型训练、标注、应用到应用之后的舆情监控各个环节都可能引入内容安全的风险,因此在应用AIGC大模型时,也应从全链路进行内容风控。其次从审校方面,也需要从连贯性、逻辑性等方面来保证数据质量,去除高风险内容。第三是版权方面的风险也需要警惕。
全链路也包括了事后阶段。李镐泽表示,事后阶段是指在大模型产品上线、用户使用之后,企业也应注重平台舆情监测,相应减少或避免相关风险。
至于全链路中哪个环节目前遭遇的AI安全风险最为密集,李镐泽对第一财经记者表示,问题的爆发主要伴随业务的分布情况而发生,从AIGC场景来看,厂商目前主要集中于先训练模型、再逐步投入应用的阶段,因此爆发的问题主要在训练与内容生成这两个环节。
以OpenAI为警示,在具体政策法规尚未明确的情况下,企业在获取数据进行大模型训练时,也需走在严格的审核流程中。今年4月,根据《中华人民共和国网络安全法》等法律法规,国家互联网信息办公室起草了《生成式人工智能服务管理办法(征求意见稿)》。《意见稿》指出,用于生成式人工智能产品的预训练、优化训练数据不含有侵犯知识产权的内容;数据包含个人信息的,应当征得个人信息主体同意或者符合法律、行政法规规定的其他情形。
李镐泽对记者表示,《意见稿》的出台比较及时地响应了当下火热的AIGC发展趋势,也给各个企业、包括想做AIGC大模型的企业提供了一些指引和机会,这是一个比较好的趋势。
【来源:第一财经】