清华前沿论坛——人工智能与信息安全暨得意音通信息技术研究院成立大会
主持人:大家下午好!欢迎回来,我是主持人向银杉。
通过上午两位院士的演讲,相信大家已经对人工智能与信息安全的科技前沿有了全面的了解。下午我们继续来深入聊一聊AI与安全的话题,特别是它的应用场景和在中国的实践。
鼓起钱袋子、稳住菜篮子,从来都是关乎国计民生和社会稳定的两项重要任务。在前不久刚刚举行的中央金融工作会议上,国家更是把防范系统性金融风险、保障金融安全提到了前所未有的高度。那么,最新的人工智能技术为保障金融信息安全提供了哪些新的“利器”呢?我们先来看中国 建设银行 是怎么做的?
下面有请金磐石先生作金融安全主题演讲准备,首先请允许我正式介绍下金磐石先生。
金磐石先生,现任中国建设银行信息技术管理部总经理,高级工程师及注册信息系统审计师。1989年吉林工业大学计算机应用专业硕士毕业,2010年获清华大学高级工商管理硕士学位。2016年12月当选中国计算机用户协会信息科技审计分会第一届理事会理事长。
下面掌声有请金磐石先生,上台演讲,他演讲的题目是《“智·安”双全——智圆安方塑造科技金融新生态》。
金磐石:尊敬的各位同行,大家下午好!今天非常荣幸地参加“人工智能与信息安全”论坛,同大家分享一下建设银行在人工智能和信息安全领域的成功经验。
在正式分享之前,先面对面建一个微信群,因为我下一步要演示一下我们在人工智能和信息安全方面的实例,一会儿还要给大家发红包。
建设银行在《欧洲货币》刊物上被评选为“2016年中国最佳银行”;在英国银行家2016年全球银行1000强排名中,位列全球第二;世界五百强,建设银行排在第22位。2016年,建设银行税后净利润是2324亿元,集团总资产达到21万亿元,平均资产回报率 和平 均股东权益回报率分别达到1.18%和15.44%,各项业务稳中渐强,核心指标和市值排名都处于国内外同业前列。
近年来,国内外经济形势非常不好,变化巨大,利率市场化、金融监管、外部环境、创新要求等带来了巨大的挑战。在如此复杂的环境中,建设银行能取得成绩,就是因为我们能够因势谋变,从2010年开始整体转型发展的探索,下出了建设新一代IT系统等改革的先手棋,积极塑造转型发展的新优势。
在业务创新大潮下,建设银行举全行之力,首先摸清业务现状和未来发展方向,用企业级的方法,将银行所有的业务、产品、数据进行全面梳理,并纳入新的架构标准中进行再造。建设银行转型着眼于打造最具价值创造力的银行,采用了综合性经营、多功能服务、集约化发展、创新型银行、 智慧 型银行五位一体、协同推进的整体转型战略。
在综合性转型方面,建设银行在全行集团层面,统一了客户信息、机构员工总帐、定价和产品管理等,夯实了综合经营的基础。通过对360度客户的画像数据深度挖掘,形成商机,以客户为中心的理念真正得到具体落地,我们做到了以客户为中心开展营销,以客户为中心创新产品,以客户为中心提供服务。到目前为止,已经整合了6.87亿客户,形成了7000多个目标市场模型,创建了3000多个营销任务,产生了3.3亿个商机。通过全行一个模型,实现了海内外和母子公司企业级平台,支持我们全球和集团一体化的发展。建设银行做了一个新的企业级系统,这个系统不仅国内,还包括海外,我们在海外有30家机构,包括我们子公司,建信养老金、 建信信托 、建信保险、寿险、财险等等。
在多功能方面,我们搭建了多功能产品和服务平台,重构了支付结算、托管、金融市场等数十个重要的业务系统,支持组合多样、特色定制综合性的金融服务,打通了我们的交易链,推进了金融生态圈建设,支持大数据应用服务经营管理决策。
在集约化方面,通过前后台分离的平台,推动网点柜面业务走向集约化的生产模式。大家现在到银行网点看一看,跟以前大不一样,我们实现了110类业务的集约化运营,柜面对公结算业务单笔时长从原来5分钟缩短为2分钟,个人信用卡领卡周期从业界的惯例15天缩短到7天,如果是虚拟卡,当天申请当天可以使用。远程授权集中,上收457项,审核事项上收77项,自动身份审核效率提升了20倍,节约人力成本5倍以上,大大提高办理效率,降低营运成本。
在创新方面,建成了产品装配工厂和配套的敏捷研发机制,能够基于14个产品线、136个基础产品、2279个产品条线、58个装配模型,快速推出定制化的可售产品,银行的产品跟一般制造业的产品不太一样,比如贷款,贷前、贷中、贷后,基本上抵押物不同、逾期罚息不同、利率不同,都可以通过系统给定制化。136个基础产品,我们目前可售产品是1.4万多个,这是在变化中,这些东西都不用编 程序 ,都是通过组件化、参数化方式,通过配参数来实现的,都是我们IT系统做的工作,有效支撑了业务创新发展。
在智慧型方面,我们打通了全行渠道的壁垒,搭建了完整、协同、智慧的渠道体系,提供了随时随地随需多场景金融服务和一致的渠道体验。以我们智慧柜员机为例,提供的是一站式自助化、智能化、多样化的服务。我们的智慧柜员机已达到61809台,柜面业务签约率达到81%,涉及200多项非现金业务,业务量超过2.15亿笔,占柜面非现金业务量比例达到60%,柜员转岗3.4万人,高柜平均每个网点是4.3个,现在降低到1.5个,网点营销人员占比提升到63%。仅网点人力成本每年节约10个多亿。未来我们物理网点不是恐龙,不会消失,不像有些人讲的,银行不改变,我们就改变银行,我们是真正在变。银行物理网点未来一定是客户自助办理为主、银行的柜员服务为辅的方式。
在信息安全方面,我们引入了支票扫描键尾、电子签名、远程审核、指纹识别、声纹识别、柜面风险监测等新技术,同时我们整合了全面风险视图,实现了风险由人控转为机控。建设银行率先提出并实现了“安全即服务”的理念,主动识别发现针对客户的威胁风险,提升智慧型、主动式反欺诈能力。目前我们声纹识别主要应用于手机银行APP中,包括声纹登录、声纹转帐、声纹取款三大场景。随着业务推广,后续会应用于更多的业务场景之中。
现在大家出门还带现金和钱包吗?现在在座各位谁还要带谁就是农民,连企业家都不是。外面摩拜、ofo单车,卖菜的,据说现在乞丐乞讨都让你扫二维码,所以现在只要带手机就行了,特别是带建设银行手机银行的手机。
场景展示:交党费。
以前交党费很麻烦,组织委员通知每个人,有时候不交,还得到办公室去找一找,对退休的同志就更麻烦了。现在很简单,到交党费的时候,你给他发一个短信,提示他该交党费了。他一进手机银行里,自动就出一个场景,把钱数输入进去,点“立即缴费”,按一下二维码,缴费成功,就是这么方便。
比如我要登录银行,进去以后,出来8个数字,每次不一样,只有我说话才能进去。进去以后,有一个语音导航,说“手机到手机转帐”,自动就进入这个界面。
我们的手机银行功能强大,我们目前的声纹识别就是用清华郑教授他们的技术,在建设银行全面推开,方便了客户。所以你无论是躺在床上还是走路都可以,都不受影响。
前两天有一个报道:“因乐视遭遇资金链危机,甚至出现停发工资和断缴社保的现象,最终导致乐视员工的信用卡额度被建设银行调降为1元。”消息一出,便引起了社会各方的热议,批评者、同情者皆有之,但是在喧嚣的背后,也有银行人士感慨,特别是监管机构感慨说:“建设银行智能风控系统做到了如此及时,真是厉害。”主要是因为建设银行在风险的防控系统智能化转型以后,识别到乐视公司的风险,已经三个月不发工资了,影响员工的收入,进而影响信用卡的还款能力以后,我们经过人工判断,系统作出了这种调整。
银行不是慈善机构,乐视公司出了这么大的事情,三个月不发工资了,我们也担心,钱也不是我们的钱,是在座各位 老百姓 的钱。所以我们能够精准地识别到客户,为客户提供更好的服务,也能够及时掌握客户的风险状况。如果一家公司出现了资金问题,甚至都影响到了员工工资的发放,社保都没有缴,我们觉得这样的风险还是非常大的。所以,我们就把额度调了。调整完了以后可能有误伤,但是我们会很快恢复,以后也吸取教训,在调整时,不要一下子调到位。但确实否认有必要。
我们创新融合多项技术龙支付,这是建设银行全力打造的支付品牌,覆盖线上线下全场景,是业内首个整合了NFC、二维码等技术的全新支付产品,具备建行钱包、二维码、全卡付、云闪付、随心取、好友付款、AA收款、龙支付等八大功能。国家信息中心老总跟我说:二维码扫,你们有没有?我们都有。致力于全方位的贴近客户生活,紧密切合日常支付场景,提供多快好省的解决方案。
我现在用龙支付给大家发一个红包。在座各位如果装了建设银行的手机银行,我可以把红包撒到空中,然后在500米范围之内,我发红包以后,你们一摇就摇到这个红包了。但是现在在座各位好像没有装建设银行的手机银行,只能先撒到微信群里,之后你要输入手机号码,建设银行自动为你的手机号来开了一个“建行钱包”,如果要取出来,到建设银行开一个卡。
过去,银行的客服一般靠人工做答,现在建设银行靠智能机器人——小微。大家可以到微信里关注“建设银行”,然后问它话,就可以回答你。现在已累计服务客户超过12亿人次,日均交互超过500万次,相当于1万个人工坐席员的工作量。建设银行智能机器人是2013年推出的,推出以后,客服整个体系做了改变,原来2万多人,现在不到1万人。原来有13个客服中心,现在3个,而且准确率很高,经过不断训练,达到93%。现在问一下小微金磐石是谁,它知道是我。现在连骂人的话都听得懂,准确率非常高。
建设银行一直着眼于长远、基础和大局,我们叫上兵伐谋、守正出新。刚刚分享的五大转型成果,综合性、多功能、集约化、创新型、智慧型银行的转型目标,正是得益于我们新一代IT系统的数字化建设的强大支撑,包括郑方教授的语音识别等等,全球所有的先进技术在建设建行都能看到影子。,真正是国内最佳、国际一流。
建设银行的数字化转型是三位一体的,包含业务转型、技术转型和实施转型,是以企业级别和模型化为特征。
业务转型:采用业界领先的企业级建模方法,首先通过战略规划,梳理全行业务、数据和产品,构建出覆盖全建设银行经营管理的业务价值链,通过解读全行的转型发展战略,“十二五”规划,提炼出建设银行26个业务方向,分解为102个转型举措,通过聚类方法,形成114个业务组件,搭建出全行业务整体框架。可以理解为建设银行就114个系统,提供1.4万多个产品全部囊括。
通过企业级的建模方法来填充业务架构,就是采用标准化、结构化的方法,对银行的业务流程建模、数据建模、产品建模、用户体验建模,既覆盖现状,又能体现业界先进设备。在做系统之前,把建设银行的业务,流程、数据、产品,包括用户体验通通做了一遍,依据这些建模成果来进行IT设计时, 分分钟 搞定。
技术转型:如图,这是我们新一代IT系统建设的总体技术方案,承接我们业务建模落地的实施,由7×12个平台构成,是组件化、平台化、双耦合、面向服务重构而成的企业级的架构,具有稳定、灵活、参数化、可扩展的特点。这套结构不是建完新一代,是面前未来建设银行10-15年的发展需要,现在来一个业务需求,不是上来就编程序,先看看是不是在我们模型范围之内,在我们模型范围之内,就是通过组件化、模式化的方式配置一下,如果原来里面没设计过,才真正涉及到再加一个组件,重新建模的过程,才真正涉及到编写程序。
建设银行采用集中+分布的融合架构,整体上采用分布式架构,在关键应用方面采用集中式架构,这种融合的架构既能发挥主机安全、稳定、可靠、易于管理的优点,又能发挥分布式平台成本低、海量并发处理能力强的优点。中国建设银行建设现代生活,靠谱。
目前建设银行部署在x86云上的应用,已经达到了83%,通过主机下移和资源池优化,主机利用率从90%降低到70%,节约资源超过3.54万个处理单位。在业务量年均增长32%的情况下,我们保持主机资源使用率的零增长。四大银行里,我们主机使用率是最低的,而且不是现在最低,未来一直是最低。主机有主机的好处,但有唯一的矛盾,垄断、贵。有些公司不用主机,用不起,我们现在还能用得起,但是钱要花的值、花的聪明,不能乱花的钱一分都不能乱花,真正要用的地方还是要用。
建设银行建成经济、可靠、弹性、通用的云基础设施环境,建设银行的私有云是国内规模最大的私有云,云资源池动态可伸缩,有效应对了互联网潮汐式的业务模式,新系统投产分分钟可以搞定。所以通过异地灾备、应用补数方式,来确保关键数据不丢失,减少灾备恢复的时间。我们现在正在建设,整个灾备体系也是业界最先进的。为什么我现在不说呢?因为到明年年中才能建成,但我们方案早就做成了。我们有“两地三中心”,“两地”:北京武汉;“三中心”:北京两个,北京生产中心现在已经建成,到明年6月份搬进去,亚洲最大。大的柴油发电机56台,相当于中型电厂。我们异地的在武汉,各位在座的,欢迎去参观。
建设银行手机银行安全不安全?绝对安全。如果在座各位用建设银行手机银行,包括你们的亲戚朋友,说钱丢了,哪怕你还有一点瑕疵,你把密码都告诉犯罪分子了,但是如果要是能够证明你不是跟犯罪团伙合谋诈骗,建设银行全额赔付。
依靠我们这一套新一代银行系统,服务于全球6.83亿个个人客户,1.5万多个物理网点,20余万台自助设备,包括ATM,网上银行数已经达到2.4亿户,手机银行用户已经达到2.2亿户。 高峰 时,每天交易量是8.97亿笔,每秒钟达到1.15万笔,可用率99.99%,重要的系统达到100%。达到99.99%是什么意思?一年365天,12个月,每个月30天,每天24小时,每小时60分钟,停机时间不超过52分钟。所以这么大一个银行,能把系统做到这个份上,我自己都感到非常自豪和骄傲。
在座各位,我们原来跟郑教授联系比较多,除了信息安全、声纹识别以外,很多东西都可以跟清华大学进行合作,包括前期我们跟清华经管学院联系比较多,清华计算机学院我也来过,有很多东西。
实施转型:是我们制定了严格IT系统建设全生命周期的实施工艺,规范各个项目组的实施过程,每一个步骤的输入、输出、参考依据角色等等定义非常清楚。实施转型中,更值得自豪的是建成企业级新一代实施管理体系,这套体系是由我们IT全生命周期管理系统来管理。就是说新一代核心系统的系统,从项目的可行性研究、立项到需求、分析、设计、编码、测试、迁移、投产,再到运维,全流程的数据统一管理,这是我们新一代IT系统建设最大的收获。非常荣幸,我们把这套体制和机制,更重要的是我们把这批人才培养出来了。
追溯过往,在金融改革关键历史节点上,建设银行都是勇立潮头、敢为人先,积极推进数字化改革、推进智慧银行与信息安全建设,我们已经取得了全新的发展与先机,但是这是一个终点,更是一个新的起点。
我的分享就到这里, 谢谢 大家!
主持人:谢谢幽默风趣的金总。金总刚才从立足金融行业的典范银行——建设银行为例,从保障金融信息安全的核心应用和关键技术出发,给我们介绍了金融安全。从整个国家的网络与信息安全系统的构建来看,在社会高度信息化的今天,AI技术在身份认证方面又有哪些用武之地呢?
下面就有请国家信息中心网络与信息安全部副主任李新友先生为我们演讲。
李新友先生,清华大学计算机系学士、博士。第六届中国青年科技奖获得者。现任国家信息中心二级研究员,中国计算机学会信息保密专委会常委。《信息安全研究》杂志主编。主要研究领域包括:信息安全、电子政务、计算机应用。
下面让我们以热烈的掌声欢迎李新友先生演讲,题目是《身份认证进入人工智能时代》。
李新友:各位来宾,站在这个讲台上已经不是第一次了,信研院成立一周年大会时,我就在这儿做过报告,虽然这样,今天在这儿站着还是诚惶诚恐,因为有庄院士,还有吴教授,都是我们老前辈,站在这里演讲挺紧张。尤其是刚才金总把建设银行很好的实践经验,尤其跟人工智能结合的一些实践经验跟大家讲了以后,这是一个非常好的应用,大家很感兴趣,再来听我这个报告时,就比较逊色了。
电子身份已经进入人工智能时代。大家明白这个道理,从刚才建设银行的实践经验来看,银行里面最主要的一个东西就是身份认证,如果身份不认证的话,钱放在银行里,是想拿就拿,你的钱我拿来,我的钱你拿去,所以身份认证很重要。从建设银行实践经验中可以看出来,人工智能在银行的领域里面应用的非常好。今天得意音通信息技术研究院的成立,也说明了人工智能发展到一个新的阶段。
这个月,国务院刚刚发了35号文,即《新一代人工智能发展规划》。这个文件是对我们搞人工智能领域研究或实践者是负责鼓舞人心的一件事情,其中规划了很多东西,发展目标定的非常具体和明确。有三个目标:到2020年,希望我们国家人工智能整体技术和应用与世界先进水平同步;到2025年,人工智能基础理论实现重大突破;尤其是到2030年,希望我们国家能够成为世界主要的人工智能的创新中心。国家远大的目标定的非常有底气,尤其是现在人工智能这一块。为了实现这个目标,规定了六个大的任务,其中第五项“要构建泛在的安全高效的智能化的基础设施体系”,采用人工智能的技术来构建“身份认证”这样一些关键基础设施。希望大家好好学习这个文件,将来国家会有很大的投入和投资去做这个事情,“人工智能的春天”到了,大家学习了以后,看看哪些东西跟自己能结合起来。不仅从技术体系、基础环境,还有各个方面的应用,工业的应用、服务的应用、社会的应用,规划非常详细。
基本概念
身份认证:在网络时间里面一种用来对实体和所呈现的身份之间的法定关系进行充分确认的过程。有时候我们讲身份认证是身份鉴别,在网络上怎么确定你就是你,你给我一个身份证号,确认你是真是假,鉴别真伪。在现实世界里,有身份证、进门卡、工作证,到数字世界里表现出来的可能是一个证书、数字字符串等都是身份。
现有身份认证的技术,有四个阶段:
1.最早想身份鉴别时大部分用的是口令,如一个字符穿,有的是6位,有的是8位,或者更多。字符串之间有数字、要求字符或乱码等,对字符串要求越严的地方,说明安全等级越高。后来我们发展到了有动态的验证码和动态令牌,相信大家在网络空间里都使用过。
2.比较强的身份认证——USB Key、智能卡,在银行里,大家都拿过银行的令牌,在电子政务领域用的比较多的是智能卡。CFCA搞的就是CA证书,在金融领域里面发行的证书。但是这个证书使用过程中还是困难的一件事情。怎么样解决这个问题?
3.到了第三代就是生物识别,语音识别是其中之一。最早生物识别里用的比较多的在身份认证方面就是指纹,后面有虹膜,现在是刷脸。 马云 到了德国博览会上刷脸支付,露了一把脸。现在得意音通搞的声纹识别,应用到身份认证上来,这是郑老师很重要的一个贡献。
4.基于风控身份认证,根据不同风险等级动态调整认证措施,采用用户行为习惯和设备指纹,做身份认证。
在四个认证里,后面两个基本上都是采用人工智能技术在身份认证方面很好的应用。
刚才提到现有认证的四个方式,前面两个存在的问题非常多:
1.低等级认证方式很容易被破解,口令可能很容易被破解,认证的密码算法。低用户名、密码、口令方式很容易被破解。
2.多应用要多注册。上QQ时要进入一个用户名,到建行要注册建行的用户名,到 工商银行 要注册工商银行的用户名,所以不同的用户要进行不同的注册。我相信在座各位每个人机构里都不下5-10个用户名和密码,经常会搞混,也会经常忘记。搞混了的时候往往就会串库,网络上串库攻破密码的方法大家都很明白,这也是很容易被破解的。
3.图形识别很难,每次下面有一个图形码给你,让你输入,容易输错,为什么搞这些?就怕计算机攻击口令和密码,希望用人工方式来输入。采用这种方式,安全等级是提高了,但是给用户使用系统的感觉就不好了。我在登录一些系统时,最烦的事情就是把用户名和密码都输入进去以后,还让你输入图形密码。
4.高等级认证方式要求条件非常苛刻。如硬件的接口、标准化,计算机要插一个银行的卡,不一定能插进去,插进去了,说没有驱动,到银行下载驱动,来来回回一折腾,自己取钱的兴趣都没了。
5、用户 操作 非常复杂,用过USB Key或CA证书的人都明白,用户操作非常痛苦,体验很差,我最不喜欢用CA证书,我书报里面有好几个CA证书,主要原因是体验太差,宁可不用那个系统,也不上,尽量会让秘书登录到国家信息中心内网办公,也不想用CA系统。
6、实现每一个新的认证方式都需要新的软件和新的硬件,需要新的基础设施,用户要培育新的使用习惯。以建设银行为例,建设银行有经济实力,可以采用很多新技术、新方法,把大部分CA方式都实现了,但是如果对于一个普通的企业、一个机关,要想把所有的认证方式都实现了是很难的。刚才金总拿手机给大家展示时,他使用的很方便,但是在座有多少人用建行银行手机APP时用过语音识别,很少有,就是因为用户使用习惯要去培养。建设银行也有刷卡支付,刚才在休息厅里跟金总聊天,为什么大家不用建设银行刷卡支付,都愿意用微信支付、 支付宝 ,这是大家一种习惯,尽管建设银行有刷卡支付功能,大家也不去用了这是一种新的认证方案或新的使用的东西大家不太适用,不愿意学。
7、不同的认证方案之间不容易兼容,无法互操作。国家信息中心在国家公共资源交易平台上实现5个省证书互认,就是你的证书我能认,他的证书我也能认,花的成本很高。做完以后,没有达到我自己的证书我自己认的效率,能实现不同信息之间的互认也是非常难的。在证书方案里实现一个新的方案,难度高、成本大。
不同的身份认证系统,本身之间不关联。全国发了很多认证CA服务商机构的资质,每个省差不多有1个,有的可能有4-5个,全国统计下来大概有50多家证书服务中心,这些公司提供的身份认证的系统之间是互补兼容的,虽然国家有统一标准,但是要想接通还是很难的。你想把建设银行一个UBS Key,能把工商银行的钱取出来,想都不敢想,但是我相信五年以后可以用建设银行的身份去到工行因此取钱,我保证是能够做得到的,这一点肯定是人工智能的效果。
现在身份的做法,不同认证手段对应的不同应用,如果右边有很多认证手段的话,任何应用都要跟其他所有的认证手段去接,把应用1、应用2、应用3看成是建设银行、工商银行看一看,建设银行要做一套跟所有应用去接的,工商银行也去做一套,花费的成本可以想像出来,是很大的。
实际上在发展中还面临一些问题:
互联网欺诈。通过身份的欺诈是很厉害的,这些欺诈造成大家在应用信息系统时往回缩,不敢用。虽然知道这个系统很好,但不敢碰,不知道那个系统是好的还是还的,是健康还是不健康的一套系统,看不清楚。
大量身份黑市存在,隐私保护亟待提高。现在在网上卖身份系统、卖身份证的,就是你的网络的身份认证,就是你的用户、密码、跟你的手机名绑定等,黑市很多,有可能0.5元/条,黑市很猖獗。卖完以后,有些人利用这个数据库去做欺诈的一些事情。
鉴别的技术,道高一尺、魔高一丈,刚刚搞出一个新的鉴别技术,后面就有人解了。物联网和各种应用爆炸式增加,有的应用可能要求安全级别低,有的应用可能要求安全级高,有些应用里面核心系统要求身份级别高,有的非核心不需要多高安全等级身份鉴别的,所以这一块也是挑战。
财富向数字世界快速转移,过不了几年,可能都不用纸质的钱包了,全部都是数字化的钱包了。数字世界的价值比现实世界更加重要。
工业化发展、智能工业、智慧工业等等。
电子认证将来会成为经济发展的一个基石。
网络身份是互联网的战略资源,将来可能会成为国家网络监管的重要领域。
身份泄露事件。有3.15上报道出来的,银行盗转、盗刷的,快递单子泄密,还有企业身份欺诈等等事情,都是跟身份认证有关系的事件。
在新的互联网环境下,在新的应用场景下,我们下来对身份认证的追求,一是追求简单易用,一是追求安全顶级要适应应用的需求,三是希望能够柔性的部署,就是说这个系统里面能够增加一些身份认证手段,也能减少一些身份认证的手段。
低成本、互认。在《国家网络安全法》里,对身份认证提出明确要求,基础要做方便身份认证系统。原来我们强调身份认证时一味强调安全,这是片面的,现在强调不仅要安全,还要方便,方便变成身份认证里很重要的标志。
我们认为身份认证到了人工智能的时代,发展方向有几个新的趋势:
1.以风控为主导的多因素、多层次的认证。
微信桌面版:手机确认访问。
雅虎推Account Key:允许iOS/Android版Yahoo Mail用户登录时无需输入密码。
常用设备登录时,简单认证。非常用设备登录,加强认证并安全提醒。
一旦登录错误,加强认证,如百度云盘。
2.基于智能行为分析的身份认证系统。
对危险情报进行分析;对登录终端安全进行感知;对用户行为进行建模;要对用户进行画像。后台需要有这样一个基于人工智能化的行为分析的身份系统来对身份认证的风险进行控制。
3.行为认证发展阶段。
认证的力度和精准度也在逐步提高,银行里面审核原来都是靠人工审核,现在都是向智能化演变。在方法上,以前只记黑名单,现在逐步对用户行为规则和用户行为的特征进行画像和匹配。现在再逐步发展到大数据的分析,还有业务的决策等等一些过程逐渐发展,通过用户行为来进行身份认证。用户行为身份认证实际上本身是有风险的,这个风险就要靠风控来做。这样一个系统进入,将来对用户的感受是什么样子的,就是悄悄进去了,大家感觉不到你在对我进行认证,实际上用户系统对你做了很好的认证,但是你自己感受不到,你进入这个系统时,根本不知道有对你认证。
有一次我从美国出差回来,出美国海关时我根本没感觉到过海关,直接到了飞机上,就是从机场进去以后,随着人走着走着就进去了,但是在咱们国家肯定有非常严格的要对行 李进 行安检,出关要盖一个章,我不知道为什么从美国机场出来时什么感觉都没有。希望将来在人工智能时代里,身份认证也像这样方便,当你进到系统的时候,自己没有感觉,但是后台对你的身份做了严格的风控,一旦身份不对,是仿冒、欺诈的,很快就可以给揪出来。
4.在线生物识别。
由于人工智能模式识别技术、机器学习技术、深度挖掘技术和大数据技术的集合,使生物识别方法已经达到非常成熟的阶段,所以这些技术都能够很好的应用到身份识别里面来。这里典型的成功案例就是去年郑方教授和得意音通搞的语音识别,在各个领域里的应用,尤其是在银行领域的应用。现在除了声音识别以外,还有指纹、虹膜、人脸,以及还有其他一些生物识别技术都是在不断的推动。各种各样的生物识别集合到一起,我们国家采用FIDO和IFAA标准。不管是什么样的生物识别技术,都架构在一个标准的平台上,这样大家拿着你自己的手机、移动设备都可以进行识别。
基于生物识别技术的身份认证系统。不管是移动设备还是计算机,起来服务器,都可以通过标准认证的平台,通过生物识别技术来做认证。
5、第三方身份认证服务平台。
我们现在在着力打造一个第三方身份认证服务平台,让身份认证这个服务平台为不同的系统和用户提供服务。实际上平台是把用户认证的方法和应用分离出来了,脱离出了这个系统里面。这个变化很好理解,因为数据库从原来算法里面脱离出来,中间件从原来系统里脱离出来,云从操作系统里脱离出来,这些都是随着技术不断发展出来的。身份认证这个技术是从应用系统里面剥离出来,也是类似这样一个方法。实际上就是把用户和应用分离出来。
在第三方平台里可以尽可能多的支持各种各样的认证方式,能够支持不同安全级别,让网络服务提供商能够了解设备具有的认证方式和能力,并且设置认证策略。便于用户操作,保护用户隐私。你们单位做了一个认证的服务系统,你要保障它的安全,作为第三方认证系统,会做一个更高的安全的保障,相当于是一个云的服务。所以在用户隐私的保护上面,第三方的平台可能更加安全。第三方服务平台可以智能化的选择认证的方式,更好的采用用户行为的分析方法。
例,在用户登录时,比如现在开始到银行取款,而且额度较大,我们需要对你强认证,怎么办?以前可能就要插USB Key,现在不用,给你手机发一个短信、页面码,以前的页面码需要手工录入进去的,现在你的手机被盗,不知道这次交易是不是你本人,如果跟声纹识别结合起来的时候,这个码到你手机上,手机终端立马会提醒你去读这个验证码。你把这个验证码读进去以后,如果是你本人的话就通过了。这是第三方身份认证方面的组合认证。
国家信息中心的工作基础。
为了做智能化第三方身份认证的平台,我们先后承担了国家密码管理局国产密码算法升级工程,把算法做成了SM2级别的算法,完全用的是中国自己的密码算法。
密钥管理基础设施同步做了升级,全国除了我们自己的CA以外,在每个省都有一个注册中心,叫IA,一共有31个IA,也同步升级。
认证在移动网络里的应用做了研究。
国家电子政务工程实验室里打造多模式统一身份认证平台,这个平台原形是在这个实验室里建起来的。
国家公共资源交易平台工程中,实现了数字证书跨省互认系统研究和建设。
国家政务外网二期工程:网络信任体系基础设施建设。
国办:“互联网+政务服务”。
政务系统整合共享项目,我们也会把新的技术整合进去。
总结:
互联网应用爆炸式增长呼唤便捷,安全的身份认证方式。
被认为是最安全的PKI(公共密钥基础设施)认证手段已不是身份认证的唯一手段。
基于人工智能的生物鉴别已经达到实用程度。
以风险控制为主导的、基于大数据和人工智能的用户行为分析将作为一种便捷的身份认证方式被广泛应用。
身份认证将从系统中分离出来,成为一种第三方服务。
谢谢!
主持人:感谢李主任的精彩演讲。李主任从宏观方面以专业的角度让我们对信息安全有了新的了解和认识。再次以掌声感谢李主任。
网络内容的可靠性识别一直是搜索引擎的重要问题。一方面搜索引擎要提供可靠性高的内容;另一方面,垃圾网页内容的出现会严重影响搜索引擎用户体验,而欺诈内容则可能导致用户上当受骗,如何杜绝?
下面有请清华大学马少平先生作《人工智能与内容可靠性识别》的主题演讲。
马少平先生,中国人工智能学会副理事长,中国中文信息学会副理事长、清华大学计算机系教授。
马少平:各位老师下午好!很高兴有机会在这里就我们一些工作与大家有一个交流。
今天主题是“人工智能与信息安全”,我这么多年一直从事人工智能方面的研究,但是信息安全没有太多涉及,但是我工作当中也有跟内容可靠性识别有关的工作,内容可靠性也属于信息安全一个方面。我今天主要从这个角度来讲一下。我近些年的工作主要围绕着搜索引擎,所以下面也以跟搜索引擎有关的一些方面进行举例说明。
现在搜索引擎是大众获取信息主要的来源,使用率非常高。搜索引擎首先要提供给用户可靠的内容,但是这里也充斥着一些垃圾信息、欺诈信息,如何把可靠信息筛选出来,把垃圾信息、欺骗信息过滤掉,这是搜索引擎面临的一些主要问题之一。
下面我从三个方面介绍一下我们具体工作:垃圾网页识别;欺诈信息识别(欺诈客服电话识别);高质量网页内容识别。
垃圾网页识别。
垃圾网页在搜索引擎中有特定的含义,即通过作弊手段来提高其在搜索引擎中排名的网页称之为垃圾网页。垃圾网页会严重影响到用户体验。
举例,前几年,蒙牛出事,很多用户到网上搜。前面几个内容都是正常的网页,最后一个是垃圾网页,搜的是跟蒙牛有关的东西,但是一个青光眼症状的东西,完全靠作弊的手段欺骗了搜索引擎。
这些严重影响了用户对搜索引擎使用的体验,各个搜索引擎都花很大力气想消除这种垃圾网页。据某公司报告显示:每年在反垃圾信息领域,资金投入、人力投入都已经超过全球中文搜索引擎市场总和,可见有多么严重。
垃圾网页既然有这么大的危害,各个搜索引擎公司,包括一些研究部门,也都积极开展研究,想把垃圾网页怎么自动识别出来。垃圾网页是一种通过作弊手段来欺骗搜索引擎的,各种作弊手段层出不穷,有点像计算机病毒一样。实际上每一种病毒都是有不同的漏洞、不同的方法,而垃圾网页往往也是这样的,有很多种不同作弊的手段,而且新的作弊手段层出不穷。这样传统一些识别方法往往通用性差,出一种作弊手段,很被动的去识别、删除。从识别效率上也有问题,因为垃圾网页虽然让用户体验很不好,如果有一个计算机病毒出现,中毒了,可能会去说,很快能检测到,但是垃圾网页用户遇到垃圾网页时,可能会嘟囔几句或骂几句,很少会跟搜索引擎公司说有垃圾网页,所以发现在效率上也是很大的问题。
通用的方法在研究界也有人做研究,但是效果不太好。我们与搜狗搜索引擎合作,能否找出一种通用的办法来,不但对已有的垃圾网页进行识别,对未来新的垃圾网页进行识别。我们探讨了很多方法,效果都不是太好。后来我们从垃圾网页作弊目的角度来探讨,即垃圾网页的目的是通过欺骗搜索引擎来欺骗用户去点击,不管是什么作弊手段,最终都是这样一个目的。第一,欺骗搜索引擎;第二,欺骗用户点击。我们想能否通过用户行为,通过群体智能的方式,把垃圾网页识别出来。只要这个网页想欺骗搜索引擎、欺骗用户点击,最终就识别出来。主要是这样一个思路。
实际上用户在使用搜索引擎过程中,面对正常网页跟垃圾网页,用户行为不一样。
1.如果用户点击,发现跟这个事件根本无关,他马上觉得上当受骗,会马上关掉,而正常网页的话,他会仔细浏览其中的内容。我们想找出一些用户行为的特征出来,比如用户从搜索引擎中搜索以后,点开某个网页,打开到关闭时间长短是很的一个特征。如果是垃圾网页,用户可能很快就关掉。
2.如果访问一个正常网页,如搜“清华大学”,点开清华大学主页,我除了浏览之外,还会继续访问,如通过清华主页点到计算机系,继续浏览,这可能是一个正常网页,如果是垃圾网页,就不会浏览了。用户是否继续点击的比例也是判断正常网页和垃圾网页比较重要的特征。
3.垃圾网页都是通过欺骗搜索引擎在欺骗用户点击,很少会有用户主动访问垃圾网页,也就是说正常网页,如清华大学网页,或者通过搜索引擎搜索到清华大学,点击进去,或者我知道清华大学的URL,直接输入URL去访问,但垃圾网站很少有通过URL去访问,基本都通过搜索引擎去访问。所以搜索引擎的引导率也是一个重要的特征。
类似一些特征,我们找出20多种,通过这些特征,再用人工智能的一些各种各样的分类技术,把正常网页和垃圾网页比较好的识别出来。
如图:效果。除了识别准确率高以外,发现及时。我们曾经做试验,找了1000多个垃圾网站,看这些垃圾网站是否在一些主要国内外搜索引擎中收录了,我们发现都收录了,每隔一段时间就监测一下,看他们是否把这些垃圾网页干掉了。发现一个多月以后,基本上还都没有干掉。不仅识别率高,而且也相当来说比较及时。
欺诈客服电话识别。
比如当家里电器坏了的时候,到网上搜一下某品牌电器客服电话,打电话让他们来维修。但是一些假冒的威胁小店,仿造商家客服网站的样子来做,里面放上自己的客服电话,用户在搜索过程中,搜到了这样的电话,可能会上当受骗。过去一些中文搜索引擎也因为在搜索结果中包含了欺诈电话,卷入了丑闻,甚至于一些用户跟他们打官司。
搜索引擎对这一类事情比较重视,但是一直没有技术的手段,主要靠人去看、靠用户举报,非常被动。这个不像垃圾网站,垃圾网站只是用户体验不好,而这类欺诈真正会让用户上当受骗,所以这个对搜索引擎公司伤害非常大。这种方式后来我们也想进行一些研究,看能否用一些自动的办法,把欺诈的客服电话找出来。
欺诈客服电话往往跟垃圾网页不太一样,有些欺诈网页为了提高在搜索引擎中的排名,会用一些手段,用识别垃圾网页的办法来识别,但有些识别不出来。
如图,这三个都不是官方客服维修的网站,都是假的,但是前两个可以用识别垃圾网页办法识别出来,但是最后一个跟正常网页完全一样,靠垃圾网页很难识别出来。找什么样的特征?从内容上很难看出来,因为写得完全一样。
后来经过分析、调研,发现一个很简单的特征,一般做欺诈维修的这种往往比较贪婪,不会只冒充一个品牌,会冒充很多品牌。如图,这三个都是同一家小店,冒充三个不同的品牌,客服电话是同一个。同一个客服电话又分别说是不同的东西,而官方基本没有这种现象。以此作为主要的特征来对它进行识别。
这里主要做一些假设:首先,这种欺诈的识别主要是欺诈客服电话号码的职别;第二,如果是真正的官方电话,客服电话可能不是一个,跟这个网页中一起出现的另外一个电话也是值得信赖的,如果已知某个电话是欺诈电话,跟它出现在同一个网页中的另一个电话很大可能性是一个欺诈电话。两个电话之间贡献距离越近,是同一类电话的可能性就越大。基于这样的假设,我们找出一些种子来,找出一些真正官方电话,还有我们调查清楚确实是欺诈的电话来,组成一个贡献管理图,通过这个网络来进行传播,通过这种方法抽取种子来,好人旁边都是好人,坏人旁边都是坏人,用这样一种方式在网络上进行传播,把每一个电话最后都得到两个信息,是官方电话的可能性,以及是欺诈电话了可能性,经过若干之后,就可以很大程度上把欺诈电话找出来。
试验结果,如表,最后两个是不同的方法。欺诈的方法用垃圾网页识别的办法来找客服电话,从效果上来看,最后AUC指标达到0.90和0.91,其他方法只能是0.80以下,说明这种方法还是比较有效的。
基于用户行为的高质量内容识别。
搜索引擎如何把跟你查询相关的以及质量可靠的内容提供给客户,也是搜索引擎关键的技术。在这个过程中,有很多技术,搜索引擎里面技术很多,都是为了把好的东西、相关东西提供给用户。下面主要基于群体智能、基于用户行为的一种方法,即利用网络用户共同行为,来构建用户行为模型,把高质量的相关网页找出来。相当于用大家的智慧,当然这个智慧不是让大家评论好与不好,而是根据你的点击行为,来综合出大家的智慧,把这个找出来,就是所谓的群体智能。
用户点击模型常用的方法。基本思想:如果用户提交一个查询词之后,很多用户都很集中点击某几个网页,这几个网页都比较好。如果查询“清华”,清华大学主页80%、90%都点击,我们认为这是质量好的。
但是这里有一个问题,所谓位置偏置的影响,在这个当中并不是用户点击最多的那个就肯定好,因为用户受搜索引擎给的结果排序位置会有一个影响,Google做的一个人眼注意力的示意图,我们也做过类似实验,跟他们结果差不多,越红的部分用户注意力越高,而其他不太红的那些,用户关注的就比较低。用户看得见的信息所以点击高,用户看得机会少,点击量就比较少。因为搜索引擎基本给10个结果翻一次页,10个结果,点击量会逐步下降,而一换页,点击量又马上降低了,这些都是受到用户看到的影响。
举例,搜某会议,2008年这个会议已经开完了,2009年的会议要开始了,排在2008年的位置点击了49次,排在2009年点击了25次,是不是点击49就比点击25好呢?不一定,因为靠后的被用户看到的机会少。经过一定点击模型预算,发现2009年可靠性和相关性是0.9%,而第一个是0.8%,我们应该根据这样的信息,把2009年主页调到前面去,因为它是更可靠的信息。
怎么做?要用点击模型消除位置的影响。用户之所以点击,肯定是因为相关,但是相关不是唯一因素,用户点击还有一个因素,他是否看到。首先他在看到情况下,并且相关,才去点击。这里核心思想是如何根据用户点击数据估计用户观察到结果的可能性。
已有的点击模型,开始都比较简单。
最早点击模型是单一点击假设,用户搜寻某个查询词以后,发现某个结果是相关的,就点击了,然后就结束了,这是单一点击假设,但是这种假设可能很简单,绝大多数情况下不只是点击一次,可能点击多次。最早的模型认为点击一次就结束了,显然这种假设误差比较大。
多点击假设。当点击一个网页之后,会以一定概率点击其他网页,但是在这个模型中继续往下观察的概率是固定的,比如0.8或0.7,我们设定好一个固定的概率,这个比单一点击假设有了进步,但还是比较粗糙。
UBM模型,还是多个点击,但是再继续往下走的概率是跟这个网页所处位置,以及它跟前一次点击网页的距离是有关的,往下继续查看的概率不再是固定的。这跟实际情况有很大的吻合,所以UBM模型也是目前为止用得特别多的模型,效果很好,很多搜索引擎公司也都在用。
传统点击模型存在的问题。顺序浏览假设:自上而下,顺序浏览;没有考虑回访的情况。我们有大量的数据实验有回访,两次点击距离差,如果都是顺序往下浏览的话,这个图左右是没有的,都在右边,而现在左边量还挺大的,经过不同搜索引擎的计算,大概得有1/4的现象有回访。回访量这么大,原来模型的顺序假设就不是太合理。这种现象也不是我们观察到的,很多研究者也做过研究,想把回访情况考虑进来,但是结果都不太好,模型做得太复杂,以至于无法求解,最后为了求解,只好先建复杂模型,再把这个模型化简去求解,这个过程中带来严重的误差,其最终效果还不如UBM传统顺序浏览的假设。我们做这个事情之前,有回访的现象一直没有解决好。
我们在这里做了很多研究与实验以后,在传统一些假设基础上,又引入了两个假设想解决这个问题:局部有序性假设;阶跃检验假设。引入这两个假设之后,在原来UBM已经应用很成功的基础上,把这两个假设引进来,构造模型。
实验结果:这种方式比UBM模型效果好得多。我们通过引入这种方式之后,构建新的模型,就可以把更好的、更相关、更可靠的信息提供给用户。
我的介绍就到这里,谢谢大家!
主持人:谢谢马老师。
今天下午中国建设银行金总给大家介绍了科技金融新生态问题。其实,在这个新生态中,金融信息安全永远是最为关键的问题之一。中国建设银行在这个问题上有很好的关注和实践,而中国金融认证中心,作为由中国人民银行牵头组建、经国家信息安全管理机构批准成立的国家级权威安全认证机构,在金融信息安全方面更是有体系化的考虑、设计和实践。
今天我们很荣幸的邀请到中国金融认证中心(CFCA)助理总经理张行先生为我们作《人工智能在金融信息安全领域的应用探讨》的主题演讲。
张行,中国金融认证中心助理总经理,电子商务与电子支付国家工程实验室学术委员,电子商务创新推进联盟副理事长。在数据挖掘与数据分析领域有丰富经验,主导过交易监控及反欺诈系统等大型项目,曾任中金支付有限公司总经理,长期从事信息安全和互联网支付的研究和管理工作,具有丰富的支付领域实践经验和资深的技术背景。
张行:很高兴今天有这么一个机会向各位大师、领导、专家学习。
上周收到郑教授的邀请,要我来做一个关于人工智能和信息安全相关工作的分享,我心里特别忐忑,因为在人工智能方面,我觉得我还是外行,基本上连皮毛都不懂,今天上午听了张院士和庄院士的演讲,真的是博大精深。既然我来到这里,就讲一讲我们在这个领域的一些探讨。
CFCA是国家成立的一个金融行业信息安全基础设施,利用PKI技术、密码技术保卫着互联网的安全,包括金融安全,以及各个大型的企业、集团、互联网公司的一些安全。
讲到人工智能与其结合,我只能说简单的讲三点我们在这方面的应用:
一、基于行为特征的智能生物识别
在信息安全里,有一个特别重要的身份识别,它是我们信息安全里的一个前置条件或是核心和基础的服务。李主任对PKI密钥体系,尤其数字证书方面多少有一些诟病,这一点我不忌讳去说,这20年来我们一直使用PKI技术来进行身份识别,保证数据传输的机密性和完整性,保证交易的不可否认性,起到了功不可没的作用,一直到现在为止,它还是金融行业最主要的身份识别,以及保证交易安全的手段。但是易用性怎么样?这可能是大家一直怀疑和诟病的地方,很麻烦。尤其随着互联网、移动互联网的发展,谁都不愿意随身带着USB Key去进行交易或登录,所以在一些场景里,我们慢慢结合生物识别技术,以及人工智能技术,在不同场景下面用不同安全等级的认证方式来做。
2000年初,我们就已经开始研究过人机交互来进行人体生物识别,但是那时候是PC时代,是功能机时代,根本就没有现在像智能手机这样的压杆、陀螺仪、触摸、能感知定位,能够通过快慢、动作敏捷度,有的人敲字很快,有的人敲字很慢,以前比较厉害的五笔输入法,但是现在可能用这个东西的都是那一代人了,很多年轻小伙子都不知道什么是五笔输入法。我们通过现在人工智能的发展和互联网的发展,才具备了这样一个技术,使人机交互进行身份识别成为可能。这是随着机器学习以及人工智能的发展,我们在算法上的突破。
由于传感器的突破,有了更多的特征,使我们能够采集的数字维度和数量提升了4-6倍。以前一直没有得到商用,是因为准确率太低,但是现在基本上能做到这一点了。
例,同音一个人输入相同的信息,输入123456,比如在一个操作场景做一个转帐交易,我们能够通过你的行为方式,判断出是不是你做的。这个准确率基本达到了90%,可以说能基本商用。
如果把你的帐号信息和密码交给你老婆去做转帐和提款的话,你在后面通过机器学习,我们认为这不是你做的,可能会进行增强型身份认证。同时结合一些辅助的,像GPS、WiFi,还有一些其他的辅助因素,基本上能够做到99%的正确识别率,是不是你正在进行这个交易。
基于行为特征学习,还有很多方式方法,包括前两年看的《谍中谍》,记得有三重门禁,虹膜识别、人脸识别和步态分析,前两者用的是静态特征,但是步态分析就是用了行为分析。当你碰到一个很久没有谋面朋友时,我们能够通过两个行为分析出来,看背影和走路姿势,这就是我的朋友XXX,另外听他说话,就确定是他。所以在行为分析里,声音也是我们远程进行识别一个人一个特别重要的分析工具或认证手段。
二、手写笔记智能分析
手写识别。
大家想手写识别早就有了,从智能机开始就有输入法手写识别,但是我这里讲的是脱机手写识别。什么是脱机手写识别?就是已经写好了,你再来判断,而我们以前iPad或手机里的输入法不是用这个方法做的,用的是首先有笔画,起笔是什么,落笔是什么,如果你写一个字,反着写,不一定认识。这两年在图象识别领域随着机器学习、深度神经网络的发展,这个技术从2015年开始有质的飞跃。
CFCA在做这方面是比较骄傲的,我们为什么要做这一块?因为现在随着我们谈互联网金融,其中还有一个绿色金融,要求我本人遵从某一个条款,同时在很多关键凭据方面要签字,这个地方就用到了这一块,而且随着现在的直销银行、消费金融,以及互联网公司一些产品都需要远程核签,这时候一定要识别出这个人后面的签名跟以前是否一样。同时这个识别率的提高,有两个场景才能用:第一,在整个业务流程 自动化 方面,现在办信用卡不再填纸质的表,都是拿一个自动设备进行手写,很快,也表现你真实的意愿,后面自动识别出来,进入我们核心业务系统,发卡系统,密钥管理系统。第二,自动分拣。因为现在填单子都是手写的,这一块要是能提高的话,是了不起的。
在手写汉字方面,以前做得最厉害的是日本富士通公司,今年CFCA通过人工智能和深度学习,我们做到了97.04%,打破了业内世界纪录。听说最近两周又有一个新的世界纪录,还没有公布。但是利用这项技术能够在图形处理、手写汉字识别方面取得质的飞跃,而且在商业化方面有很多的场景和应用。
手写汉字的鉴定。
写了几个字:澳。根据机器学习,就能够鉴定出来澳上面的字不是这个人写的,人用肉眼很难看出来。无关字符鉴定。我学习你写的这个东西之后,模仿你,在不同字方面去判断是不是你写的,这是很有挑战性的。我们能够做到85%的准确率。
但如果是签名的话,如“ 李明 ”,你留的印鉴就是“李明”,现在写同样的字,普通预留印鉴手写签名,准确率能达到96%,别人要模仿很难。
模拟。
例,真人手写和机器模拟,很相似,绝对可以以假乱真,肉眼绝对分辨不出来,但是机器人辨别的出来。另外一个是不同的人写同样的字,甲乙丙丁写同样的字,写的非常像,我们也是用人工智能技术来帮助模拟,同时又来做鉴别,这是矛和盾的东西,就像做安全一样,要做攻防,有防还得有攻,才能把自己的技术和能力得到提高。
三、大数据与金融风控安全
传统信息安全基本上都是利用密码学来做的,在客户端有杀毒软件、防病毒软件,有输入、保密+密控件,有各种各样防攻击设备。但往往还有一些交易,而且特别多的发生在我们身边。
现在的金融行业已经放开了,全面进入了互联网时代。在互联网时代所遇到的风险特别多,从场景上来讲,有身份识别风险;修改也有风险,比如改了注册手机号等一些特征信息,包括绑定的卡号;营销风险;支付绑卡等一系列风险。
遇到这么多风险,而且这些交易也挺多,比如发生在我们身边的电子诈骗,看似正常,其实根本就不合理的交易是很多的。这两年我们和人民银行、公安部做打击电信诈骗的项目,了解到一些数据:2014、2015、2016年这三年,基本上每年电信诈骗使用户蒙受的资金损失是200个亿,1000万以上的诈骗案件104起,100万以上的电信诈骗2300多起,而这种事情也发生在我们身边,甚至我的朋友、亲戚都上当受骗过。
我们以前说科技是懒人推动的,金融科技好像都是坏人驱动的,要做这么多事情,要解决这么多问题、投入这么多资金,好像都是为了打击犯罪分子,都是为了防范风险。所以在这方面,我们有几块要解决的问题,如是你本人吗?是你真是的意愿吗?后面是人还是机器?这些问题都是要解决的。后面还有基于数字分析,一系列动作,是不是合情合理,通过一些交叉分析,能够看出来你的真实意图是什么,这些都是亟待解决的问题。
从最前端开始身份识别,有陌生设备,常用的电脑、Pad、手机。
还有一些情况下,诈骗分子在一个设备商用很多帐号,因为通过脱库或通过黑市里面买来的,会通过这个设备登录很多帐户,所以要检测。
跨机构,一般跨机构很难,建设银行只能管建设银行的,工商银行只能管工商银行的。我们现在在跨机构金融机构的共享平台,使这些设备信息、帐号信息能够进行关联。
位置信息评估。一个人肯定是在时空当中的,如果你在王府井做了支付交易,在两个小时之内,你在海口做了支付转帐,购买一些物品的话,我们应该立马进行实时截断。基于行为特征识别,这个系统里面要结合前面的用户身份识别,行为书写,以及其他的身份认证手段,来判断这个人出现的刚才说的那几点问题。
现在不法分子也在做一些模拟,比如通过改号软件、伪基站发短信。改号软件,打进来就是95533,这种情况特别多,这个产业也很成熟,从代办买卖帐号,到后来专业取款提现,到其中工具的定制,以及信息的联动,我认为现在坏人是最早应用大数据和人工智能的,因为他们利用了计算机学科、大数据技术、社会学、心理学,才使这么多人蒙受损害。
这一系列从设备、位置、行为、环境,以及黑市交易、欺诈信息库、失信信息库、高危信息库等一系列来识别我们风险交易。
用户画像。这一块最关键的还是在信用:第一,信用模型;第二,行为模型。
信用模型。我们做的是还款能力。今天金总讲乐视事件1元额度,就是一个信用模型,这是一个还款能力综合评估,还有还款意愿。还款能力从很多维度衡量,有的人可能不是这个客户里的VIP,但绝对是一个很有钱的人,在现实当中遇到最多的不是还不还,而是欺诈。现在线下交易里,15%做的贷款是欺诈,一些小贷公司80%的线上交易,有50%是团体欺诈交易。所以说还款能力、还款意愿,构建了信用模型。
行为模型。真正帐户持有人,这一块看似很简单,用户画像,现在做起来比较难的地方是数字不全面、不准确。我们现在为20多家商业银行,每天处理几亿笔交易,像四大行、股份制商业银行,我们时时刻刻晚上进行智能分析,一直在学习每个人的行为模式,白天要响应速度特别快,实时响应,能够密切关注着每一笔交易是不是符合我这一块,这方面取得特别好的效果。一些合理不合法的欺诈交易,为20多家商业银行每年挽回很多直接损失,其实更多是间接损失。
事件驱动的欺诈风险分析预警。
现在我们都讲场景金融,每一个交易都是处在场景当中的,如我要去申请信用卡,这是一个场景,贷款是一个场景、转帐是一个场景,甚至连查一下帐户或ATM取现我们场景。这个场景很多,但是事件也很多,每一个场景有一个动作序列,比如要做转帐,很多时候只是查一下余额。
例,最近有一个伪基站给受害人打电话,说我们电商平台退款,可能会帐上会多15万-30万元,我们这边有绩效考核,希望你们配合一下,把钱退给我们。如果真的进来那么多钱,而且号码也是正常的,说话也很专业,人都有慈悲心肠,就说做个好事,免得由于系统故障,给退回去就算了。结果是这个诈骗分子利用了网上买卖的信息攻击了 蚂蚁金服 的一个帐号,这个帐号里面绑定了受害人的卡,因为是同名帐号,申请起来就很方便,申请了30万的贷款。他一看,觉得对方也不容易,大家都是打工的,就把钱给退回去。后来还说没收到,再来一笔,说银行系统有问题,没收到会退款给你,就继续打,被骗了43万。
如果我们用上这一套分析,是能够降低很多欺诈风险。连续给陌生人转帐,而且根本中间就没有查你的帐户余额。所以基于这个场景,我们学习一下你的周边环境。如果用得意音通声纹的话,还可以有背景噪音,能知道你是在什么样的场景,能够更加精准的判断你所在的位置,现在是一个什么样的心态,是很慌乱的做法,还是很稳当、很平静的做法。事件驱动基于场景的欺诈,我们利用人工智能和机器学习现在取得了比较好的效果,对可疑交易提供再次认证,对高危交易进行阻断。
今天我的汇报就到这里,CFCA的产品和服务特别多,涉及到安全、支付、密码、大数据、信息安全服务等等。今天班门弄斧地讲了一下我们利用人工智能、大数据、机器学习的一些前辈们的应用成果在我们这个产品和方案当中,也希望以后和更多像得意音通这样在业内领头羊的公司合作,能够更好的为金融和互联网金融服务。
谢谢大家!
主持人:截止目前,我们的嘉宾演讲环节全部结束。
下面,我们马上进入今天会议活动的最后一个环节,嘉宾对话环节。
我们今天上午两位院士着重从人工智能的现状与未来趋势为我们带来了精彩的科技报告,下午四位专家则围绕“信息安全”与“金融安全”两个主题分别展开了精彩发言。接下来我们就回到本次论坛的主题“人工智能与信息安全”,开始我们此次高峰论坛的重量级对话。
下面我们有请出席对话的嘉宾:马少平老师、李新友主任、中国建设银行安全技术管理处 张晓东 处长、张行总经理和郑 方博 士。
我们特别邀请到清华大数据产业联合会秘书长 王霞 女士担任本次对话的特邀主持人。接下来的半个小时,我将把主持话筒交棒给王霞女士。
(主持人:清华大数据产业联合会秘书长王霞)
主持人:非常激动,这边是我的老师和师兄,今天来演讲的很多嘉宾都是多年以前我们的师长,先表示一些对各位的敬意。
今天一天谈了很多金融安全和人工智能的话题,下面这一段我们继续围绕AI和信息安全来做一些讨论。我稍微准备了几个问题,台上先走两圈,最后时间留一两个问题给台下的听众朋友们。
请张晓东处长先自我介绍一下。
张晓东:大家好,我是建设银行安全技术处的张晓东,主要负责建设银行安全技术架构,以及安全产品整体管理,从事信息安全差不多16年了。
主持人:第一个问题新从信息安全和金融安全谈起。不管是建设银行也好,还是CFCA也好,还是国家信息中心也好,对信息安全,尤其是金融安全都有非常多的关注。能否请李主任、张总和晓东处长给我们分享一下,在金融安全方面、信息安全方面有什么挑战?
张行:挑战挺多的。
第一,身份识别。身份识别说了很长时间,而且好像也有很多种方法。但是迄今为止想用单一一种方法称霸江湖,好像还真没有。所以我们现在所做的是基于不同的场景和对安全等级要求不同,建立一个分级分类的安全保证措施。比如生物学技术,但是我们认为单一的,比如静态的生物识别,还是不太安全。虽然马云先生在汉诺威刷了一把脸,但是远程往往靠刷脸,现在像斯坦福做的远程人脸模拟惟妙惟肖,而且本身生物识别就允许错误率,但是金融是不能容忍的,因为犯罪分子是趋利的,只要有一道缝,就死命往里钻。
我们现在要做的一个重点工作是生物识别技术和密码学技术相结合。例,现在一些智能设备,基本上都具备了具有侦测身份特征的能力,图像、声音、体温传感器等等,同时结合密码学里面非对称密码技术作出的东西,通过生物识别,比如在一些场景里识别出是你的话,同时还对交易做一个鉴别。这是我们现在正在做的一个方向,类似于生物识别技术+PKI技术。
第二,随着摩尔定律的发展,计算运力也增长的很快,同时由于最近几年量子技术的发展,对未来也有一个巨大的挑战。如,现在密码学里基于大运算量的难度来保证其安全性,如果量子计算机的运算能力是指数级的增长,可能在未来会对传统的密码体系,不仅仅是对金融,对全社会都是一个巨大的挑战。
主持人:反量子的攻击。
张行:对,我们和一些机构现在也在准备做量子通信实验。
主持人:晓东处长怎么看这个问题?
张晓东:从建行整个应用技术实践方面来看看目前我们面临这些挑战。
第一,感觉电信网络欺诈是银行现在面临比较大的挑战。因为银行是做金融的,把金库如果放在互联网上,并且科学已经证明了,任 何一 个系统都会有缺陷,这种情况下,不法分子一定会想尽办法去事,这是他的逐利的特点决定一个必然发展趋势,一定会存在的。不是银行做了什么事情之后,电信网络诈骗就消失了。这种情况下,对抗就成了后续我们要做的一个关键性的事情,也就是说我们防控能力要随着技术,特别是AI技术等新技术的创新,我们要提升自己的防控能力,这方面是挑战性比较大的事情。
刚才讲到不法分子利用新技术也是很快的,真的是这样。从实际情况来看,不法分子利用大数据分析,至少三四年前已经在做了,首先拿到社会上网站泄露的密码,比如开放网站或相关网站泄露的帐号和密码,和相关客户身份证信息关联,这样就会拿到一个身份证和密码,拿着这两样东西去银行验证这个密码是不是客户的互联网金融或网上银行的密码。做这样的事情非常巧妙,并不是一直在猜,因为银行做了控制措施,试错三次马上锁定,他只做一次,用数据量非常大的优势,实际上做了一个筛选,只是试验一次,如果对就留下,错就放弃掉。用这种办法非法获取了客户的密码。这是三四年前的一种方法,后续也会利用新技术的发展去采取新的攻击方式,针对互联网金融、针对网上银行、手机银行采取这些攻击措施。在这方面我们和郑教授合作,用了得意音通声纹识别+动态密码的方式,密码是8位,每次登录都是变化的,密码数字读对的情况下,后面再加上生物特征识别,就是你读出来的这些特征,这种方面就提高了安全性。
第二,今年5月份,大家都感觉到“永恒之蓝”勒索病毒爆发,100多个国家受到影响。建行没有发生1起勒索事件的发生,这个事情在我们看来仅仅是一个开始,后续对银行攻击的趋势会越来越严重,这也是一个很大的挑战。
第三,在安全建设过程中面临的挑战,主要是在安全措施和客户体验的平衡。安全和客户体验这两个看下来是一体两个方面的矛盾,我们怎么样既给客户一个安全的防控措施,又让客户能够方便的使用这些金融产品和服务,这是我们要一直去跟踪研究,去接受这个挑战的事情。
主持人:谢谢张处长。张处长刚才说怎么样提高自己的防控能力,保护自己的客户,像新的技术手段,如“永恒之蓝”这种,我们将来也要及时为自己做准备;另外讲到客户体验和安全、便捷性之间的关系,建行这一点做得相当好,你们能想到这个问题,就说明把客户放在第一位。
李主任,从国家的角度,您刚才讲的一点特别好,每一个银行都有一套自己的独立认证机制,和CFCA张总讲的是有一个统一平台,这样就不用让大家记无数个密码,每次都搞不清楚哪个是哪个。
李新友:我同意两位的说法,因为他们是金融行业工作者,所以深有体会。我从国家政策层面说两个挑战:
第一,《网络安全法》明确提出,国家保护关键信息基础设施。银行作为国家“8+2”重点行业之一,银行信息系统应该是国家一个非常重要的关键信息基础设施,对于关键信息基础设施的安全性有一个唯一的保护指标,即业务连续性,作为关键信息基础设施里面很重要的指标。一般信息系统可以当机,比如一天、两天或一个小时、两个小时,再去恢复,没关系。银行的系统必须要保证业务的连续性。金总说:建设银行停1秒的话,多少万笔交易就没了。这是从业务损失上来说的,但是对用户来说,容忍不了1秒钟的耽误。
现在银行里的帐,大家都没有帐本了,就是凭银行一句话,我存1万元就是1万元,存2万元就是2万元,现在大家谁也不知道银行里的钱是多少。如果关键基础设施垮了或者大数据库垮了,这个法律风险谁来承担,这是很重要的一件事情。
国家信息中心现在在做数据保全,银行就像医院一样,将来用户数据被盗或被破坏以后,用户来主张时,应该是银行的证明。所以对于关键信息基础设施来说非常重要,不能够被毁、被垮,必须要很好的保护。
第二,金融风险。国家刚刚成立金融风险领导小组,习近平亲自担任组长,说明非常重要。金融风险里,怎么样防范风险、防控风险,跟今天会议主题有关,怎么样通过对客户的分析,我说的客户不是一般小额贷款的客户,是大的客户,比如建设银行跑到巴基斯坦去投资建一条高铁,这个高铁到底能不能收回成本来,国家让你去贷款就贷款,到时候建设银行收不回来,这个风险谁承担。类似金融风险也是很大的挑战。
主持人:谢谢李主任。“一带一路”上,还真的有很多机会,也有很多风险,尤其是我们有大把的钱投到“一带一路”方面,关于它的主权,从金融风险来讲,要看并购、投资、主权稳定性等等,可能我们需要大量数据综合做分析。这个时候从金融风险角度来讲,从信息安全方面的诸多挑战,再回到学校这边,当业界有挑战、有需求时,清华作为重要的科研机构,怎么样应对这些挑战?马老师和郑老师都是做了几十年的人工智能,而且在这期间一直把业界的需求当做自己努力的方向,马老师跟搜狗合作了很多年,声纹识别技术做了很久,现在逐渐在产业上应用。请马老师和郑老师从科研角度讲一下,我们怎么样应对这些挑战,从学校来讲,科研如何跟产业结合,怎么在创新过程中,做到双方的互动。
马少平:这方面郑老师做得最好,他属于直接把研究成果转化到产业。我们这儿实际上有点间接,我们跟搜狗合作到今年整十年了,我1984年硕士毕业以后,就一直做跟人工智能有关的事情,还写过一篇回忆的文章。我是1979年在学《人工智能导论》这门课,1979年大作业写的是五子棋程序,所以一直做这个,但是做搜索引擎方面是从2000年左右,也有十几年时间了,但是跟搜狗正式签合同合作十年了。
做研究有很多方面,但是从我们的角度,1.做高水平的研究;2.要应用。这是跟企业合作一个重要的方面。张老师是直接把这个成果转化,我可能没有这个能力,通过合作的方式转化。在这个过程中,要解决几个方面的问题:
因为企业跟研究大目标并不一样。在学校来说,无论是博士生要毕业,还是从学校对我的考核,很大程度上得发表一些好的水平的论文,从企业角度来说,企业最终目的是盈利,能不能实用,用上以后能盈利。从某种方面会有一些不太一致的地方。在过去一些合作过程当中,合作不太好的地方,往往在这方面会产生一些矛盾,双方期望不一样。我们跟搜狗合作方面比较好的解决这类问题,双方找到各自特点,学校就是对这个技术动向发展了解的比较深,研究力量比较强,公司这边技术的变现能力肯定强于学校。除了跟搜狗合作,我们也跟别的公司也有合作,但不这么连续合作。这个过程中,我们合作的时间长,基本上双方找到了共同目标。1.从研究的角度,解决真正前沿的问题。如垃圾网页识别,在我们做之前,国际上都没有人弄出一种通用的方法,而公司对此有需求。2.把我们成果最后真正用上,双方找到了一个共同目标。这个过程中,双方都获利。各自发挥各自的特长,最终公司获利,我们也出了高水平的成果。
主持人:其实有很多企业找清华合作时,也会问找谁合适。我之前也跟他们讲,你要想清楚跟清华合作要什么,如果大家能界定清楚你要的就是我能给的,这就好办了。我觉得马老师跟搜狗的合作是非常好的例子,大家摸索出来怎么样能把研和产结合转化。
郑老师走了另外一条路,做独立产业化的路,而且反过来产业化的成果反哺学校,郑老师介绍一下经验,这么十几二十年,您是怎么样一直勤勤恳恳要把人工智能用的应用当中去的?
郑方:刚才马老师总结的很到位,一个是间接,一个是直接,描述很精确。我今天做产学研也经历了一个过程,最早我们采取的也是一种合作的方式,和企业进行合作。当时吴老师是我的硕士、博士导师,说我们做研究一定要作出能够用的,不是说理论不对,理论也要做,但至少从语音方面来讲,一定要能够用上去。我们在做的过程中发现,如果只是用的话,给了一些企业解决问题,可能后续的没了。像马老师跟搜狗有十几年的合作,这种合作形成一种良性的产学研合作的渠道。
这样做的话可能还是有点问题,我们就自己探索,能不能建立一个比较好的产学研紧密合作的通道,我叫做产学研生态,即不是独立合作的各方,之间是非常密切的。举例,跟我们客户打交道时,他提出的问题非常多,关注的点也不一样。如我们与建行合作,我对建行充满感激,他给我们提出很多很好的课题,如我们最早跟建行合作时,虽然做到比较短的语音能够识别人的身份,但是那时候也得需要10秒以上,对着机器说10秒钟,很多人都不干。说能不能降到4秒钟?还是长。能不能再短,1秒钟行不行?有点太难为我们了,不合情理。但是我们就想出声密宝这个方案,跟数字结合起来,还结合动态码,发现能解决问题。不是工程上提出这个方案就行的,有很多需要在理论上做研究才可以解决问题。这个题刚好给博士、硕士可以发表高水平文章的一些成果。因为在学术领域发表高水平的文章,他发表的文章跟别人不一样,反而人家追踪他,这样就很好。
类似例子很多,我们还做了防录音的,别人录音怎么办?识辨,这个系统用了三个月不能用了,人进不去了,声纹再好。自己进不去也不行,这两个课题我们都做起来,而且几届博士,经过几年努力,最后发表了很好的文章。如果有条件做成耦合的生态更好。反过来支持学校里面一些学科建设,研究、开发,走得比别的相同单位更远、更早。我们和合作单位达成非常好的共赢互利。
主持人:要跟CFCA合作,基本没得攻了,基本上大平台用的将来就没得攻了,这个事情我们很期待。
在N多年以前,有一段大家对语音识别有点失望,做这么长一段时间之后,发现其实有一个很大的瓶颈,那个瓶颈可能问题不在技术上,技术本身要想再进步比较难了。停了十几、二十年,现在进入新一轮增长,人工智能又热起来。以前做技术,我们能想象的应用场景跟我们自己的生活有关系,可能不是真的对行业了解那么深,比如刚才晓东处长说场景化的需求,包括搜狗,也是场景化的需求,李主任、张总讲到怎么样防范各种风险时都提到“场景”这个词。在互联网后半场,大家也会经常提到场景,因为任何一个技术想要用得好的话,其实跟使用场景都有关系,那些使用场景给我们提出了新的挑战,而且我们能够创造性的去解决这个问题,不是1秒钟干不了,太难了,而是想一个好办法,使得用户能接受,技术上能够做得更好,同时又满足了研究需求,又满足的实践需要,这个事确实是非常好的一个事情。建议大家给甲方和乙方一些掌声,这是产学研很好的例子。
提问:我来自东南大学计算机科学院,我们和企业合作,也想规划一些东西,前段时间勒索病毒出来以后,把区块链技术推大一个新的高度。基于PKI几乎基于第三方中心化,但是区块链是去中心化的东西,现在对它的争议,对未来第三方中心化认证冲击等等,有一些文章我也看了,但是说得已经模糊。台上有学术界,也有应用界和 金融界 的专家,想听听各位的高见。
张行:区块链这几年的确是风生水起,而且也推到了一个特别高的高度。我还是比较保守的人,现在不再提区块链去中心化这个概念了,都讲多中心化。
在区块链里,可能大家印象里分布式帐本,以及比特币对大家的影响,从我们角度来讲,觉得需要有一个区块链理念的多中心化的,能够根据不同的用户授权的共享库。但目前来看,我们和一些方面也在做一些合作,发现区块链不是能用在所有的场景,也不是灵丹妙药。好像讲区块链,就把所有的业务问题全解决掉了,不是这样的。其实它还有几个要解决的问题:
第一,性能问题。一直以来区块链的性能没有得到特别大的提高,就是实时计算,可能在某一些方面是比较合适的,但是对于交易密集型的系统,1秒钟要处理1万多笔交易的,它可能是有问题的。
第二,共识性。现在默认2/3还是51%,认为这个记录记帐是对的话,我们就认可,但是有一个前提条件,肯定有一个约定。但这个前提是我们认为好人是多的情况下,如果坏人很多的情况下,通过一些网络攻击大规模的组织控制了更多的算力,这个时候可能区块链不能够指鹿为马。
我们深信,在一些行业能够大放异彩,但不是适用于所有的行业和领域。这是我的一点陋见。
张晓东:区块链技术出来之后,一定是非常受关注,并且要跟踪研究的一件事情,因为毕竟是一个新的技术,新的技术出来,一定有其解决的核心问题和适用的场景。比如票据,特别是金融票据方面,它的流通模式和区块链相关的背书或相关下一家的确认等相关事情非常近似,这样的场景用区块链推进可能会有很好的结果。如果它解决的问题并不是您要处理的事情,建议还是要慎重考虑,如每秒钟要处理几万笔交易情况下,还是要慎重。
李新友:人工智能当年也遇到了低谷,区块链可能就是当年的人工智能,如果想搞无纸化货币的话,大家觉得纸币没什么用的时候,那肯定是区块链的作用。
主持人:这个对话环节就到这里结束,谢谢各位嘉宾精彩的分享。
感谢嘉宾们高屋建瓴的对话。
至此,我们的论坛活动已经接近尾声。最后再次感谢各位领导和嘉宾的出席,以及各位媒体朋友的支持。我宣布“人工智能与信息安全”清华前沿论坛到此圆满结束。
再次感谢大家的参与,再见!
(结束)