网易易盾朱浩齐:人工智能催生第三方反垃圾市场
自AlphaGo名声大噪之后,人工智能一直是媒体所津津乐道的话题,并一度引发人们对人工智能的恐惧和担忧。在普通人看来,人工智能是如此的炫酷,科幻电影里的场面总是让人记忆犹新,那么当下现实生活中人工智能到底有着怎样的应用呢?仅仅是语音识别、人脸识别吗?日渐成熟的深度学习又将如何实现商业化?7月8日,网易易盾的产品负责人朱浩齐在面向全国百余家媒体的分享中,讲述了人工智能技术在互联网反垃圾方面的应用案例。
从图灵开始,人工智能的跨世纪探索
(本尼迪克特・康伯巴奇在《模仿游戏》里饰演图灵)
朱浩齐先是介绍了人工智能的发展历史,认为“深度学习算法”在语言理解等方面的成就,成为了对今天互联网极速、智能化反信息垃圾的技术基础。
艾伦?图灵,被公认为是人工智能的鼻祖,直到今天图灵测试仍是判断机器有无人类意识的重要标准。而人工智能这个概念,从1946年计算机发明到现在一直是人类向往的梦想之一。只不过,早期对人工智能的研究倾向于做基于规则和指令的智能,比如搜索式的推理,固定套路的词句组合回答等。结果是机器的智能无法继续提升,最多只能作为“玩具”存在,甚至让人工智能一度被称为伪科学。
朱浩齐介绍说,从诺贝尔医学奖获得者Hubel和Wiesel发现大脑识别视觉信息的秘密开始,人工智能迎来了前所未有的极速发展,并设计了被广泛使用的计算模型――人工神经网络。以深度学习算法为例,科学家发现,大脑的工作是一个不断迭代、抽象的过程,是“分层”的。所以深度学习算法的特点就是处理多层次的数据,并把这些数据抽象成数学模型,后来便有了人脸识别等一系列技术。
人类对人工智能的跨世纪探索,取得了瞩目的成就,其中深度学习算法在语言理解上已经可以实现将单词组合成句子,句子抽象出语义,语义再反映出意图等。类似的还有对图片、语音、视频等识别。
互联网信息爆发,反垃圾技术的三个进化阶段
从1978年第一封垃圾邮件开始,截止到2015年,全世界每天都有数十亿的垃圾邮件在传播。而根据《2016互联网趋势报告》显示,全球已经有30亿网民,互联网在全球的渗透率已经达到42%。也意味着,互联网对很多人来说已经是空气一般的存在,同时人们也饱受着垃圾信息的折磨。
具体来说,网络中夹杂的垃圾信息,包括各种淫秽色情、黄赌毒、低俗暴力、违禁物品、诽谤谣言,甚至反动分裂言论等等。存在的形式也比较多样,有App Store上的评论区垃圾,也有各种论坛的广告垃圾,还有诈骗短信,违禁物品,色情广告,诸如此类。而且这些垃圾信息随着互联网技术的发展也在不断演化,通过短信、电话、邮件、评论、弹窗等渗透到互联网的每一个角落。为此,包括中国在内的各国政府对于互联网上垃圾信息的容忍度也越来越低,并相继颁布了相关法律法规进行限制,比如说全国扫黄打非行动,互联网不良信息举报平台搭建,七条底线共识等。当然,这些要求也留给了互联网公司一大堆技术难题。
作为国内领先的互联网公司,网易从1997年推出邮箱产品开始,反垃圾技术就在不停的进化升级,并且成功应用到各个亿量级用户的产品线中,包括影音娱乐,游戏,社交,电商等产品线。朱浩齐称,反垃圾技术在网易已经积累了19年的实践经验,一直在背后默默的为网易产品保驾护航,而且网易反垃圾技术的发展历程大致可以分为三个阶段。
第一阶段主要是依赖关键词、黑白名单和各种过滤器技术,来做一些内容的侦测和拦截,这也是最基础的阶段。不过,受限于当时计算能力瓶颈以及算法理论的发展,第一阶段的技术只能说勉强满足使用。
第二个阶段主要基于计算机行业一些算法的更新,比如说贝叶斯过滤,一些肤色的识别,纹理的识别等等。网易在实际应用中对这些算法进行了更好的特征匹配和技术改造,达到更优的反垃圾效果。
第三个阶段可以称之为大数据和人工智能的阶段。随着人工智能算法的进步和计算机运算能力的突飞猛进,网易在反垃圾技术上利用海量大数据做用户的行为分析,进行用户画像,评估用户是一个垃圾用户还是一个正常用户。此外,还基于人工智能的图像识别技术等,更准确识别垃圾词汇、色情图片、广告图片以及一些违禁品图片等等。
人工智能+信息爆发,催生第三方反垃圾市场
据朱浩齐介绍,作为计算机技术的先驱者,国外很早就出现了第三方反垃圾业务的公司,比如mollom,主要针对评论内容进行过滤,可以对评论的内容进行打分,拥有Twitter,Sony等知名客户。不过国外的产品对于中文的支持还远远不够,中文的复杂和“博大精深”也确实给反垃圾带来了巨大的压力,好比同样的词语换个组合就会有完全不同的语义。
从另一方面来看,垃圾内容的丛生让不少互联网产品难堪其重,已然成为社交媒体上的一颗毒瘤。为此,国内出现了不少大大小小的第三方反垃圾产品,并屡屡以人工智能反垃圾作为宣传的由头。但朱浩齐却给出了不同的观点:“人工智能的技术很先进,但是想要实际使用起来,付出的代价也是相当高昂的。海量的服务器运算能力还可以用大量资金投入来搭建,理论算法的研究和海量样本的积累却不是一朝一夕可以完成的了。纵观整个互联网行业,目前也只有一些实力雄厚的互联网‘巨头’才有能力搭建相应的人工智能实验室并且提供足够多真实的训练数据来支持机器学习,不断提升人工智能的效果。”
朱浩齐表示,网易恰好是其中一家企业,并且得益于产品线类型的丰富多样,网易收集整理的数据类型和行业规范也最为丰富。“现在我们把为网易服务多年的成熟技术拿出来,打造成一个第三方云服务,为所有互联网企业,特别是对产品内容品质要求较高的企业提供一个方便、低成本的反垃圾解决方案。我们希望我们的反垃圾服务可以帮助这些互联网产品免于垃圾内容的困扰,提升产品内容质量,维护产品口碑。”
据悉,网易此前已经面向市场推出了智能反垃圾云服务“网易易盾”( http://dun.163.com ),主要提供广告过滤,智能鉴黄,暴恐识别和谣言排查等服务,可以对文本,图像,昵称,头像等进行识别分析,同时官网开放了在线体验平台,任何用户都可直观体现其反垃圾效果。
如此看来,在互联网创业火热的当下,依托于最新人工智能技术的第三方反垃圾云服务或将成为toB业务的一个新风口。