对话王小川:机器人学会造假了,我们怎么办?谁来训练机器人?
谈到社会对人工智能的预期时,全国政协委员、搜狗公司CEO王小川用这个玩笑来解释,人工智能技术发展的背后,离不开数据驱动。
众人一拥而上疯狂追赶人工智能热潮的现象,这两年有所降温和回落。王小川认为,很多人没看明白这项技术究竟能做什么,“我觉得可以换一个词,叫‘数据智能’,人工智能来自于数据驱动,你在数据端学到什么,就有什么样的智能。”
5月25日晚间,结束一天会议之后,王小川委员在两会驻地酒店,接受了《中国企业家》两会视频对话节目“何问西东·连线两会”的独家专访。在与《中国企业家》杂志社社长何振红对话时他表示,目前热议的产业数字化建设,一定要先解决数字化问题,再解决人工智能问题。
参加多日大会议程之后,王小川对本届会议的高效率印象深刻,同时深感到中国的企业需要在危机中寻找自己的机会。
“遇到困难的时候(反而)有利于推动事情。”王小川觉得,在一片祥和的时候,每个人都有自己的局部利益和小算盘,但当国家有重大困难的时候,大家反而更加齐心,原来的一些利益导向和壁垒,现在有机会突破。
在这次疫情中,作为新经济公司的代表,全力押注人工智能的搜狗并没有受到太多业务层面的冲击。前段时间,王小川抽空在直播平台与罗永浩合作,给自家的智能翻译产品“带货”。
对于人工智能硬件产品的未来市场走向,王小川表示,目前智能手机的销量已经处于持续降低的状态,但是IoT(物联网)联网的设备是每年翻番往上涨,“未来除了人与人打交道以外,更多是家里、办公室和工厂的设备逐步联网”。
搜狗正在将人工智能技术与医疗领域做深度结合,作为一家搜索公司,搜狗每天承接着大量的健康问询,“中国一天的医疗就诊量是2000万人次,网上搜索引擎提问的量是2亿次,大部分的用户请求都发生在搜索引擎里”,这被王小川认为是搜狗进入医疗赛道的重要优势。
同时,王小川也认为,独立的人工智能公司如果不做底层或者芯片,而仅仅是做算法,脱离对行业充分的了解,甚至不跟行业充分合作,最后很难拥有实用性产品。
在王小川看来,人工智能领域的竞争,有两个关键点:“一个是数据,如果没有数据的驱动,人工智能训练不好;第二个是得掌握行业相关领域的知识。”
以下为王小川委员参加“何问西东·连线两会”与何振红对话实录,内容有删节:
遇到困难的时候,大家反而更加齐心
今年大会周期缩短了,以前差不多两周的时间,今年是一周,会议就需要更高效,所以需要打起精神来不错过任何一个信息,要求更高。
新经济可能会比传统经济相对会好一些,互联网公司里面也分不同类型,比如像做票务的互联网公司线下也停了,是最难的一部分。做游戏的公司,反而业务就会上涨,并没有受到任何的损失。大体上我们希望政府确实能够足够了解中小企业现在的困局,大家也都看到了,已经做了很多减税降费的工作,最终力度还得持续加大的。
今年是我作为新委员第三次参加会议,和大家更熟悉了,也知道如何解读政府工作报告,如何进行小组讨论,沟通的深度比以前有提升,我认为委员之间的熟悉程度变深了。
这个代表疫情的影响非常大,让我们比较务实地处理这件事情。准确理解当前局面,有利于上下齐心解决问题,如果中间过于粉饰,会增加困难。现在是一个危机,但也是机会,使我们敢于面对之前可能没想到的困难。
遇到困难的时候有利于推动事情,在一片祥和的时候,每个人都有自己的局部利益和小算盘,当国家有重大困难的时候,大家反而更加齐心,原来的一些利益导向和壁垒,现在有机会突破。
我认为,现在是危机也是机会,而且要看到新局面。我认为,民营企业尤其是互联网相关的技术企业展现了巨大的社会责任感和活力。这种情况下,科技企业、互联网企业在中间需要扮演很好的角色帮助社会治理、转型,帮助我们提振信心。
先解决数字化问题,才能解决人工智能问题
现在人工智能越来越发达了,出现了人工智能变脸、声音合成、模仿一个特定人的肖像和声音等。在这种情况下,也给民众带来一种恐慌,担心机器人变成伪造的工具,我觉得有必要更多关注相应的政策法规,我的一个提案是关于人工智能防伪的问题,需要在规则层面、标准层面有所改进。
今年做的提案刚好赶上民法典通过,其中也提到了人工智能的使用,包括对肖像权、声音这块需要做立法,我的提案跟现在的法规也基本同步。
最早我们知道是铁公基,修机场、修公路,后来美国有一个概念,叫信息高速公路,大家传承的不是物质,而是要传信息、传数据。基础设施的铺设,2G、3G、4G每次网络技术的提升,都带来互联网的一次爆发。新基建跟5G、人工智能相关,这些都代表了我们从物质世界走向数字化时代,以前讲要致富先修路,现在修的是网络的路。
前两年大家对人工智能的想法有一些回落,没看明白它到底能干什么?我觉得我们可以换一个词,更准确的称呼可以叫“数据智能”,这个智能来自于数据驱动,你在数据端学到什么,你就有什么样的智能。
很多人畅想说,机器自己可以产生智力、产生推理、举一反三,其实机器做不到的,它能举三反一就不错了。
5G时代到来之后,将有更多产业数字化,让机器根据数据参与决策和判断,然后才有数据智能、人工智能时代出现。人工智能今天不是一个独立的新时代,而是互联网时代、数字化时代之间的升级。和美国相比,中国在信息化领域一点都不落后,随着5G的到来,有可能在硬件方面还会拉大领先优势。
传统公司现在的步子不用太大,第一步先能数字化上云,上云之后剩下就是一些重复性的工作,人的重复性劳动已经被数字化量化了。
比如,质检员有可能是当面看玻璃才知道一块屏幕到底好不好,但是数字化以后,通过传感器,这块屏幕就被数字量化了,肉眼看的已经不是这块屏幕,而是屏幕上显示的缺陷。
因此背后的一些信息已经变成数字,有机会让机器在中间产生一定的判断能力、决策能力,能把重复性劳动替代掉,一定是先解决数字化问题,再解决人工智能问题。
整个的业务流、所有的决策、协作,背后大家的沟通都不是面对面的方式或者用纸上去写,一切的信息要做决策,都依赖于数字之后,把它变成建模,变成0和1传递过来,能够看到它、分析它、做决策,这样跨组织跨公司之间带来更好地协作,随后可以让机器产生更多的决策能力。
对,一部分是刚才讲的传感器,把这个测下来,不管它的样子、温度;另一方面通过网络方式可以传到另一个地方,帮助其他的人或者机器,在里面做分析、做判断。现在是信息不全、信息不足,很难收到好的判断,未来有足够的信息帮你做决策。
作为通用硬件,像个人硬件,之前是手机,后来提到了手表,开始到了耳机并进入到眼镜,这些智能个人硬件是我们一种外挂的器官,它是你的千里眼、顺风耳,对你有更多的测量,甚至机器比你更了解你自己,这是对个人的硬件趋势。
更大范围内,手机的销量处于持续降低的状态,但是IoT联网的设备是每年翻番往上涨。未来除了人与人打交道以外,更多是家里、办公室和工厂的设备逐步联网。
工厂里的机床如果是数据驱动,就可以柔性定制产品。对于制造公司而言,以前是批量生产,一批生产多少,每个都一样。有数字化之后,信息量化很大,你知道每一个客户的需求,甚至每生产一个产品,都是根据客户需求来定制,就能使厂商离用户更近,更贴近用户需求,库存更少,所以可以在企业和用户之间建立更好的协同。
我觉得有几个事情会产生,一个是刚才讲到的工厂走向无人化;二是工厂里的设备如果出现异常,它自己会发现问题,更好地检修。
每个产品都能够根据客户的需求定制化,背后是因为信息的介入,使得信息协同能力得到很大提升,这样工厂就跟上下游、客户和维修人员之间建立了完整网络。
我们称之为工业互联网,不只是改变我们的生活,而是改变了生产的环节、商贸的环节。
已经有一些厂商在试用,我认为在接下来的5到10年会有非常高速的发展,其中一个原因是5G到来之后,设备联网的成本会变得更低。
另外,还有一件事情比较有意思,视频将会变成更主流的沟通和协作方式。在4G的时候拿手机可以看视频,5G来了之后(我预测)远程医疗和远程驾驶会有很大发展。在异地就像在眼前一样,用户能实时了解情况,去做决策。
无人驾驶的汽车,从技术领域用机器取代人还需要很长时间,但在很多领域里,没有那么大安全隐患场合,比如说矿山里,就可以远程开车,医生也可以远程做诊断,大家可以更好地跨越时间空间。
以前文本可以传来传去,以后像咱们这样的视频,或者特别需要高清度的视频都能够传递,这个事情的爆发优先于其他更深层次的5G应用。
我们公司核心是让机器产生更多的决策能力,以自然的方法跟用户沟通,因此未来用户看到的东西是两个要点:一是与机器互动的新方式,我们构成了合成角色,之前叫合成主播,能够让机器像人一样有表情,有声音,有唇形,能跟你进行互动,拟人化是一个进展;第二是分身的技术,不只是一个玩偶,我们希望它能进入到各个行业,各个职业当中,能够把知识进行建模,让机器部分学习他的能力,变成真正的分身。
前几天我们发布了AI营养师,它也能够跟你沟通,让机器对几千种食品、食材、疾病建立一个权威的知识信息库,让个人更好地调整你自己的饮食。机器可以做一些原来靠人做的重复性工作,除了营养师,还可以做AI数字家庭医生,让机器跟人互动,作为基础疾病的分诊、问诊、科普健康知识,让机器跟人进行对话,大家用视频的方式沟通。
它们现在的表情已经引入深度学习了,在图像领域已经是深度学习,但是对于医生和营养领域的专业知识,现在只能处理感知信号,认知领域还得靠符号领域,靠人工和机器的结合,帮助机器建模,才能够让机器具有简单的推理能力,有权威的知识库。在这个领域里还是靠专家系统的方式进行驱动。
它可以做决策,但是它学习的方法不是纯用数据驱动,而是需要人做很多的标注、整理,机器才能远程学习。人在里面的工作量很大,让机器具有很多领域的知识需要跟专家合作,而不是机器自己通过数据就可以学会。
AI+医疗是搜狗未来的重点
我们接下来想发力的是医疗领域,从营养师走向儿科大夫或者是家庭医生,建立自己足够的竞争力。作为搜索公司,搜狗承接了大量的健康问询,中国一天的医疗就诊量是2000万人次,网上搜索引擎提问的量是2亿次,大部分的用户请求都发生在搜索引擎里。
我们有大量的用户需求,通过专业的分析和知识库的搭建,我们有机会能够比现在三甲医院做到更大的吞吐量,服务于基层的社区医疗、农村医疗。
我们跟医院和卫健委已经有广泛的连接了,这样的工程光靠技术公司一定是不够的,一定需要有医疗专家的介入。第二,需要跟医院体系有更好的协作,毕竟最后的治疗甚至严重病的判断还得靠专业机构,所以它是一个面向基层的公共卫生层面的工作,需要跟整个医疗体系有更好的联动。
是。跟领域结合之后就能在专业领域里面把人的能力放大,使得真人能够有更高效率地工作。
大家越看越清楚两个很重要的事情,一个是数据,如果没有数据的驱动,人工智能是训练不好的。第二个是得有行业领域知识的掌握。
这种情况下,所谓独立的AI公司如果不是做底层做芯片的,而是想做算法,脱离了对行业充分的了解,甚至没有跟行业充分的合作,最后很难实用。
前几年在投资领域有很多投的AI公司就是因为它有算法,就成立一个公司,现在看来远远不够,这个公司一定要跟行业的数据和经验充分结合,有可能是特别优秀的传统公司在数字化过程中掌握人工智能技术,也可能是有行业经验的人跳出来用新方式解决行业问题。
是,非常有道理。你去的这家企业很靠谱,深刻理解了人工智能的瓶颈问题。
做搜索的时候,每天这个行业有超过2亿次的请求,我们已经拥有了最大的问询场景,to C领域,不只是一个AI公司拿着技术去找场景,而是用户已经源源不断地提出需求,希望我们能够满足得更好。
所以我们更多的是需要有不同领域支持,在我们的场景里落地,搜狗可以提供搜索引擎,往下引导用户,如果搜索引擎已经不够用,还可以下载独立的医疗APP,或者它就是一个硬件,这个硬件中有虚拟的形象。它可以跟用户更好地互动,放到他们家里去。搜狗比其他医疗公司或者互联网医疗的企业有更明确的使用场景。
我相信是这样的。未来大多数人首次去问询,或者是日常科普的情况并不是跟医院打交道,而是像我们这样了解他们需求、并且升级了专业能力、又懂得互联网产品的公司给他们提供基础服务。当他们发现这个病比较严重需要去医院的时候,我们能帮他做后面的挂号或者预约,跟三级医疗体系做更多的对接。
互联网公司会承担最基础的医疗工作,这个事情我们在疫情中也看到了,大家封闭居家的情况下,我们是按照卫健委的指南,构建了新冠肺炎自查的机器人,这种自查机器人让用户第一时间就能大体知道离新冠肺炎有多远,承担了很多方面的医疗咨询服务,这个事情在疫情期间得到了认证,未来医疗体系会借鉴和采纳互联网公司的方法跟用户进行更好的互动。
营养方面,首先我们会成为一个最大的平台,让机器解决90%的问题,剩下更高难的问题交给专家去解决。即便是合作,也是以互联网公司作为基础平台。
有几方面:第一,这是一个民众特别需要,也是巨大的市场,一个是医疗,一个是教育。今年并没有巨头出现,更多公司做医疗的时候,如果自己本身有医疗体系,但是没有用户,就要构建新产品,怎么让用户使用,压力很大,很有可能走形。所以我们的第一个优势是用户已经到搜狗搜索上来做他的健康需求。
第二,我们强调用机器的AI能力去辅助。医疗资源就是最稀缺的瓶颈,即便你把医生都拿下来也不代表能够给用户提供更大的供给。这种情况下,需要用AI做到更大的供给,通常要满足两个条件,一个是做下层市场,基层有两个意义,一个是对于医疗需求的难度是最低的,中国百万量级的村医可能只有一半有正统的医疗资格证,对于他们来讲机器的能力可能远远超过他们了。
这样的话,人群数量就会更大,不仅服务于几百万人,可能上千万、上亿人就会得到服务,AI技术能够增加供给也是我们自己的优势。
这里比较大的难题是C端用户需要对你建立信任,这件事情需要得到医疗体系的背书,工作需要做得更加权威。难点在于医疗体系今天更多的还是公务员体系,他们跟商业机构建立深度的互动还存在一些瓶颈。因此要跟医疗机构的对接会难一些。
教育行业不是我们搜狗要专注的方向,我们认为我们离医疗近很多。个人认为教育行业有几个特点:一是教育行业一定需要有真人老师的参与。小同学没有足够强的自驱力,所以要把孩子放到一个班里面去,这个时候才能形成教育的氛围,而不是一对一的方式。
这种情况下,今天比较成功的案例是双师教育,在近端是一个小班,有一个老师是助教来维持课堂秩序做简单的辅导工作。在远端会有一个顶尖的老师,他来做一些课程的讲解,所以需要一个老师带动很多个小班,配一个小老师。
除此之外,没有任何一个模式在教育里面是跑通的。至少我所了解的传统教育家认为离开人的教育是不可想象的,不是AI可以取代的事情。
企业要避免疫情过去,发现自己已经出局
对中国而言这个还很新,中国的学术跟企业有一定的脱节,中国的科学家关注的问题,对科学家的评审跟中国的经济和社会环境一体的时候,才能解开科学家目标导向的问题。
搜狗有一个比较难能可贵的优势,我们本身对技术是足够的理解,从创造技术到识别技术,搜狗大概3000人其中有70%的人是技术产品人,有大量的工程师,我们清华大学天工智能计算研究院,我本人也做联席院长,因此跟学术界有比较好的双向沟通。
当原来的公司治理里面是把搜索当成你的主航道,现在需要升级我们的目标,搜狗对AI硬件、对“数字+民生”有自己的追求,需要在这个(新的)层面从上到下,上下同域,变成从董事会到基层员工共同的认知。
今年已经开始在这方面有了很大的突破,所以人工智能不只是放在搜索或者输入法里面,而是围绕输入输出,围绕搜索领域有新的赛道的进入,才能最大化把我们的AI能力体现出来。
直播带货是一个主旋律,直播跟电商做非常紧密的结合,它不是一时的现象潮流,它会长期改变电商和我们生活的方式,是一个质的改变,而且不会回头。以后可能会有新的模式取代,但是往下是特别重大的中国创新领先的一种生活方式,互联网带来一种新的生活方式。
从搜狗而言,我们并没有计划做这块,目前离我们擅长的领域比较远。但是我自己体验了一把,当时罗永浩做直播带货,首场我们的录音笔参加了,现场我跟他同台做了对我们产品的介绍。
如果要卖货的话,未来会变成很重要的一种沟通方式。对阅读的需求会减少,以前我觉得你要没有文字阅读能力可能寸步难行,以后会变成音频和视频导向的世界。
还是要关注系统性的风险,一个大船从惊涛骇浪过来之后,每个行业都会受到足够多的牵连,互联网公司相对会好一些,但是我们特别希望中国的经济大环境能够发挥出韧性,使得这艘大船能够平稳渡过这次惊涛骇浪。
如果是疫情带来的变化的话,是一个催化剂或者是加速剂,会使一个产业模式或者形态有变化。比如说像视频会议变成大家主要的沟通方式了,游戏也好,在线教育也好,会有大量的发展,所以在加速过程中老的模式可能会被加速淘汰。
当疫情过去之后可能并不是简单的恢复,而是会发生格局性的变化,因此我们对此应该更好地甄别,对自己的模式如何创新有特别大的渴求,避免疫情过去,发现企业已经出局了。
我的工作时间很长,2000年进搜狐,做搜狗也有17年的时间,自己到今天为止更多的是有一种对团队的热爱,一种责任心在驱动我们的商业,但是我觉得需要抬起头来对新世界、对改变世界的热情进行拥抱,这件事情能够重新激发我们对世界的热爱,而不只是对公司,对人的热爱。
我相信湖畔是优秀创业者的聚集地,他们的精气神,他们对商业模式的思考,包括湖畔老师的分析代表了商学院里面最领先的一股力量。我自己上过长江的DBA(工商管理博士),上过清华的EMBA(工商管理硕士),相对来讲都是用一些更加成熟的传统方法来解读,而湖畔代表了蛮新鲜的力量。我认为,对于创业这样一个题目应该有更好的解读,或者说有一个自己的提升。