竞技世界首席数据科学家巴川:数据科学,未来或将成为民族核心竞争力
雷锋网 (公众号:雷锋网) AI 开发者按: 09 月 21 日,CCF TF 第 22 期「数据驱动」主题会议顺利举办。本次会议主席由竞技世界首席数据科学家巴川担任,会议特别邀请了来自学界与业界的多位大咖共同探讨数据驱动技术在生活与生产中的应用与价值。特邀嘉宾包括:清华大学计算机系教授兼软件所所长李国良、河北省大数据计算重点实验室副主任刘晶、京东数科智能城市事业部数据管理平台部负责人鲍捷、滴滴出行高级数据科学家缪莹莹以及饿了么研究员傅周宇。
大数据时代已经到来,针对当下 AI 与数据驱动的痛难点和未来发展趋势,会议细节设置部署,以及对数据驱动相关 AI 学术青年的发展方向, 雷锋网 AI 开发者独家访问了巴川主席,并在不改变原意的情况下,将采访内容整理如下。
巴川,资深数据科学家
曾就职于中国搜索、搜狐畅游等,主要从事互联网数据挖掘,现任竞技世界(北京)网络技术有限公司首席数据科学家
主要研究领域包括互联网用户行为挖掘、产品运营分析、社交网络挖掘、反作弊、风控体系、推荐系统、数据可视化等
数据、技术,谁主浮沉
AI 开发者:作为一名资深数据科学家,你认为数据的核心价值在哪里?
巴川: 现在的数据技术发展于社会的意义远远大于其商业价值。数据工作本身是在大数据中寻找数据背后的数学规律,而对数学规律的掌握将是社会变革的重要动力,它可能促进整个社会的发展;尤其在当下世界格局竞争激烈的时候,大数据的挖掘与研究将很有可能成为民族的核心竞争力。
AI 开发者: 对数据挖掘与处理的难点又主要体现在哪些方面?
巴川: 数据挖掘与处理难点主要在数据获取阶段。
一方面在于数据本身,如果你获得的数据质量较差,得到的结果也不会太好。因此数据获取的全面性和质量将对于研究结果有很大的影响。而关于用户隐私问题,则是数据获取难的另一原因。因为数据获取可能会侵犯到他人的隐私,所以在数据的使用过程中,我们需要小心谨慎的对待数据,通常我们也会进行一定的脱敏操作,尽可能在保护用户隐私和给用户提供便利之间找一个平衡点。
因此总体来讲,怎样能够既便捷又规范的获取质量较高的数据,这个是我们在数据获取中需要重点解决的难题。
AI 开发者:目前,深度学习的结果很依赖于数据,你认为可以从哪些方面实现改进与突破呢?
巴川: 通常来讲,研究人员利用数据进行深度学习的过程中主要用到了神经网络技术,而神经网络具有可验证不可解释的特点。因此,从技术角度来看,研究神经网络等相关技术的可解释性,可能会是一个很好的突破点。一旦算法可解释性变强,它对数据的依赖就会大大降低。
不过,如果想得到更好的结果,仍然需要数据的「质」和「量」进行辅助。只有数据与算法两者综合发展,才能得到更准确更完美的结果。
AI 开发者:那在你看来,技术与数据之间是一种什么样的关系?
巴川: 两者的关系总体上可以概括为「技术的发展有赖于好的数据,数据本身的获取和价值挖掘也有赖于技术的发展,两者就好比厨师与食材的关系」。当然,两者的发展都有一个共同的目的,即帮助我们改善生活和生产。
AI 开发者:数据驱动目前主要都应用在哪些方面?这些领域的发展是怎样的呢?
巴川: 数据技术与 AI 的发展,在行业里的表现基本是一个轮动的状态。例如:互联网领域现在的发展虽然可达八九十分,但它依旧在爆发式增长,其中很大原因是由于互联网产品传播效果好,所以有些应用能直击用户痒点时就会产生病毒式传播。而金融、电信、政务等行业的数据技术应用,在国家的大力推动下,发展比较稳健,仅次于互联网。至于另外一些传统行业,它们的数据尽管还没能得到很好的开发,相对于前几个行业可能有所滞后,但这也将会是未来发展的目标之一。
图 1 竞技世界首席数据科学家巴川老师 CCF TF 大会演讲现场
AI 开发者:在你所说的轮动领域里面,你比较看好哪个领域?
巴川: 目前以及未来三年内,我觉得最热的可能还是能直接刺激人们生活的领域,即与互联网相关的行业。然后可能是金融,金融科技领域这几年已经蠢蠢欲动,也许它将成为数据驱动未来的黑马之一。而对于传统行业的升级改造,有很多的前期准备工作要做,可能需要一定的时间,才能使得数据驱动技术在这些行业得到较快的发展。
AI 开发者:我们知道竞技世界在做游戏方面也非常厉害,你认为数据驱动和游戏之间的关系是怎样的呢?
巴川: 竞技世界主要是一个互联网平台,已拥有超过 5 个亿的足够大的用户量,使得跟数据相关的技术更易于推进。通过对大量数据的分析,我们可以非常直观的去解决很多问题,包括:在游戏发行阶段怎么样去获客,在运营阶段怎么样去促活以及怎么样最大化创收等。因此,数据驱动和游戏之间有着越来越紧密的联系。
洞见 AI 之未来
AI 开发者:大数据、机器学习、AI 相关的概念,近年来越来越火热,你如何看待近几年 AI 领域的快速增长?
巴川: 总体上,我把大数据、机器学习、AI 都理解为关于数据的技术。这些技术通过利用数据来模仿人类的一些行为,从而改善我们的生活和生产。
因此,所谓的爆发式增长,更多的是应用领域,这属于顺应时代发展与需求的一种现象。而究其根本,这一现象主要是得益于算力的增长,即计算机硬件的发展在 AI 技术的爆发式增长方面起着极其重要的作用。
AI 开发者:那么,你认为目前技术突破的主要难点在哪呢?
巴川: 技术的发展与算法革新有很大的关系,而技术突破的难点也主要在于算法方面。
通常,底层的算法更偏数学化,需要更严谨更强大的理论支撑进行验证说明,相对于应用方面,理论发展则非常缓慢,往往一个革命性算法的诞生,可能需要十几年,甚至几十年。
AI 开发者:面对当下大力发展应用而较少人专心投入技术研究的现状,你是怎么看待其中利弊的呢?
巴川: 总体来看,现在是一个良性的阶段。
应用的大力发展本身会带来一定的利益驱动,以及整体社会的关注度。在这样的大环境下,技术的发展自然能够得到很大推动力量,进而促使理论研究的人力投入增加,最终带动技术的发展。所以,我们也无须过分关注当下,时间或许能证明一切。
AI 开发者:目前,哪些行业在 AI 的应用中受益比较大呢?
巴川: 从企业的角度来看,劳动密集型、重复性劳动较多的企业受益会比较大,因为用机器替代人可以节省很大的劳力成本,比如:客服机器人、工业机器人等。
而从人的角度来看,受益较大的是原来从事跟数据技术相关的岗位,比如:做 AI、做大数据、做深度学习方面的人才。
AI 开发者:时下深度学习也是非常火热的领域之一,那你认为 AI 的下一波爆发高潮会是什么时候,或者在怎样的契机下产生呢?
巴川: 无论是机器学习,还是深度学习、迁移学习、强化学习等,这些名词都不是最重要的,它们只是随着各种新技术而产生的代号。因此,如果从宏观层面来谈爆发高潮的话,这些数据技术一直都处于爆发式增长的高潮之中,并且这样的状态还将持续至少 3-5 年。
AI 开发者:那你认为 AI 应用开发的未来发展趋势是怎样的呢?
巴川: 现在 AI 的应用主要集中在互联网行业,但很多传统行业,比如:矿产、化工等行业,AI 技术应用得很少。
总体来看,如果 AI 应用在互联网方面的开发能够达到八九十分,可能金融、政务能达到六十多分,而一些传统行业可能还处于三四十分甚至更低的不及格阶段。但往往新的领域,会有更强的爆发力,所以我认为 AI 未来的发展总体上会是一个版块轮动的状态。
数据科学家的神秘面纱
AI 开发者:作为本次 CCF TF 会议的召集人,整个议程的设置,包括选题、嘉宾的邀请你是出于怎样的考量呢?
巴川: 这次请的嘉宾既有学术界的大牛,也有企业界的大咖,这正和 CCF TF 的宗旨与口号——「只为技术专家」相契合。
特邀嘉宾包括学术界的清华李国良教授、河北工业大学刘静教授,企业界的滴滴、饿了么、京东知名互联网企业里的数据专家。因此,本次大会我们主要希望能够进一步促进产学融合,增加产学互动交流。
而在议题方面,我们既有「数据驱动生活」又有「数据驱动生产」主题。其中李国良教授讲的题为「AI 原生数据库」,看似跟数据驱动关系不大,但对于数据库的管理员来说,对数据库的优化也属于数据驱动的重点内容。而刘晶教授的议题是数据驱动传统行业的升级改造。滴滴、饿了么、京东的议题则是用数据驱动改善我们的生活。
总体来讲,本次会议中我们既有数据驱动生活,又有数据驱动生产,还包含了数据库系统优化,这是一场讨论较为全面的数据驱动主题大会。
图 2 CCF TF 「数据驱动」圆桌会议现场
AI 开发者:具备哪些能力的人,更有可能成为一名优秀的数据科学家?
巴川: 我一直都带着既严谨负责的态度对待数据又乐观活泼的心态去使用数据。这不仅能够保证结果的合理性和严肃性,还能帮助你获得一些非常有价值的出乎意料的结果。
同时,数学和编程都是数据科学中很重要的内容。数学基础常常能够决定你将来走多高、多远;而编程能力则能够更直接的实现创意。在很多数据技术全面开发时,通过动手能力和编程能力去实践自己的想法,尤其是快速实现自己的想法,可能会让你很大程度上受益。
AI 开发者:我们都知道,除了数据科学家的身份之外,你还是众多名校的老师,你是怎么处理这两个身份之间的关系呢?
巴川: 用四个字概括,即教学相长。
一方面,我在企业做数据科学时会积累很多项目经验,将这些经验传授给学生的过程本身就是很快乐的。而另一方面,于我而言,学生给我的启发以及眼界上的拓宽也让我受益颇丰。这既是一个教学的过程又是一个同行交流的过程,所以我可能在一个学期内,教给他们十几种算法和案例,他们则每个组反馈给我一个案例,进而增加我的案例库,在这一过程中,我也得到了很快的成长。
AI 开发者:对于 AI 开发者或者 AI 专业的学生,你有什么想要传达给他们吗?
巴川: 成功其实是必然和偶然的结合。少一点功利心,多一点童心,报着好奇的探索欲去看待这个世界,再将自己的技术运用到该用之处,你就很有可能在大数据浪潮中,翻出属于自己的浪花。有时候,尽管新潮是很大的诱惑,但是只有既保持对这个行业的严肃性,同时又保持自己的初心,才能愈发长远地发展下去。
雷锋网 AI 开发者 雷锋网
。