冰鉴科技顾凌云:放眼中国,称得上“科技公司”的企业并不多
雷锋网 AI 开发者按: 作为技术驱动型企业,冰鉴科技致力于为金融机构提供独立第三方智能风控服务,鉴于其过往在信用评估领域的积累,今年 IJCAI 大会特别邀请了冰鉴科技CEO顾凌云在 Industry day 环节里作了题为《AI Meets Risk》的大会演讲。
在演讲开始前,雷锋网 AI 开发者有幸对CEO顾凌云进行了专访,向其请教几个开发者们最关心的问题,其中包括金融征信领域的前景、企业技术实力的评判标准、冰鉴科技的人才观等等。
以下为专访全文。
技术!技术!
AI 开发者:我们都知道,冰鉴科技是一家技术驱动型企业,作为中国金融风控领域的佼佼者之一,可以向我们介绍一下智能风控领域所涉及的技术内容吗?
顾凌云: 我这里举几个例子:
-
在训练样本有限的情况下,能不能把一个模型建好?
-
当数据已经足够多的情况下,却面临背后物理含义不清晰时,你该如何对其特征变量进行清洗?
-
当所有变量都已经出现时,你如何确保一些在传统变量选择中未被选中的弱变量,通过变量整合与特征工程,将之变成一个强变量。
-
一个单一模型一旦效果不佳,你应该如何把模型给集连起来?
-
面对大量底层数据,该如何自动筛选出模型中的变量?
-
当你处理数据变得很慢时,该如何通过提高或者改变 cost function来提升收敛速度?
-
当所有的结构化数据都处理稳妥时,该如何处理半结构化数据或非结构化数据?
-
当所有数据都处理妥当时,该如何去扩展数据的更多边界?
AI 开发者:在评价一个模型时,你们一般会使用哪些评判指标?
顾凌云: 一个建模做得好不好,是可以直接由客观标准去判别的,比如借助AUC、Gini score、Precision、Recall、KS的数字去衡量模型的最终效果。
AI 开发者:在你看来,技术与数据之间是一种什么样的关系?
顾凌云: 如果给二者之间求极限,一定是数据胜出,因为没有数据,就什么都做不了。任一行业在早期发展时,都是从数据开始发展,然后慢慢演变成数据被滥用,侵犯了用户隐私,然后监管机构开始进入,数据的开源由此受到约束。
所幸,中国开始慢慢从数据为王阶段,慢慢开始过度到技术为王阶段。这是因为数据越来越难被获得,或者说可获得的数据正在变得越来越公开化。
这就是数据和技术二者之间的关系。
信用评估领域的水多深?
AI 开发者:冰鉴科技经常强调自己的“第三方”属性,这个该如何理解?
顾凌云: 我在美国生活这么些年,逐渐晓得“征信”与“增信”其实是两码事,前者属于国家范畴,需要持有牌照且被严格监管;后者则应该以技术为主,让更多科技企业参与进来。在过去这些年,相信并没有太多企业能将两者区分清楚。数据固然好,但我希望只把它当作建模的原材料,而不是去获取、存储这些原材料。
“第三方”这三个字的定位其实是非常清晰的,所以在过去几年中,我们有三件事绝对不做:
-
买卖数据
-
碰业务端(借贷)
-
发数字货币
即使上述事情对我们来说其实游刃有余。
AI 开发者:你认为当下的中国征信领域面临着哪些转变趋势?
顾凌云: 在我看来,中国现在的这几个趋势是不会改变的:
第一、独有数据今后只有两条路,第一条由于灰色且非法,最后一定会被关停;第二条由于允许数据曝光在在阳光底下,这也意味着最后一定全部变成市场化、透明化。
第二、从借贷角度来讲,所有机构最后一定会变得两极化,一方是以流量为侧重点的借贷机构;另一方则依然以银行体系内自有资金作为优势来取得竞争优势。
第三、独立第三方技术平台会变得越来越有优势,各自的定位将变得越来越清晰——做流量的专心做流量、主攻资金成本也会变成一件极其专注的事情。
怎样才算优秀的技术企业/人才
AI 开发者:您认为优秀的技术公司应该具有哪些特点?
顾凌云: 要想判断是否是真正的技术企业,只要看这几个指标,就可以判断得出来:
-
算法是不是自己原创的?所谓原创,不是说一定要做一个跟教科书上完全不同的算法,而是能不能从底层开源开始,就自己写代码,然后可以任意调整其中的收敛函数、cost function,以及对于数据变量的处理等。
-
公司有没有足够比例的科技人员?一家说自己是高科技公司的企业,结果销售占了员工总数的80%,而研发人员只占10%,研发经费连3%都不到,那就肯定不是一家真正的技术公司。
-
能否在任一技术领域做到“常战常新”。也就是说在战斗过程中,保持对于科研第一线的敏锐触觉。今天别人正在做的事情并不重要,重要的是现在正在被研发,处于萌芽阶段的算法,你能否第一时间快速地了解,并应用到自己的工程当中。
只有满足这些条件,我才觉得这是一家真正意义上的科技公司。
放眼中国来看,称得上“科技公司”的企业其实是不多的。
AI 开发者:您认为一家技术公司有没有可能存在技术上的绝对壁垒?
顾凌云: 其实上,每隔十年,能有一个算法思路取得突破性进展,就已经相当不错了。回到征信领域,能在保证隐私获得保护、数据使用得当的前提下,在反欺诈、贷前贷中贷后的客户沉睡 & 唤醒以及在前端精准营销等几个方向上都做好,其实已经是一件相当不容易的事情。
很多人会问,既然你是一家科技公司,那有没有可能做到降维打击,仅凭一个算法就轻松击败其他企业?这是一件不可能的事情。
我一直强调,这是一个自由竞争的社会,它的流动性是很明显的。人员的流动、思想的碰撞、学术交流,最后会慢慢把你科技中的领先部分慢慢给抹平。
AI 开发者:既然您强调“常战常新”,那么在研发与产业的结合方面往往会存在一个矛盾点,你们是通过什么样的一个机制去平衡这件事情的?
顾凌云: 我们有一个AI实验室,主要起到一个承前启后的作用。我要求里面供职的必须全是博士,而且在选人过程中还有相应标准:
第一、留美毕业的博士。
第二、我们希望不要博士一毕业就直接就回到中国来,最好在美国能有一到两年的工作经验,但也不要时间过长。
第三,最好从美国有过一两年工作经验后回到中国,还能在其他家公司干过半年到一年时间,再到我们这里来。
这其实是一种理想状态,但招到的人基本上都会符合其中的几点标准。然后我们会要求他们:
第一,需要能够听懂大型顶会的内容,而且能自己发文章。
第二,对于每一场顶会中的best paper,我们会有专门的人员去对文章做出复述——我们所谓的复述,是需要对算法进行复现的,来判断在我们自己的领域中这个算法的效果。
只有把这些全部做完后,我们才会让工程团队进驻,进而判断这些算法可以被运用在在哪些场景里头。
AI 开发者:冰鉴科技目前一共有多少技术人员?
顾凌云: 我们300人不到,科技人员大概占到240-250人左右的比例。
AI 开发者:冰鉴科技目前主要缺哪一方面的人才?
顾凌云: 我们的数据科学家岗位全年都在招人,而且这个位置是不设限的。只要是对我们公司或者所处行业感兴趣的数据科学家们,我们都欢迎。尤其是对于算法相对比较了解,或者对于Python、R这些数据处理工具使用得比较熟练的。
第二是BusinessAnalyst的人才,主要涉及模型的后续的分析。比如模型出来以后,他要分析具体怎么去应用。比如我的cut-off放在什么地方?我的季节性分析应该是怎么样的?定额定价模型具体应该怎么做等等。这部分岗位对专业不做限制,我们更看重Brain power,只要你聪明,同时对于新领域能够保持足够的触觉就可以。
第三是纯粹的IT,包括对于大数据平台、Java、C、Spark等这些相对来说比较熟悉的人。
这些都是我们正在寻找的人才。
雷锋网 AI 开发者 雷锋网 (公众号:雷锋网)
。