阿博茨科技余宙:创造金融数据的永动机丨CCF-GAIR 2019
雷锋网按:7月12日-7月14日,2019第四届全球人工智能与机器人峰会(CCF-GAIR 2019)于深圳正式召开。峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,深圳市人工智能与机器人研究院协办,得到了深圳市政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会,旨在打造国内人工智能领域极具实力的跨界交流合作平台。
7 月 13 日,阿博茨科技联合创始人余宙为 CCF-GAIR 2019「AI 金融专场」做了题为「AI金融大脑驱动知识处理变革」的大会报告。
余宙表示,“金融领域的知识处理”是当前金融行业面临的最大挑战之一,抠数据、找数据、填数据、画图表等粗活累活充斥着金融从业者的日常,“表哥、表妹、金融民工”的自嘲也由此而发,金融公司需要面对居高不下的人力成本和高离职率的双重困扰。
余宙认为,“人应该成为机器的一部分,而非机器”,通过阿博茨科技的AI金融大脑结合RPA技术,打造一系列超级分析师助理机器人,并运用在日常的数据处理业务中,让机器这台从不歇止的永动机,把人从繁杂重复的工作中解脱出来,从而投入到更有价值的决策工作中去,是阿博茨科技核心要做的事。
对公司而言,利用机器除了获得人力成本的下降之外,更大的收获是对公司知识的沉淀和对人员依赖的减轻,使公司能够成为“铁打的营盘,流水的兵”,让所有的用户和员工都来训练同一台超级大脑。
以下为余宙的现场演讲内容和会后采访,雷锋网作了不改变原意的编辑:
大家好,我的名字非常好记,就叫余宙。很多人说我的英文名字是不是就起Universe好了。我们公司的名字更好记,大家先看中文名叫阿博茨科技,可能有90%以上的人听到这个名字的时候会想“阿博茨”几个字到底怎么写?是什么意思?其实我们看一下英文就非常容易懂了,ABC。这是一个特别容易测出年龄的问题,一般之前都学过汉语拼音,把ABC用汉语拼音来读一遍,就是“阿博茨”的发音。
从技术角度讲很容易想到,ABC中的ABC分别代表了AI、Big data、Cloud,也就是人工智能、大数据和云服务。于是我们就起了一个非常接地气的名字就叫阿博茨。
此外,因为谷歌的上市公司叫Alphabet,是一个字母表公司,我们也对标了这样一个目标,就起了一个非常中国化的阿博茨科技。
用机器人解放“表哥表妹”
阿博茨主要做什么事情呢?我们主要是为金融行业提供四类机器人:第一类是抠数据,第二类是找数据,第三类是填数据,第四类是画图表。
刚开始接触金融行业的时候,都说金融是一个知识沉淀和经验非常多的行业。去年我去瑞士银行的时候,出来了一位头发花白的客户经理,说这是我们的资深客户经理,沉淀了30年的经验,要培养这样一位经验丰富的客户经理,能够回答出来你的任何问题,是需要非常大的代价的。那么我们就想,这些知识和经验要如何传承,如何被记录。
谷歌之前收购过一家公司叫Free base,他们存储了这个世界上庞大的知识库,里面有19亿条人类的知识,但这里面仅覆盖了不到全球知识的1%。我们现在面临的最大挑战和问题,就是人类和机器如何进行沟通。
提到金融,也有一个非常有意思的话题,去年年底很多人在考CFA,非常着急,一定要在2019年之前过,因为从2019年开始的CFA考试要考编程语言了。
打个比方,上个世纪以前学习一门外语是掌握如何和世界上不同的人进行沟通,但在如今的AI时代,掌握一门机器语言是一种最好的和未来世界进行沟通的方式。
那现在我们面临的最大挑战是什么?就是大量非结构化知识如何处理的问题。人类现在产生了大量非结构化的知识,比如说我现在站在台上的一段演讲,比如一段视频、一份新闻稿、一份文件。金融行业经常碰到的是研报、公告、新闻资讯、图片、电子邮件,每天大家都被这些非结构化的信息给充斥着。
(金融行业知识的构成)
为什么我们有这个idea呢?几年前我们在做投资的过程中,遇到越来越多金融圈子的人,他们常会说如果你们是码农,我们就是金融民工,因为每天都在干着抠数据、找数据、填数据和画图表的事情,这个行业里对这些人也有一个昵称就叫做“表哥、表妹”。
实际上,大家在处理这些事情的时候,非常费时耗力,而且出错率高,业务也重复。根据之前的一项全球统计,有35%的公司倒闭是因为人力成本过高,人力成本可能是压倒这家公司的最后一根稻草。
随着现在的年轻人不断开始走向更重要的工作岗位,我们也听到很多老板在抱怨,说现在的90后甚至是00后,大家都非常喜欢创新型的工作,讨厌枯燥乏味的工作,每天让他干着“表哥、表妹”的活,离职率非常高,结果好不容易培训了一群人,刚掌握了公司的数据结构和信息之后,就离职了。
上次我们就碰到一个首席经济学家,他有一个培养了三年的分析师助理要离职了,要去寻找人生新的意义。他的工作每天就是从各种金融终端里面去抠数据,做图表。这样的工作非常枯燥乏味,对于人本身的成长来说,老一代的金融分析师可能会说这是一个培养数据感的过程,就是如何对这些数据更加的熟悉。但对新一代的人来说就比较重复了。
(处理数据 or 浪费生命?)
对机构来说,去年有一本书非常流行,就是瑞·达利欧写的《原则》,里面有个核心观点对我来说非常有价值,他说:人应该成为机器的一部分而不是机器。因为人是有感情、有情绪的,会累,不能24小时工作,所以,我会考虑我应该如何做一个系统,让人成为机器的一部分。
刚才提到了重复的工作量,在日常工作中,相信这些工作是大家非常熟悉的金融行业中的一些事情。这里的什么事情需要人来干呢?数据挖掘、采集、处理等会充斥在“表哥、表妹”的日常工作中。
因此我们做的事情,就是通过ABC的金融大脑,把自然语言处理、机器视觉技术以及机器学习、深度学习技术,运用在日常的数据处理工作中。就像一条生产线,把原始的材料丢进去,最后能够有一道精美的菜肴被做出来。金融分析师就像一位厨师,要有人帮他买菜、洗菜,切菜、准备佐料,而这些工作都可以用机器人来替代。
AI三层次成就超级分析师助理
(ABC金融大脑三层成就超级分析师助理)
那么AI分成几个不同的层次呢?我认为有以下几层:
第一层是认知引擎层,就是第一步打开了人和机器世界沟通的环节,如何让机器能够读懂一张图、一张报表、一份文件呢?首先是让机器人具备一只眼睛。
传统的人机交互方式,首先是让人学会编程语言,让所有的数据被处理成结构化。不知道现场有没有数据分析师或数据科学家,我们也会大量地处理数据库里的结构,在很多应用场景里,有一些分析师要找研究报告里面的图表,有几十页甚至上百页。
比如说我想知道前一阵子海底捞刚上市,海底捞的门店数量有多少?如果要搜这个数据,最理想的是丢给你的实习生做,让实习生在众多海量的报告里把这个东西找到,帮你提交出来。
这时候如果用机器的话,机器首先要阅读这些大量的报告,然后才能把这些数据找到。认知层就是把所有非结构化的数据,包括公告、研报、新闻、图片、视频和语音都可以解析出来。
第二层是感知层。它和认知层最大的不同是什么?打个比方,比如说看到街上有一个红绿灯,知道红灯停、绿灯行,或者红色代表的是警示、注意、慌张,绿色代表的是平和,这些都是感知层做的事情。认知层上,机器只能识别是红色还是绿色,RGP值是多少,是不带有任何情感的。
那么在传统的识别层面上,比如说我们解析一张财务报表,或者是解析一段文字,比如说里面出现了2.339,中间是一个逗号,百万美元。中间的逗号到底是属于单位的分隔符,还属于金融单位呢?这些都是需要结合上下文,有专业的金融知识,才能把这些数据和信息结构整理得更好,这就是对内容和数据的理解。
所以我们说AI的技术必须放在非常垂直、非常细分的领域,才有可能做好。像谷歌那样,把人类所有的事情都干了,那是好事情,但不是创业公司的菜,也不是小公司能做的事儿,我们就要选择一个非常垂直、细分的市场。
另外一个案例是,可能很多人都在用iphone,号称有最强的语音助理,但是我们也经常发现它很蠢,因为有时候导航还不如国内的百度和高德,就是因为百度和高德在导航这个上面累计了大量的训练样本,所以它的感知层就会做得更好。
第三层是可视化。当机器读懂信息之后,如何把这些信息回馈给人类的分析师,就要有一套自觉的能够绘图、会标的引擎。假设我是一个刚入行的分析师,你丢几个数据给我让我生成一个图表,我就是什么都不知道,唯一能够做的就是读那些老司机的报告。
目前ABC的引擎已经学习了超过3千万份金融的文档和报告,阅读了超过10亿张的金融图片和信息,当你扔过来一些数据之后,可以自动的把表格、图纸绘制出来,这就是金融大脑。
对于所有人来说,这个机器人就像是一个超级实习生或是超级分析师助理。AI的这几层,可以极大帮助分析师解决对于公开市场上的数据进行获取,同时如果在进行私有化部署之后,还能够大量挖掘自己家里的海量数据。
经常说很多金融机构是坐在金矿上,但由于这些数据都是隐藏在各种文件中的,被沉淀在金矿里,默默无闻地躺在那里,只有人肉挖掘机挖掘,但现在我们就可以用机器人去做了。通过自然语言的检索和语义的分析,可以实现一些简单的问答,最终能够把这些数据进行可视化。
创造金融数据的永动机
最近在整个金融行业,尤其是全球的技术行业,RPA机器人特别炙手可热。我们有的金融大脑,结合RPA的技术,是一种自然而然的延伸,从大脑到手脚的延伸,做到“知行合一”。
RPA和前面的绘图、找数据的机器人有什么最大的不同?答案是:它的流程性比前面的更强。我们经常说RPA解决两个问题,就是在流程上的断点和阻塞点。什么是断点?我们试图做一个永动机,或者是一个全自动化的流程,让这个事情从输入到输出能够完整的经历过去,但现在发现中间存在很多的断点。
举个例子,比如说银行做信贷,收集上来的大量的纸质的扫描信息,现在是不是可以全自动化的录入到风控系统中去?在没有金融大脑之前,传统的RPA机器人需要人作为预处理的输入终端,由人手抄的方式把信息,或者是通过OCR的方式输入进去,但是机器人不能识别和理解里面的内容,导致大量的RPA机器人在复杂的工作中会失效。
(传统RPA和AI时代的RPA的区别)
在终端层,比如说现在的传统机器人,可以支持一些网页、windows的程序或者其他的程序,做过程序开发的人就知道,可以在HTMA里面找各种各样的标记,但是在这个过程中,如果你碰到一些本地的客户端的程序员,他是自己绘制的界面,可能是通过坐标和点击区域进行的描绘,可能对机器来说这个界面就是瞎的。
最锉的RPA机器人是什么样的呢?每填一个格子点一下,就是把表单完成填写。演示的时候,就是QQ弹出一个消息,再往下点就是各种花边新闻,整个流程就被中断掉了。
如果是不带视觉、不带AI的传统RPA机器人,很容易在各种事物的处理流程中,像一个机械臂没有眼睛一样,被当前的流程所困惑。
而新一代的RPA通过人工智能够给RPA附上眼睛、大脑,能够读懂非结构化的文本、应用程序,同时进行相应的决策。这样的RPA就能够解决传统的只是模拟手脚操作的过程,进化到能够模拟一些初级员工在工作中的重复性劳动。
(Everdroid - 认知RPA机器人)
我们的RPA机器人叫做Everdroid,Ever是永远的意思,代表着永不停歇,可以7×24小时为大家提供服务和工作,从成本和代价来说,至少是普通人工的3倍提升,成本上的降低就更多一些。
所以能够使得赋能的RPA机器人有感知、认知和相应的训练出来的职业技能。当他所处的工作和流程越垂直、越细分的时候,就越能够发挥机器学习的优势,成为一个老司机。
对很多的机构来说,最大的收获不仅是人力成本上的减少,更多的是对公司知识的沉淀,对人员依赖的减轻,使得机构成为“铁打的营盘,流水的兵”,让所有的用户、所有的员工来训练一台超级大脑。
当然这个对很多员工来说听起来是一件很悲哀的事情,但是对未来市场的成长来说,就是需要机构赋能这些用户,谁家在这场军备竞赛中储备了更强的武器,反而能够吸引到更多的优质人才。也使得工作者能够从事一些更有价值的工作,而不是每天在重复性的劳动中度过。
对于机器人来说,可以适用的场景包括券商、银行、财务以及各种各样的其他金融场景,在金融行业,甚至是一些跳出金融行业的跟数字、报表打交道的行业,机器人都是有使用场景的。这让阿博茨的RPA从金融行业得以拓展到诸如财务等更多的领域,可以覆盖更多的企业类型。
(Everdroid覆盖的场景)
另外,ABC的RPA与一般公司的区别是,我们建设了一个RPA开放平台。一部分开放是将ABC金融大脑和RPA技术开放出来,让外部的开发者通过简单的模型配置,就可以创建一个流程机器人,为企业自动化创造一个独有的解决方案,为此我们创建了一个开发者社区,网址是www.everdroid.cn ,欢迎开发者的加入。
另外一部分开放,是面向渠道合作伙伴的开放,让他们可以利用我们的技术,向企业提供服务,以联合的方式完成项目实施,共同推进中国RPA领域的发展。
我们的上一家公司是做手机浏览器的,叫海豚浏览器,在全球获得了2亿多用户,那时候主要的市场在海外,公司有很强的海外市场的拓展基因。我们现在也同样有着全球化拓张的意识,不仅服务于中国市场的金融机构和大型企业,同时也在不断开拓海外市场,并且已经和许多国际大型金融机构取得了合作。
好,今天给大家介绍的就是这么多,希望记住我们非常简单的名字,ABC,也一个非常有中国特色和接地气的ABC(阿博茨),谢谢。
以下为演讲嘉宾余宙的部分采访实录:
问:阿博茨是一家2B的金融科技公司吗?
余宙:
我们不是完全的2B,同时也没有做2C,所以我们更喜欢把我们的服务方式称之为2P(Professional),即服务于专业人员。我们的定位是用机器把人从金融行业海量数据处理的粗活累活中解放出来。目前在金融行业,人工智能还取代不了分析师,我们只能为这些分析师的决策提供辅助依据,相当于做分析师的助理。区别于帮别人投钱的雇佣兵模式,我们不是雇佣兵而是军火商,就像当年西部大淘金,我们就是卖水卖铁锹的。
问:目前业内在语义识别方面的主要挑战是什么?
余宙:
最大的挑战是标记样本太少。语义识别不像人脸识别,人脸识别在样本标记方面非常简单,哪里是鼻子、眼睛一目了然,但如果是对语言文字的标记则会很难,你必须要对这些专业知识有理解,像金融行业的这些标记,你只能找非常专业的人去标它,成本也很高。针对这一块,一方面,基础的公开的数据我们会有人标记;另一方面,一些一级市场的非公开的数据,我会提供工具让客户自己去做一些相应的标记,因此我们的一个理念是让使用的过程变成一个标记的过程。
问:现阶段做金融行业知识处理的关键壁垒是什么?
余宙:
现阶段唯一能成为一家公司壁垒的,既不是技术也不是钱,而是时间和经验。做金融行业的知识处理,最重要的是你所累积的处理材料的经验,比如说股票、债券、基金、银行、券商等不同类型的数据。然后通过技术带来时间上的先发和领先优势,同时加上你的市场拓展能力强,能拿到客户,然后就会有客户给你提供训练样本和反馈,反过来给你的技术带来更大的提升。
拿一个具体的应用场景举例,如在金融投研领域里,阿博茨现在给客户提供的服务的准确率最高已超过95%,这样就使得我们不用去PK那些大公司的通用性产品。
此外,产品化能力也非常重要,做2P的业务你就需要了解这些专业人士的需求,你要去快速学习他们的使用场景,为此我还曾去基金公司实习了两周,去扣数据当“表哥”。
问:目前金融行业知识处理这一细分领域的发展在国内外有哪些主要差异?
余宙:不同于国内有金融公司自研和技术公司创业两种趋势,国外更多的是金融行业自研,市面上很少有第三方公开的产品去服务不同的客户,大部分都是金融机构花很大的代价,雇很多技术人在内部自研。自研的优势是研发出的系统对自身业务的针对性更强,不过也难以对外应用。短中期看,国内外的这种差异还会继续存在。
问:当初为什么会选择在金融领域里创业?
余宙:当时第一家公司(海豚浏览器)卖掉之后,我们做过一段时间投资,但坦率来讲我们不是好的投资人,不是那种很佛系的,我们有那种年轻技痒“看别人干不如自己干”的冲劲儿,并且我们是第二次创业,在心态上经得起诱惑,不只是想活下来,我们希望这家公司未来能够是可持续的,可以去敲个钟,从经营业务上也希望有稳定的持续的业务发展。
投资的时候我们看过很多行业,遇到了很多金融行业朋友,他们开自己玩笑说是金融民工,问我们能不能做一些机器人来代替他们的一些重复性劳动,我们就开始考虑起来了。
经过一番调查我们发现,AI真正能发挥特色优势的场景必须满足几个点:一是你要有足够多的数据,尤其是公开可得的数据;二是推崇效率至上的行业;三是时间很值钱,愿意花钱来节省时间。而金融行业恰好满足这三点,因此我们认为AI应用在金融行业目前应该是最成熟的。
问:您怎么看待AI金融的成熟度?结合如今的创业环境呢?
余宙:如果用Gartner技术成熟度曲线来讲,AI金融在去年处于最高峰(过高期望值的峰值),那个时候大家觉得AI无所不能,接下来产生了一定的恐慌,有些金融机构的人员觉得是在抢他们的饭碗,哪怕是脏活累活的饭碗,并且随着一些不那么成熟或必要的AI金融应用场景去泡沫化之后,到今年行业开始回归理性,开始理性地找那些真正能落地的场景。我认为如果说AI安防、AI客服已经走上了正轨,那金融行业可能还属于一个不断试错但开始了理性发展的过程。
我们第二次创业(2016年)时就发现,已经和2010年时候的创业环境很不一样了,你现在看到的绝大部分知名独角兽,都是创二代,甚至有的已经是做了五六家公司了。像以前那种刚从公司离职出来三五个人攒个团队就创立公司、把公司做大的案例,近两年已经很少见了,现在白户创业越来越难,比较容易成功的都是之前做过的,要么很有经验,要么就是资本运作能力特别强。
雷锋网雷锋网
(公众号:雷锋网)
。