来自微软亚洲,出走海豚浏览器,核心团队二次创业阿博茨科技

亿欧网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  
来自微软亚洲,出走海豚浏览器,核心团队二次创业阿博茨科技

在金融行业,只有15%的知识是整理好的,85%的知识隐藏在公告、研报、图片、邮件中。“金融民工”在日常工作中需要花费大量时间找数据、抠数据、填数据和画图表,做这些基础性的重复工作,不但耗时,而且出错率高,还将导致企业的人力成本上升。

现实中,大部分企业还停留在将数据数字化的初始阶段,缺少挖掘数据、可供精细化运营和决策的工具,加上互联网企业的竞争与监管层的压力,让企业处于“内忧外患”的窘境。

得益于 云计算大数据物联网 、 人工智能 等信息技术的快速发展, 数据处理 技术近年来在基础理论、算法模型、创新应用、软件支持等方面不断取得突破。 亿欧金融专访北京 阿博茨 科技有限公司联合创始人兼首席产品官余宙 ,作为金融业的“变革者”,阿博茨是如何利用技术解决金融行业的痛点呢?

Al赋能,改进 金融数据 处理流程

阿博茨科技,英文名称为“Al、Big Data、Cloud”(ABC),也就是人工智能、大数据和云服务,是一家Al赋能金融业的科技公司。 致力于使用AI技术改进金融数据的产生、提取、分析、沉淀以及呈现,基于自然语言处理、机器视觉技术和知识图谱三项核心技术, 目前已拥有覆盖数据生产和流转、数据呈现和分析与决策支持全业务链条的AI产品矩阵。

余宙告诉亿欧金融,区别于替代别人实施决策的“雇佣兵”模式,阿博茨更像是“军火商”模式,为企业和专业人员提供可以适应各种环境的“武器”,起到辅助决策的作用。

那么,阿博茨如何通过自身的金融大脑,利用Al进行数据的处理,做好一个“军火商”呢?

AI的作用,在整个数据处理过程中,主要体现在以下三分层次:

第一层是认知引擎层。 从无到有,无论是人还是机器,都需要一个学习过程。

对于一些分析师,需要在长篇幅的研究报告里寻找特定数据,仅翻看理解专业内容这一过程,就需要耗费大量的时间,还不包括分析师因为疲劳而造成的低效和错误。

那么对于机器的话,是如何实现人类数据查询这个环节呢?机器首先要阅读大量的报告,不断地学习,然后才能把这些数据找到,认知层就是把所有非结构化的数据解析出来。机器相当于在做填空题,知道不同数据在什么位置。

第二层是感知层。 这是一个从有到精的过程,举个例子,认知层让机器知道水是无色、无味的液体,而感知层让机器知道水可以解渴,在口渴时会想到水。

在解析一张财务报表中,比如说里面出现了1.98,数据中间是一个“.”,这到底是属于分隔符,还属于金融单位呢?都是要结合上下文,并且具备专业的金融知识,才能把这些数据整理得更好,这就是对数据的理解,并不容易。

对于阿博茨这样的初创公司,余宙表示,AI的技术必须专注于非常垂直、非常细分的领域,才有可能做好。

第三层是可视化。 这是一个从精到美的过程,当机器找到信息,读懂信息之后,如何把这些信息通过一套能够绘图的引擎进行加工,用更美观的方式呈现给分析师,也是不可或缺的重要一步。

对于一个刚入门的新手分析师,可能对于手中的数据都不知道是什么含义,生成图表又谈何容易?

而阿博茨目前的可视化引擎经过反复的文本训练,已经学习并储存了超过3千万份金融的文档和报告,阅读了超过10亿张的金融图片和信息,几乎已经涵盖了金融数据的所有类型。

量的积累,带来的是质的改变 ,当分析师丢进去一些数据样本后,引擎可以迅速反应,输出标准化格式的表格、图纸。

三大核心技术,夯实金融领域专家地位

既作为阿博茨的核心技术,同时也是人工智能关注的三大信息类型(语音、视觉、语言)之一,自然语言文本是典型的无结构数据,由语言符号(如汉字)序列构成,作为人类使用的最庞杂的符号系统,其理解一般被认为是最难的一项。

来自微软亚洲,出走海豚浏览器,核心团队二次创业阿博茨科技

数据来源:清华大学NLP实验室刘之远团队

阿博茨通过三步,理解文档内容以及自然语言互动:

1、解析非结构化文本,提取领域知识,分析出结构化信息,相当于上图中“Part of speech”与“Named entity recognition”这两个过程;

2、汇聚多数据源非结构化信息,理解关联关系,进行结构化分,相当于上图中“Co-reference”与“Basic dependencies”这两个过程;

3、理解客户自然语言输入,识别用户意图,转换为机器搜索指令;

以上市公司的一份普通增发公告为例,通常有三四百页内容,要实现对文本的完整理解,需要建立更完备的语义结构表示空间,这种更完备的语义表示经常成为上述NLP任务进行结构预测的依据。

阿博茨的另一项核心技术是计算机视觉,是人工智能关注的三大信息类型之二。不同于人脸识别技术,自20世纪60年代开始研究,到现在其技术成熟度已经达到较高的水平;文本的形式具有多样性,内容具有天然的复杂性。

余宙也表示,专业类型文档,很难进行信息的识别和提取,工具化是非常重要的能力

在文字识别技术(OCR)的基础上,阿博茨更进一步,不仅可以从纸质文件、PDF、图片中识别图表,直接生成Excel文档,还可以通过理解图表的坐标和数值关联关系,重建Excel公式、重新绘制可编辑的图表。

在具备了自然语言理解和机器视觉两项核心技术后,阿博茨利用知识图谱对数据进行存储,将行业经验和知识沉淀,构建领域知识大脑。

核心技术的实现,背后是阿博茨强大的技术团队作支撑。

8 位高管中5 位曾在微软亚洲研究院从事操作系统底层研发工作,公司技术人员占比80%。创始人兼CEO杨永智在2010年创立基于安卓移动端的海豚浏览器,在全球成功俘获2亿多用户,2014年被搜狐畅游并购后良性退出。

卓越的技术能力,让阿博茨一举囊获2019年全球文字识别(OCR)领域最顶级赛事——国际文档分析与识别竞赛(ICDAR)多项第一,并荣获2019年五道口金融学院主办的“全球 金融科技 创业大赛10强”荣誉。截至目前,阿博茨拥有20多项全球技术专利,核心AI技术已列入中美禁运清单。

  技术能力的最终体现,便是产品。 数据处理系统的模块化,使得阿博茨拥有较强的普适性,可以随意进行拼装,适应不同的环境;并且可以快速复制,应用到不同的场景中去。

截至目前,阿博茨在金融领域成为服务专家的基础上,触角已经在不断延伸。大资管领域的券商、基金、资管,泛金融领域的银行、保险、交易所,以及大数据领域的酒店集团、地产、电力、垂直电商都是阿博茨的服务客户。

生态闭环,助力阿博茨持续拓展

在拿下港交所的过程中,阿博茨综合运用了自身的技术、产品、销售优势,形成生态闭环。

来自微软亚洲,出走海豚浏览器,核心团队二次创业阿博茨科技

在港交所全球招标,征集数据处理服务商的这场竞赛中,不乏像微软、Google、IBM这样实力强劲的国际选手参与其中。但他们大而不精,只做通用能力,针对具体的金融文档,却无从下手,是由下面具体的供应商来完成;而阿博茨已经过大量的训练和学习,能够从容应对和识别各种不同类型的文档。

在具体的合作阶段,余宙认为,“最差的生意就是只做IT的生意,不能服务业务部门,因为服务客户赚的更多。”

所以阿博茨选择与港交所的技术部门——技术创新中心进行前期的对接,最终的服务对象是港交所的业务部门——清算与投资代理人服务部门。

在具体的服务效果层面,在提取公告、处理文本信息的整个过程中,阿博茨可以极大的提高效率,降低80%以上的人工,决策时间从3-5天可以降低到2小时。

标杆式案例,也对上述生态闭环产生积极的正向作用。

未来,阿博茨将继续进行市场拓展,形成行业解决方案,并加大人才补充和研发投入。

在融资方面,自2015年成立至今,阿博茨已获得天使轮、A轮、B轮合计5亿元的融资,投资方包括源码资本、启明创投、SIG海纳亚洲等知名投资基金,技术与产品得到资本的青睐。亿欧金融通过观察发现,阿博茨的历次融资平均间隔时间一年左右。

阿博茨科技的融资信息

目前,距离上次B轮融资恰好一年,当被问及阿博茨的C轮融资进展时, 余宙表示,C轮融资准备启动,主要是为了支持拓展海外市场、扩张销售团队、进行投资并购,并且,阿博茨会与之前实施服务的提供商合作,拓展业务渠道。

君盛投资合伙人兼副总经理李昊认为,国内企业的精细化运作一定是整体的趋势。而阿博茨用科技赋能B端,与金融业深度耦合,冲着解决企业数据处理的刚需问题,使得“数据化、专业化和国产化”成为自身的标签。

瑞·达利欧在《原则》一书中表示,人应该成为机器的一部分而不是机器。随着科技的发展,人工智能技术的迭代,人类越来越多的重复性工作会被机器人替代,而作为金融业的“变革者”阿博茨,所做的也仅仅是一个开始。

编辑:梁杰民

版权声明

本文来源亿欧,经亿欧授权发布,版权归原作者所有。转载或内容合作请点击 转载说明 ,违规转载法律必究。

随意打赏

提交建议
微信扫一扫,分享给好友吧。