2017MWC上海站前瞻 亚信数据CTO於今详解机器学习平台Aura
2017世界移动大会•上海将于6月28日-7月1日举办。一向在市场活动方面颇为低调的亚信将在本次展会上高调登场,并将展出在人工智能、物联网、大数据、亚信安全领域的最新研发成果和客户案例。
活动前夕,亚信数据CTO於今接受媒体采访,分享了亚信数据在人工智能方面的布局、产品进展以及热点话题的看法。
作为业内顶尖的大数据和人工智能领域技术专家,在加盟亚信之前,於今博士曾担任蚂蜂窝副总裁兼首席架构师、OpenX(全球第二大广告交易平台,仅次于Google,支撑日均500亿笔RTB交易规模)技术副总裁兼首席架构师、TriTech Tiburon执行技术总监等职位。在TriTech Tiburon期间,他所带领的团队负责开发公司的第二代产品线,包括核心警务系统及处理美国近30年的公安大数据,并整合社交大数据以预测未来犯罪。
於今重点分享了机器学习平台Aura及应用案例。他首先阐释了 亚信推出Aura的原因——降低人工智能的技术门槛 。一直以来,从事机器学习研究和应用往往需要计算机科学相关专业或有统计学丰富经验的中高端人才,而传统企业人才的技术背景难以匹配。 研发推出Aura平台就是为了让更多企业利用大数据和人工智能技术,享受技术所带来的业务价值提升。
依托亚信的传统优势,Aura定义为运营商级别(Carrier-grade)的平台,有如下几个方面的特点:(1) 覆盖面广 —— 服务国内大部分人口;(2) 高稳定性 —— 达到了电信级别的SLA;(3) 高效率 ,模型相应速度非常快,满足实时性需求。
从技术架构层面来看, Aura平台可以分为三大子平台 : 大数据平台 、 机器学习平台 、 数据驱动型应用平台 。其中机器学习平台是核心,它整合了业界主流的开源算法框架(例如TensorFlow、Caffe、Spark MLlib等),承担模型训练和优化的任务。在机器学习平台之上的数据驱动型应用层则实现行业数据模型的高效重用。
据於今介绍,Aura里其中一个重要特色是 “统一数据模型”(Common Data Model, CDM) 。依靠CDM,机器学习模型可以快速在企业间移植,实现企业应用机器学习技术效率的大幅提升。 Aura的机器学习平台提供两个开发工具。 其中,Aura Visual Pipeline 提供向导式和情景化的快速模型定制。经过探索和实践抽象出一系列典型的机器学习应用场景。针对每个场景,都将科学的分析建模过程形成一个向导式的流程。使用者只需要提供一些必要的信息,就可自动生成一个有效的应用模型,也使整个流程变得水到渠成。另一个工具Aura Advanced Notebook,支持多种编程语言,并基于浏览器界面操作。有助于快速调试模型。结合数据、算法,Advanced Notebook适于工程师精细的模型调整。
数据和模型之间建立反馈闭环
在於今看来, 在Aura平台架构设计上,最重要的是数据和模型之间建立了反馈闭环。 机器学习技术日趋成熟,以往项目化的应用机器学习技术,往往只关注模型交付时的效率表现。而随着时间的变化,模型的效果没有新数据的增量训练,往往会逐渐降低。这是因为数据和模型之间由于缺乏系统性和平台级的支持,没有形成反馈闭环。所以Aura机器学习平台着力于这个痛点。Aura平台上部署的模型采用自动化模型的再训练机,保证模型持续的有效性。
随后,於今还介绍了亚信Aura平台在行业方面的案例。他在 电信运营商 方面重点介绍了三个场景:将用户历史信息和深度画像结合,再与产品和服务的具体信息做精准匹配,预测客户潜在需求并展开营销动作;根据地理位置信息多维度预测用户需求;通过收集运营商或电力等大型企业设备数据信息预测维修周期,设计维修方案,节约巡检成本。
在 金融行业 场景,於今谈到了有两个主要场景,一个是实时反欺诈,一个是智能投顾。
最后,於今还详细介绍了亚信人工智能平台在 医疗医保 控费和反欺诈方面的应用案例。以咸阳为例,亚信和咸阳市政府合作,把咸阳的全量医疗数据集中在阳关医疗云中。咸阳有30多家实体医院,基 于三大类数据,比如影像数据、医疗设备IOT数据、EMR 数据,建立训练模型,可以更精准的判断医疗欺诈行为。
2017世界移动大会•上海即将开幕,期待在展区看到亚信更多的研发成果和客户案例。