用AI技术提升数据处理质量和效率,爱数智慧为客户提供专业级数据服务
人工智能领域的创业者以学霸居多且少见女性,而张晴晴就在这少数人之列。
2005年张晴晴从北京邮电大学通信工程专业毕业,2005~2010年在中科院声学所做语音信号处理研究,5年时间硕博连读,之后又到法国国家实验室LIMSI-CNRS攻读,获语音信号处理博士后学位,一位不折不扣的工科女学霸。
2016年11月,从事十多年语音技术研究的她却坚定地成立了一家做数据的公司:爱数智慧,公司在今年年初还获得了明势资本数千万元的Pre-A轮融资,据悉下半年还会有新的融资计划,发展势头很强劲。
日前,猎云网记者采访到了爱数智慧创始人兼CEO张晴晴,跟她聊了聊关于创业方向选择和公司发展的一些情况。
从大学读到博士后,从实验室搞研究转到工业界商业界,在张晴晴看来,2010年似乎是个分水岭。在2010年以前,学语音技术毕业的师兄师姐出来后甚至都不好找工作,那时没有多少人去提人工智能概念,只有特别有实力的巨头,比如谷歌、微软、IBM、英特尔这类的公司有布局,更多的还是停留在实验室研究领域。彼时实验室有一套完整的语音识别的环境和系统就是最大的壁垒,中科院声学所在中国的语音行业算是一流的
数据给行业带来的变革是非常巨大的,以国内知名语音技术提供商科大讯飞为例,企业上市以后资本的力量,数据的积累,加上深度学习的发展都非常迅速,科研机构完全望尘莫及,整个语音市场和人工智能从过去科研的一件事转变为企业级的事,逐步商业化落地的趋势已成为一种时代潮流。
2010年前后,国内语音识别开始逐步被各大公司重视起来,当时张晴晴正在中科院工作,通过为百度、腾讯、阿里、360、UCweb、支付宝等各大互联网公司搭建了语音识别的baseline声学建模系统,加深了人工智能对数据依赖性的深入认识和理解。
“在两三年时间内接触到很多大企业项目之后,其实感觉的状况就是,算法基本上都是一回事儿,你怎么去调基本上就是那样子,其实最大的变化是数据,每家公司的数据不一样,处理不同数据的时候方式也不尽相同,数据处理得好对于深度学习相互补充的作用是非常明显的。从那时候开始就从做模型转到对数据这件事很感兴趣,毫不夸张地讲,我们做一个算法也许性能的提高也就是1、2个点,但是如果数据处理得好很快这1、2个点就能出来,多次迭代之后就会有十分明显的进步,所以数据处理一定程度上也是需要专业性的。”
此外,张晴晴也有一些切身的工作经历,“我之前也做算法,也购买过数据,传统的数据提供商做出来的数据交到我手上是不满意的,有些数据的处理方式和结果并不是我想要的,尴尬的点在于大家都知道数据很重要,却没有人去真的静下心来做这件事情,如果没有人去好好的做数据,那么最后谁能把性能进一步提升呢?既然这样,那就由我们来做语音行业或者数据行业的一个降维打击的专业化数据团队好了。”
关于公司的定位,张晴晴表示爱数智慧依然是一个数据提供商的角色,跟其他数据提供商最大的不同是,团队本身专业度很高,跟客户对接的时候,我们会起到帮助客户去做数据设计的作用。公司目前为智能语音、自然语言理解、智能图像等领域的客户提供一站式数据服务,包括数据方案设计、数据采集,数据标注/转写等。
根据市场的需求,爱数智慧的业务模式大致分为两种:1.数据订制服务,基于团队的专业度和客户的需求,通过自主开发的数据采集平台、数据标注平台,提升数据加工环节的质量和效率;2.自由版权数据的销售,布局智能语音、自然语言理解、智能图像三大领域;尤其在自然对话、智能家居、智能车载等垂直应用领域有优质的数据库产品,设计是通用化的,客户可以根据需求直接采购。
张晴晴认为,数据处理的核心就是两方面:一个是质量,一个是效率。每天都会有大量的数据产生,但处理效率是非常低的,用传统纯人工的方式来做数据会限制住整个系统的快速庞大或更新,这是很重要的一个问题,所以需要用更好的一些算法来提高;另外,现在做人工智能这件事是需要大量人类智力的,不可能完全排除人工,这种情况下就需要机器的方法来辅助,即使是人员增多了,对于机器来说,处理一个和处理一百万个是一模一样的动作,机器能帮助人来调整一些明显的错误,提高平台上数据制作人员的技能水平,保证数据质量,我想这是我们的一大亮点。
据了解,爱数智慧团队目前共有140余人,除了北京总部,公司在山西,四川,江苏等省份都设有数据基地,地方团队会承担数据质量把控以及精细化标注的工作,而在自主研发的数据采集平台和数据标注平台上,做底层数据处理工作的兼职人员已有上万人,类似于进化版的数据众包平台,公司目前已和腾讯、Nuance、思必驰、美的等企业建立战略合作关系。
团队核心成员方面,运营总监汪洋曾任时光网电商运营总监 、亚马逊中国高级运营经理、沃尔玛中国高级采购经理,拥有13年以上世界500强外资企业工作和管理经验。技术专家王晓飞系中国科学院声学研究所博士,约翰•霍普金斯大学博士后研究员,是语音增强、语音识别领域的专家,其他成员有来自北京科技大学、北京大学、昆明理工大学等相关专业领域的硕士,各方面数据业务都配有对口的专业人才。
“这个行业的状况通常是客户需要某些数据做到某种性能时,问谁能做到?所有的数据公司都会说我能做到,因为还没做呢,客户只能凭借一些资质宣传来选择一家公司,但做了两三个月的数据交回给客户一看,如果不符合要求是非常糟糕的!两三个月做的数据不行需要再换一个数据供应商,这个行业钱是次要的,耽误不起的是时间,重要的是这批数据是否真能帮助做出好产品来。”
“作为一个在这个行业这么多年的人来说,能做出好的数据对于算法层级的工程师帮助真的是非常大,我能体会这种感觉,我也希望我们靠专业性做出来的数据对推进整个行业发展是有帮助的。”张静静总结说。
产品:数据定制方案+数据产品
公司:北京爱数智慧科技有限公司
网址:
http://www.magicdatatech.com