它是大数据新三板第一股,见证着大数据落地中国的6年 从萌芽期到寒冬
说到数据,大家并不陌生,从分类方式上,可以分为结构化数据(图表数据为主)和非结构化数据(视频、语音数据为主)。按数据占比情况划分,非结构化数据占比80%,而结构化数据仅占20%,过去的数据分析主要是基于结构化数据做应用和优化,但是80%的非结构化数据被闲置,基于 人工智能 技术的蓬勃发展,非结构化数据的价值挖掘开始成为热点, 数据堂 的发展背景大抵如此。
数据堂主要业务是提供数据采集、制作、共享和增值服务的数据资源运营商。上游对接数据拥有者,下游对接数据使用者。数据堂并不是从事具体的行业应用开发,因此在C端的认知度并不高,但是对于B端数据应用类型的企业而言,是非常熟悉的。提供类似服务的公司还包括 海天瑞声 和 标贝科技 ,这三家公司的业务类型各有差异。
成立于2011年的数据堂, 齐红威 认为自己见证了中国 大数据 行业的诞生与发展,2011年从业者开始炒作大数据概念,2012-2013年找业务方向。2014年创立公司,2015-2016年出规模,大数据中国落地的前6年大概如此。
然而先到者有福利, 齐红威在融资路上一直走得比较顺 ,创业初期自有资金探索模式,2014年初,数据堂拿到田溯宁云基地和国泰创投1300万元的pre-a轮融资,2014年底挂牌 新三板 ,成为大数据行业第一股,2015年5月完成由 达晨创投 领投的A轮融资4200万元,最近的一轮融资是2016年获得2.4亿元人民币B轮融资,由中航信托、海通证券、东方证券、浙商资管、青岛华通、安徽国富共同出资。
人工智能对数据有强依赖性,数据堂强势布局
数据堂的模式好比石油领域的中石油和中石化。 三段论:第一阶段获取原油,第二阶段将原油做深度的加工,提炼成品标准油产品,第三阶段面向加油站或者特殊行业提供标准油产品。数据领域同比也差不多,第一阶段给有数据的单位做深度合作,获取数据的使用权,第二阶段,将数据分析、处理、融合,做成标准的数据产品,第三阶段,将标准的数据产品卖给具体的行业应用企业。
数据堂营收分数据租赁和数据交易两种模式,对于中小型客户,他们希望低成本地训练算法模型,数据集对于模型训练只需要用一次,数据集本身价格贵,因此可以租赁使用的模式。客户将算法模型部署在数据堂的服务器上,数据堂提供数据集给予模型做单次训练,训练结束之后,客户带走模型,留下数据集,这相当于客户租赁了数据集的单次服务。另一种模式,对于大企业而言,他们有充足的资金,愿意购买数据集,那就直接售卖数据集。
同理,政府、电信运营商等单位数据,客户发出需求,数据堂将算法模型部署在数据提供商服务器中,最后只能取走算法模型,数据不能带出门,另一个考虑,数据量很大,储存成本不小,所以齐红威更愿意将模型部署到数据提供商的服务器中。 “这是行业目前最有默契的合作模式,各取所得”,齐红威暗示。
数据堂最大的收入来自于人工智能行业,最大的客户也来自于人工智能行业,齐红威认为,现在人工智能行业对数据的需求远没到饱和的状态,以人脸识别公司为例,人工智能在每个百分点精度提高都离不开海量的数据集训练,而且很多人工智能企业有海外拓张的需求,而国内的人脸数据集就不能满足海外算法产品模型的需求,需要根据当地的人脸数据集重新对模型进行训练,因此,人工智能对数据的依赖是很大的。
齐红威认为,人工智能比电商、搜索引擎、大数据这几波的商业空间都要大,因为它是无孔不入的,能够进入到任何一个领域和行业进行 产业升级 和结构化调整,这么大的商业空间,而人工智能才刚刚开始。
齐红威的战略是“广积粮、筑高墙、缓称王”
区别于海天瑞声简单的数据服务(采集、清洗、标注),数据堂特征是做行业化细分数据产品,以 无人驾驶 为例,无人驾驶行业需要的数据是多样的,包括路况数据、地图数据、指示牌数据、红绿灯数据等,数据堂能根据行业特征,系统性、多维度地收集数据,满足行业化需求。
数据堂通过行业型的数据产品方案,让数据能够定制化的贯穿一个领域,当领域做透之后,这个数据就具备重复使用、规模化的能力,齐红威认为“ 向前多走了一步 ”,只有行业化的数据产品才能产生更大的附加价值,才能提升营收规模和利润率。但同时意味着需要多维度的数据、庞大的存储基础、丰厚的流动资金,做数据产品的特征明显,前期投入大,后期投入少,营收规模则相反,前期营收少,后期营收多的交叉型商业模型。
这种商业模式的创业风口,齐红威认为“ 已经没新机会了 ”,也正是由于数据堂做得比较早(成立于2011年),并且成为新三板大数据交易与服务产品第一股,才有机会在屡次资本寒冬中持续融资,三次融资下来,积累发展资本将近3亿元。
齐红威很喜欢上述的gartner曲线,并且对大数据行业进行代入分析,他总结:2011年是萌芽期,历经2012、2013、2014年的爬坡发展,到2016年进入行业狂热期,在2017年进入到下滑通道,将有大量的、产生不出实际价值的企业死掉,谁能熬过幻想破灭期,谁才能真正的活下来。在2017年的时间节点,齐红威的战略是“ 广积粮、筑高墙、缓称王 ”。
应用人工智能技术,数据标注和加工从劳动密集型到技术导向型
自2011年成立至今,数据堂通过自行采集和购买的形式,已经积累自有数据规模超过2000TB,而其中人工智能的数据占据大半。在数据堂库存中的数据是结果型的优质数据(被训练好的算法模型或者已经做好标注的数据集),而不是原始数据。
齐红威将数据堂定位是科技型公司,希望将公司轻盈化,很多劳动密集型的工作,他都以众包的形式对外输出,数据堂聚集了50万有线下数据采集能力的兼职人员,他简称为“众客”,这50万的众客身份各异,有学生、家庭主妇、专业发音人等,数据堂通过一个APP实现派单和项目跟进管理事项,让任务通过众包的形式得以完成。
现实生活中的80%数据是非结构化数据(图片、视频、语音),这种数据在使用之前,必须从非结构化数据变成结构化数据,而个中技术就是人工智能的技术。数据清洗、标注、加工等原本是劳动密集型工作,在数据堂将成为一个技术导向型的工作。
以数据标注为例,数据堂做数据标注是半自动化的流程,假设有100万张人脸图片需要打标注点,首先以人工形式标注10万张,然后用10万张图片去训练一个打标注点 机器人 ,让这个机器人拥有标注的能力,最后让众客基于机器标注的图片再进一步检查即可,整个过程减少了大量的人工标注的工作,解放了大量的劳动力。
数据堂的资本布局
在2016年,数据堂在贵阳设立了子公司,在此之前已经在中美两地建有4家全资子公司,并在北京、南京等地设有5个专业数据处理中心。而这次在贵阳设立子公司,主要是看到政府逐渐在开放数据资源,因此希望在贵阳提前布局。
在资本布局上,2016年数据堂和将门创投共同发起设立大数据产业战略投资基金,数据堂作为LP出资3000万人民币,将对大数据产业链上下游相关业务公司进行战略投资,齐红威想构建一个健康的大数据生态,在2016年投资食药网就是很好的开局。
在采访的最后,齐红威总结像数据堂这种数据资源提供商,对数据的提炼程度、对数据的挖掘能力是企业核心竞争力,随着客户的行业化越来越深入,对数据要求越来越高,很考验数据资源提供商的数据处理分析能力,因此,数据堂是一个技术导向型的产品公司。
本文作者极客王子,亿欧专栏作者;微信:liangjiemin-2016(添加时请注明“姓名-公司-职务”方便备注);转载请注明作者姓名和“来源:亿欧”;文章内容系作者个人观点,不代表亿欧对观点赞同或支持。