达观数据陈运文:大数据正在改变你对世界认知

亿欧网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  
达观数据陈运文:大数据正在改变你对世界认知

走进上海 达观数据 公司,你可以看到每个办公室的名字都有特色,比如CEO办公室名字叫最大熵,CTO叫神经网络,销售总监叫贝叶斯网络。百度出身的达观数据创始人陈运文毫不掩饰自己对技术的追求,“ 大数据 正在融入我们的工作和生活中,数据挖掘和 深度学习 正改变我们对世界的认知,今后你所看到、所听到的都是数据优化过的结果 。”

未来世界将不再是原本的样子,这听起来有些惊悚,陈运文解释这是一个利用数据更懂你的过程。比如你在亚马逊购买一件衬衫,亚马逊搜索系统会根据你的年龄、对品牌喜好等维度推荐结果,而不是正常搜索结果排列。“ 亚马逊超过30%的购买收入由个性化推荐系统所贡献,背后大数据功不可没。 未来不但在购物,大数据也将在文字喜好、视频推荐等方面的影响越来越大。”

做文本挖掘领域To B的今日头条

达观数据所做的事,用一个词概括就是“文本挖掘”。文本挖掘在很多方面可实际应用,比如对每年的高分作文进行分析,得出如何写高分作文的“秘诀”。达观数据总结出了“正-反-合”典型辩证法,欲扬先抑的“重叠式”等多种高分作文写法,并总结出不同命题作文中的关键词,这样一篇高分作文的骨架基本搭建完毕。陈运文用高考作文的直观案例,直观解释文本挖掘可以产生的价值。

其实陈运文认知到文本挖掘的价值,是在其创业前的职场经历中。陈运文是复旦大学计算机博士,曾担任盛大文学首席数据官,腾讯文学高级总监、数据中心负责人,百度核心技术研发工程师。陈运文回忆在盛大时期,一开始文字录入和图书推荐都是手工完成,后来随着数据量暴增,每天处理数据超过1亿字,开始使用数据机器清洗、审核、分类各类文本,通过文本挖掘技术提升人工效率。

目前市值数十亿美元的今日头条已经基本没有人工编辑,正是基于其文本分析技术优势(当然用户行为分析也是今日头条的优势)。不同于今日头条的To C, 陈运文当时看到To B领域的文本挖掘还不成熟,他认为在此技术基础上打造垂直 搜索引擎 、个性化推荐引擎等工具,提供给企业将是很有前途的事情。

算法是企业发展立命之本

很多企业都有大量文本资料,比如科技媒体的CMS()(Content Management System)系统,传统企业的ERP(Enterprise Resource Planning)、制造行业的MIS(Management Information System)。“中国企业已经认识到数据重要性,越来越多的企业将信息化纳入议程。很多企业的内部数据也很丰富,但没有很好的方法挖掘,可谓守着金山要饭。”陈运文希望自己不断推进达观数据的算法演进,将企业内部数据发挥出最大价值。

在企业内部的搜索、推荐引擎中,系统会通过复杂算法生成一个最终的结果列表,如何让用户对这个排序列表满意是关键。达观数据在引擎架构研发实践中,大量使用到了点击模型,集成贝叶斯模型(DBN)、CCM模型等深度学习模型,通过与用户的隐性交互,提升算法效果。

达观数据另一项在成熟技术基础上创新的是NER(Named Entity Recognition,命名实体识别),又称专名识别。NER系统就是从非结构化的文本中抽取出人名、地名等实体,形成结构化数据以提升科技企业文档管理。达观数据开发了基于CRF模型的中文NER系统,对新兴技术进行研究集成。同时,针对不同行业及任务积累文本语料,并不断的使用新数据对语料模型进行升级更新。

除了对原有技术升级,达观数据还开发出双层叠加等独创算法。到目前为止,达观数据在算法方面已经申请了23项国家发明专利,再加上不断参加创青春中国互联网大赛、ACM KDD-Cup等国内外大赛并获得奖杯。出色表现也让他们获得了不少资本认可。

在成立一年( 2016 年)之际,达观数据获得真格基金领投的千万级天使投资。2017年4月中旬,达观数据又宣布完成软银赛富领投,方广资本跟投的5000万元A轮融资。

经受住科技、电商等行业考验

达观数据利用数据挖掘技术捕捉全网信息,基于文本语义理解,用户画像分析产品,捕捉网站流量走势、用户行为及产品销量预测。

“我们的文本挖掘业务在上百家大型企业落地,很多一流的科技媒体也应用了我们的服务,从而可以自动分类、自动识别、自动审核文本内容,减轻企业的人力负担。”

陈运文举例达其产品在华为公司的具体应用。华为企业内部积累了大量的资料,比如说招投标的文档和培训知识库,他们需要一套内部资料搜索系统。打造这套系统的难点在于长文本的语义理解,比如说一个招标文档书,每一段落想表达的是什么意思。陈运文介绍,只有真正理解这些文本的语义,这套垂直搜索系统才能准确找出想要的内容。达观数据算法模型中包含的NER系统,在解决这类问题中发挥了重要作用。

达观数据另一家典型客户丰趣海淘,是顺丰旗下唯一自营的跨境电商平台。在使用达观数据的垂直搜索引擎过程中发现,丰趣海淘用户的购买关注点,是更关注产品的价格,其次才是销量,那么网站的运营人员就可以配合营销手段适当调节产品的价格,然后以此提高客户留存和购买转化率。

目前达观数据已经在科技、金融、视频、媒体行业推出解决方案,陈 运文介绍使用其产品后,企业平均日活增加30%,搜索效果提升2倍,点击率提升300%,客户收入提升27%,用户停留时长增加50%。

而对于未来,陈运文相信海量数据存储、数据挖掘、图像视频智能分析,正成为大数据重要组成部分。达观数据会在这几方面努力,最终希望成为更懂数据含义的公司。比如帮助媒体行业脱离时间排序,达到根据每个人的兴趣推荐;而在资料读取方面,会加强语料训练,让达观数据的产品适应更多垂直行业。

本文作者杨晓鹤,亿欧专栏作者;微信:xhyshow(添加时请注明“姓名-公司-职务”方便备注);转载请注明作者姓名和“来源:亿欧”;文章内容系作者个人观点,不代表亿欧对观点赞同或支持。

随意打赏

达观数据 融资大数据改变未来大数据改变生活达观大数据达观数据
提交建议
微信扫一扫,分享给好友吧。