挖掘NLP技术商业潜力,云孚科技提供全栈中文语义技术服务
人工智能经过去年的一波热潮冲击,AI技术相关的语音和图像领域都火的风生水起,相对而言,NLP自然语言处理技术虽是万物智能的核心关键所在,但却没能成为资本的宠儿和风口浪尖的生意。
“全世界大概80%的信息都是文本,有时候虽说一图胜千言,但是多数情况下,文字蕴含的信息量是更丰富的,可以很精准很凝练地表达出来意思,语义技术其实已经开始广泛应用在包括搜索引擎、人机交互等诸多任务处理环节以及垂直行业场景中。所以我认为语义这一块,因为信息量是最大的,所以它的价值是最大的,只不过现在还没有形成巨头而已。”
2017年8月,80后张文斌选择踏上自己的创业之路,成立了云孚科技,公司的定位是要做一家世界领先的中文语义技术服务商。在此之前,他从哈尔滨工业大学计算机系硕士毕业后,曾在腾讯做过3年研发工程师,参与研发了搜索广告平台、分布式深度学习框架、微信语义开放平台、微信公众号搜索等系统;2014年进入本邦科技担任CTO职位,让这家技术型营销服务公司3年内营收增长了10倍,然而,对于技术出身的张文斌来讲,身处人工智能浪潮下,AI技术在数字营销业务中的应用还是偏传统了些,成立一家新公司来聚焦AI技术的研发应用成为必要。
此外,据了解,公司聚焦中文语义技术服务,也和张文斌的“哈工大背景”密切相关,他从哈工大社会计算与信息检索研究中心毕业,而研究中心的强项就是做人工智能与中文信息处理的前沿技术研究,在2017年CoNLL依存句法分析评测中哈工大排名世界第四、亚洲第一 ,近年来发表论文100余篇,其中包括ACL、SIGIR、IJCAI、EMNLP等顶级会议论文60余篇。
云孚科技成立之后,很快和研究中心达成了合作,目前,哈工大社会计算与信息检索研究中心主任刘挺教授在公司担任首席科学家,刘挺教授的主要研究方向为自然语言处理和社会计算,是国家“万人计划”科技创新领军人才。
张文斌表示:“当前,人工智能技术激增的需求很多,但是纯粹的实验室去给企业提供服务相对而言会有些问题。因为企业真正要用技术,对产品的需求是开箱即用,产品化,功能化,保证技术稳定,性能高效,可扩展性强,包括还要做很多相关的服务支持。但是学术界适合做的研究可能比较前沿,这样中间是有gap的,所以我们就跟实验室的老师达成合作的意向,围绕我们实验室已经积累的语义分析的各种技术, 再结合云孚科技把它真正去落地。当然,我们也会研发新的技术产品真正去面对市场,面对各行各业的企业使用, 给他们提供一些技术支撑或解决方案。”
关于公司的业务拓展,张文斌认为大致可以用“先横后纵”来概括。因为语义技术应用范围和场景广泛,从底层可延伸做的技术和产品方向非常多,客户可能潜在于各行各业,不是拍脑门就能决定的,所以没办法精确去判断,还有一个特点是,每一个领域都有一些个性化需求,需要一些定制,初期可能不好规模化去做,这是整个行业的一个特点,也是云孚科技正在摸索的途径。
云孚科技的核心产品之中有一个自然语言处理工具包——LTP,这款产品作为SDK可以直接销售给客户,LTP包含分词、词性标注、命名实体识别、依存句法分析、语义角色标注、语义依存分析等6大模块,客户可以基于该工具再去开发上层的语义分析的应用。此外,还有一个通用知识图谱——大森林,拥有超过1000万实体,能够持续自动扩充实体和关系,包括科大讯飞、腾讯、搜狗、华为等大型科技公司都在研发中使用过。
除了比较底层通用的工具包和知识图谱外,云孚科技针对不同场景开发了更为具体的产品应用。包括针对股票预测、情报分析所研发的事理图谱,可以以事件为节点描述事件之间的关系;文本挖掘和文本生成产品,可以对文本进行分类,关键词、关系抽取以及新闻摘要、报告生成等;面向产品或事件的情感分析产品;支持聊天、问答、任务驱动多轮对话系统;还能基于语义技术为垂直领域提供舆情分析。
关于商业落地场景,张文斌举了几个实例,现在有客户想做一套个性化体检服务,传统的方式可能是需要与服务人员沟通交流,填各种各样的表单,医生看完之后再给出一个个性化体检套餐,现在这部分就可以智能化去做,由机器来引导用户,并根据用户回答智能对接下一个相关的问题,最终自动匹配体检项目,形成一个比较友好的交互体验,对话是最自然的交互形式,包括智能党建,不同场景下的智能机器人等都会用到。
比如文本挖掘产品,一个商家在网络和软件端有那么多评论留言,信息量大的话,靠人是看不过来的,人看过来也是线性的记忆,比较乱难以统计分析,云孚科技的产品能自动把评论点挖掘出来,包括把各个属性点的评论精确化,比如一部手机投入市场,可以从电池、外观、系统、价格、物流、通话等多方面进行分析,便于商家及时优化改进,更有策略去布局市场。
据透露,最近云孚科技业也正在和知识付费类平台进行合作尝试。这类平台上面散落了各种知识点,现在纯靠编辑或者读者自己构建知识体系。云孚科技基于语义技术挖掘各种可见知识点之间的关系,最后会形成一个知识图谱体系。这样一来,用户一上平台就能很清晰的知道,学一门课,都有哪些知识点,这些知识点还有哪些关联点没学到,最终把课程之间的联系打通,对于用户来讲学习更清晰更方便,同时也能为平台运营提供一些参考,哪些知识点是需要去重点运营,哪些地方需要补齐等。
“我们的打法是先把底层技术给迭代好,同时结合市场需求做一些贴合实际的技术创新产品, 第一阶段肯定先做这块,如果在接触到各种需求的过程中,我们发现垂直领域的解决方案是适合云孚科技去做的, 可能再去做纵向的技术解决方案。先横后纵,初期各行各业我都面对,然后再纵深去做, 但都是由核心的语义引擎来驱动。 长远来看,可以通用的应用就提炼出来做成我们的产品,比较特定的但是可行业复制的我就打包成行业技术方案,未来的服务可能不单涉及语义,包括语音、图像都可以一起合作去做整体解决方案。”张文斌谈起未来的愿景信心满满。
无论是定制产品还是通用方案,张文斌表示目前都不排斥,先把业务做起来,真刀真枪在战场上做出来的产品才有价值,我们不能拍脑袋去决定做什么,语义技术落地场景太多,业务聚焦是一个磨合判断的过程。
另一点让张文斌很有信心的原因是,自己拉拢起来的团队汇集了来自BAT或者是毕业于哈工大、北大、北邮、IIT等知名高校的人才,十多个人的执行力战斗力比较强,团队对市场的反应比较快,更接地气,知道市场在哪儿以及怎么更精准的解决问题。哈工大实验室本身在业内的研究水平让公司站在一个学术制高点上,利于开发出最好的技术产品出来,保证产品的质量和水平指标。
关于融资计划,张文斌透露云孚科技正在接洽投资机构,初期的运转资金是自费投入的,目前公司已有正向的现金流滚动起来,可以满足运营所需并逐渐增长,现阶段也欢迎天使轮或者preA轮投资进来迅速把业务和营收扩大。张文斌笑着说,云孚科技即便没有大成,也能成为一家健康发展的中小公司,当然,AI潮流之下,我们是有机会大成的。
人工智能的火爆在2018年还会持续下去么?“回顾我当时所在的实验室是2000年的时候就成立了, 将近20年一直专注在语义分析领域,人工智能概念根本不火的时候我们就一直在做。我们创业的心态是,有风口来了,我们能起飞,没风了,我们在地上也能快速奔跑,不会被摔死。因为技术方向和市场需求就摆在面前。”张文斌如是回答。
产品:中文语义技术服务
公司:云孚科技
官网: www.yunfutech.com