做自然语言的LSK,说要从哲学层面去解决语义分析问题

雷锋网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

按:做语义分析的工资雷锋网接触得不算少,但说要从“哲学层面”解决语义分析问题的,LSK是第一个,雷锋网感到很好奇,于是找到陈严——他是LSK深度人工智能的联合发起人,另一位发起人陈峰常驻甘肃。

陈严: LSK是一套基于认知的语义识别方案。LSK分别对应Language、Semantic、Knowledge。

Google的语义分析是这么做的,最早它是用关键词来匹配,从数据库里区匹配最接近的结果;后来开始理解语法,梳理主谓动宾状的语法树,这就涉及分词。英语的句法结构是比较规整的,而且词和词之间有空格,不需要分词,但汉语不一样,‘我吃了一个苹果’,是把‘我吃’当成一个单位,还是‘吃了’当成一个单位呢?我记得Google后来是和一家叫海量分词的公司和合作,做了大量的分词,但这个也只能解决一部分问题。

Google翻译的结果其实是不那么令人满意的,我们随手输入“苹果红了”,它翻译成“red apple”,其实是不准确的。

人对事物的识别建立在一套认知系统上,语言只是一种表现形式。我们决定从认知层面去着手,首先我们要建立一套知识体系,比如“吃”这个字——说起吃,我们头脑里会想到吃了什么、谁吃了、在哪里吃的、吃了还是没吃——是一套复杂的认知体系,LSK是建立在这套认知系统上的语义识别。

语义的表现形式多种多样,但内核其实都是类似的,如果机器“知道”这个词什么意思,就不会被语音的表现形式迷惑,“吃了吗你”、“你吃了吗”,系统会得出相同的翻译结果。我们的系统学一个词就是一个词,它把“吃”学透,学习的词汇越多,就越准确。

雷锋网:团队的技术背景大多是怎样的?

陈严: 技术背景不重要,核心人物才是最重要的,爱因斯坦写相对论的时候是一个人写的,不是找了一堆人写的。这类问题能想清楚的只是一个人,最多两个人,世界上所有的发现都是这样的。

雷锋网:咱们团队里面那个人是谁?

陈严: 陈峰,山峰的峰。

我和他都是甘肃电信的,我们被派到北京三年,后来电信整改等等一些原因,我们离开电信系统回了甘肃,开始做LSK。同时我们也有别的事情在做。

他学地质出身,17岁开始搞计算机,我们一起经历了很多事情。发明创造都是有机缘巧合的,经历了很多事情之后,突然有一天他就想通(语义分析)这个问题了,就像那个苹果砸到牛顿头上,突然想通了万有引力。

(按:在网络上搜不到陈峰的相关背景。从官方给过来的资料中显示,陈峰是“中国电信甘肃号百公司技术总监”、“神州数码科技公司大客户事业部技术总监”、“曾获2004年美国ESRI公司全球特殊贡献奖”、“·个人专利《统一对象标识技术》”——最后这个专利在相关专利网站上没有查到相关记录,也不一定就不存在,只是暂时没有查到。)

做自然语言的LSK,说要从哲学层面去解决语义分析问题

图为在国家知识产权局主管的中国及多国专利审查信息查询系统中输入“统一对象标识技术”的结果,显示没有匹配的结果。

雷锋网:但是这样的人只适合一些学术研究、发论文,真正要做产品,还是要很多人去做一些工程性的工作吧?

陈严: 我们还没有开始融资,也没有产品化,只要开始落地,技术合格的人容易招。陈峰这样的人凤毛麟角。

雷锋网:这类型的人才,院校里面应该很多。

陈严: 院校里面都是基于算法去做一些事情,其实算法是第二位的,第一位的是结构。 神经网络 是也是算法。

雷锋网:神经网络是算法的话,那它对应的结构是什么?

陈严: 对应的结构……神经网络我还真不是很懂,我感觉它是模拟人脑的结构,可能更偏重学习。

按照Google的关键词匹配的方法,它只能解释库里有的,遇到系统里没有的事物就没办法。但所有的未知知识都是由已知知识去描述的,在我们的体系里面可以做到这一点。

我们上升到哲学层面去解决这个问题,世界上的事物之间的关系归根结底都可以由拥有、属于、时间、空间等等一些基本词汇来描述,“苹果红了”,是苹果拥有红色,还是苹果属于红色?空间和时间的定义,都可以由这些基本词汇去描述,这些词汇只有11个,全世界的知识都逃不出这11个词。

理论上是这样的,但实际的系统实现遇到的难题很多。

雷锋网:这个有点超乎我的认知。

陈严: 比如社会关系学,就是人与人之间的关系,人与人之间的关系可以由一些词去描绘,这些特定的词可以抽象出来——一定要抽象到最高级也就是最底层的东西。自然语言认知的层次:关键字、语法层、逻辑层、哲学层、抽象层,一共五层,我们给微软顶多看到第二层,它就已经很吃惊了;科大讯飞看到我们的技术文档,只说了一句话:“这根本做不出来”;跟薛蛮子也谈了,他感兴趣,但是又不投钱。2012年,我们谈了不少投资人,总觉得对不上。

当时自己状态也不好,不知道在哪里落地,应答、舆情分析、翻译,具体产品的方向没有确定,拿去做语音导航似乎又体现不出优势,加上自己还有一些国土资源方向的项目在做,融资的事就放下了,但技术一直在进展。陈峰这几年全职在做这个事情——前些年做国土项目有一些积累,足够他只专心在这一件事情上。

现在我们更完善了,原先可以理解句子,现在可以理解100字左右的长句子。我可以讲解一下它是怎么推理的,比如“陈严借给林总一本书”,LSK可以推断“林总需要还给陈严一本书”,这是它自己产生的,已经具备逻辑思维了。

雷锋网:过去6年,LSK的技术团队主要在做什么工作?

陈严: 没有团队,就他一个人,就陈峰一个人。过去6年,他就在研究哲学问题,然后把它转化成知识性的东西。

陈严给雷锋网演示了一个DEMO,显示LSK是如何工作的。做NLP的读者可以看看,是否能看出端倪。

做自然语言的LSK,说要从哲学层面去解决语义分析问题

遗憾的是,陈严的手机上没有装APK(他说并没有开发安装包),而陈峰远在甘肃。除了这个视频,雷锋网并没有获得其他测试产品的机会。对于这个产品以及陈严描述的原理,雷锋网有一肚子的问号。

当雷锋网向一位同是做机器翻译(并且已经成规模,有稳定的商业模式)的表达疑问,说感觉有些“民科”,他隔了三四个小时给我回了一段话:

“似乎确凿就是民科。刚刚去找来‘LSK理论’著作拜读了一下,通篇没有任何形式化定义。至少以目前的计算机原理来说,这是不可计算的。”

懂行的朋友出来说个究竟?

附注: 雷锋网 (搜索“雷锋网”公众号关注) 将于8月12、13日在深圳举办 全球人工智能与机器人创新大会 ,会议召开的同时我们将颁发Top25人工智能创业项目的榜单。目前我们正准备遍访机器人、人工智能、 无人机 及自动驾驶相关的创业项目,有杀错,没放过,如果觉得自己是这个行当的顶尖企业,欢迎发邮件到 1020@leiphone.com 自荐。

随意打赏

自然语义
提交建议
微信扫一扫,分享给好友吧。