人工智能落地音视频识别，“极限元”从更细分应用场景切市场

36氪 • 8年前扫码分享

2014年成立的极限元从语音识别领域起家，主要为客户提供定制化的语音、视频识别技术解决方案。

音视频识别赛道上，36氪曾经报道过很多公司，比如做人脸识别的Face++和一登，语音识别领域的佼佼者科大讯飞。极限元创始人马骥认为，科大讯飞的技术在国内外都是第一梯队的，不过他们目前主要服务于政府、呼叫中心和教育行业（普通话考试）等，客单价较高。再者就是不同行业的解决方案差异较大，相较于这些公司，极限元可以从更细分的市场切入：

在语音识别方面，极限元的技术能够完成语音合成（文字转成语音）、语音识别（语音转文字）、声纹识别（根据语音识别身份）、口语评测（普通话检测）和语义理解（智能问答）。目前已向不同行业的客户提供了服务：

教育行业。极限元为语文出版社开发的教育类APP---古诗词诵读，能够评测用户诵读的字词准确性、韵律标准性等。为其开发的另一款APP方言掌上通能够帮助用户翻译与学习方言，比如粤语和上海话。
安全行业。为公安部门开发的反电信诈骗系统已通过验收并部署在几大通信运营商。系统通过分析语音内容，自动判断来电是否为诈骗电话，一旦发现就会及时告警。

人工智能落地音视频识别，“极限元”从更细分应用场景切市场

除了项目制服务之外，极限元也推出了了自己的语音云产品，并为开发人员提供了API接口和SDK开发包，方便其快速地将技术集成到自己的应用系统中。初期企业可以免费试用产品，但是超过连接次数的限制后就需要付费使用。马骥告知，在通用领域的语音识别准确率能够达到95%以上，在专业领域经过训练后可以达到98%。训练的数据主要来自于平台自己采集、向第三方购买以及同其他企业进行资源互换三个渠道。

而在视频识别方面，极限元目前主要应用在直播和交通领域。

针对网络直播的内容审查要求，公司推出了有害音视频检测系统。与直播平台对接后，系统会自动抓取数据，同时分析语音和视频2个维度，包括语音内容以及视频中每帧图片的皮肤裸露面积等信息，检测是否有害内容和违法行为。系统每日能够处理一亿张以上的图像。

以往直播平台要审查视频，1000个直播间至少需要布置300个员工7×24小时检测，人工成本很高并且无法保证准确率。而使用检测系统可以帮助直播平台省去70%的内容审查团队。除此之外，极限元还为直播平台提供了更加细分的功能。例如针对一些电商代购直播的广告检测功能，系统能够自动识别其中的微信号等。还有向秀场直播平台提供专业度更高的识别技术。

至于收费，针对100个直播间的直播平台的标准是20万左右，1000间以上的大型直播平台收费在200万以上。

同时，极限元还开发了车载疲劳驾驶检测系统。通过识别司机的表情和姿势，来判断他是否疲劳驾驶。值得一提的是，硬件部分是由极限元自行设计的，生产环节外包出去。在马骥看来，运输公司、保险公司是产品的潜在客户。

人工智能落地音视频识别，“极限元”从更细分应用场景切市场

不难看出，目前极限元提供的服务主要是Case by Case的，马骥坦言，这确实是音视频识别甚至人工智能行业现阶段的局限。不同领域中，由于应用场景不同，所以需要建立的知识图谱的也不同，只能一一去做训练。

此外，马骥强调，极限元的优势在于可以同时提供音频和视频解决方案。马骥解释到，事实上音频技术比视频要难做。因为视频识别方面，机器学习的技术框架和算法已经比较成熟，判断同类公司的好坏，更多的是，而在于识别的准确率和并发量，以及能否将技术应用在有价值的场景中，也就是机器学习的数据量够不够多、训练的是否精准。但做语音识别的难点在于汉语的复杂，比如同音词和多义词，以及方言口音的影响。而国内具备声学、语言学和机器学习等综合素质的研发人员比较少。

据悉，极限元创始人雷臻、马骥曾在华为共事，团队现有50多人，一半以上是技术研发人员，公司从15年下半年就已经盈利，并2015年年底获得了天使轮投资。对下一轮融资，马骥表示极限元更看重投资方能否带来更多的客户资源。

< 这是一则寻人启示 >

我们正在寻找一个了解企业服务的记者，可以每天跟创业者聊聊项目，跟投资人谈谈行业，顺便能写个云计算就更好不过了，如果你是我们要找的人，请发简历告诉我xuning@36kr.com。