AI速度再快一步,九言科技发布移动端深度学习框架“绝影”

砍柴网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

自打谷歌AlphaGo以4:1的总比分大胜围棋世界冠军、职业九段棋手李世石的时候,人工智能就成了大家茶余饭后谈论的焦点,也成了BAT等众多 互联网 公司竞相角逐的 科技 前沿领域。像Magic Leap、科大讯飞,商汤科技等人工智能关联的 创业 公司也都成为炙手可热的明星公司,未来人工智能的火热程度可想而知了。人工智能就其本质而言是对人思维过程的信息模拟,包括机器人、图像识别、自然语言处理和专家系统等。其中图像识别技术最为贴近用户生活,尤其是一大批基于摄影和相机的应用软件,在应用层基于AR、 VR 技术,推出了多种互动玩法,让用户对沉浸式的AR体验技术有直观的体验和感受,也让图像识别技术逐渐走进了大众视野,被大众所熟知并关注。

图像语义分割是图像理解的基石性技术,是将像素按照图像中表达语义含义的不同进行分组(grouping)/分割(Segmentation)。从最初简单的像素级“阀值法”和基于像素聚类的分割方法,到图划分,再到机器的深度学习技术,图像分割技术一直在朝着精细、精准、清晰的方向发展,不过,有三大常见的问题一直困扰着AI研究人员:1、关系不匹配,场景中存在的可视模式的共现。比如,飞机更可能在天上或者跑道上,而不是一条公路上;2、易混淆的类别,许多产品类别具有高度相似的外表,如何正确的甄别物品的品类;3、不显眼的类别,场景中包括任意尺寸的物体,小尺寸的物体要基于大场景的关联性理解才能鉴别。

总之,如何让图像识别速度更快、兼容性更强、准确性更高成了很多人工智能公司都在攻克的难题。此前百度推出了开源移动端深度学习框架MDL,旨在让卷积神经网络(CNN)能更简单和高速的部署在移动端,腾讯也推出了腾讯优图实验室公布了成立以来的第一个开源项目ncnn,这是一个为 手机 端极致优化的高性能神经网络前向计算框架,无第三方依赖,跨平台,手机端 cpu 的速度快于目前所有已知的开源框架。

作为国内领先的图片 社交 平台,九言科技in app也是人工智能赛道上一直精耕的一员,最近推出了自己代号为“绝影”的技术框架。绝影(英文名Prestissimo)是一个应用于移动端的轻量级高性能神经网络前向计算框架(项目已经在github上开放)。ios, android 上的速度均快于目前的开源框架(ncnn、mdl 等等)。

之所以上线“绝影”,是因为图像语义分割技术研发的过程中,in遇到了一个棘手问题,如何在移动端上运行已经训练好的深度学习模型?

尽管早就有人做了caffe在移动端的移植, 苹果 和谷歌也分别发布了各自操作系统上的DL(Deep Learning,深度学习)框架Core ML和Tensorflow Lite。但是,对于in这样拥有上亿用户的App来说,我们需要满足如下需求:

1、中低端机型上要有足够的速度:in 的用户群主要是青少年在校大学生,她们多数使用的是中低端手机。用户第一的准则要求我们的深度学习框架在中低端手机上运行得足够快。

2、体积要小:为了满足用户的爱美、爱萌的心理,时刻给用户以新鲜体验,in 集成了诸多图像与视频算法,如美白、瘦脸、人脸检测、视频处理等等,整个包的体积已经比较大,新加的框架,体积要尽可能小。

3、兼容性要好,in 用户量大而且杂,涉及ios跟android各种各样的机型,需要我们的深度学习框架能兼容ios和android的各个版本。

鉴于已有框架均不能满足需要,九言科技的图像团队决定自行开发深度学习框架,并以三国时期曹操的名马绝影命名这个框架,希望它速度快,体积小,兼容性好:

AI速度再快一步,九言科技发布移动端深度学习框架“绝影”

经过半年多的开发,绝影基本达成了这三个目标。其主要特性如下:

* 支持卷积神经网络,支持多输入和多分支结构

* 精炼简洁的API设计,使用方便

* 提供调试接口,支持打印各个层的数据以及耗时

* 不依赖任何第三方计算框架,整体库体积 500K 左右(32位 380k,64位 约600k)

* 纯 C++ 实现,跨平台,支持 android 和 ios

* 模型为纯二进制文件,不暴露开发者设计的网络结构

* 大到框架设计,小到汇编书写上全方位的优化

* 支持浮点(float)和整型(int)两种运算模式,float模式精度与caffe相同,int模式运算速度快,大部分网络用int的精度便已经足够。

表:同类框架对比

AI速度再快一步,九言科技发布移动端深度学习框架“绝影”

2016年in app在人工智能(AI)和现实增强(AR)两个关键领域均取得重大突破。对于机器深度学习的应用,in依托平台累积的PB级的生活化图像大数据,分别研发了geekeye多维度理解系统和AI图像绘制黑科技-indream。geekeye可进行全局场景识别和局部物体监测,目前已可识别3000个子类场景,indream 凭借“梦境图像深度学习算法”在技术上突破了风格滤镜的局限,实现两张图片的完美融合。这两项技术突破,在to c端给用户提供了更智能化的产品使用体验。2017年,in在人工智能和现实增强两个领域继续精耕,分别推出了2.0升级版,技术优势进一步提升。

代号“绝影“的技术发布,尤其是其在计算速度、兼容性等方面上的优势,意味着九言科技(in)在AI底层技术上的研究也达到了顶尖水平,加之in平台PB级的图像大数据积累,为in继续精耕并在图片识别技术上取得突破打下了良好的基础,并且会帮助in在AR应用层开发出更多体验的玩法,巩固in在AR技术领先优势和用户口碑。

随意打赏

移动端框架
提交建议
微信扫一扫,分享给好友吧。