无处不在的人工智能(上)
作者:腾讯互娱研发部 研发四组 高级工程师 何欢
看到“人工智能”这几个字,可能有的人立马会想到围棋、神经网络、深度学习等名词,也有的人会想到大学里的人脸识别、立体视觉建模等研究项目,还有的人会想到终结者,外太空等高大上的内容。但可能98%的人都会有这样的疑问:这些东西研究了到底对我有什么实际用途,人工智能会不会是个泡沫?
本文就来尝试回答上述问题,介绍当前人工智能的实际应用领域,也给对AI感兴趣,以及准备接触AI的读者,不管是学习、工作还是创业,提供一些参考。
一些基础问题
在进行具体举例介绍之前,先对一些常见的基础问题谈下自己的看法。
1. 人工智能的目的和意义是什么?
人工智能现在的主要目的说白了是让人类能进一步偷懒,提高生产效率,节约宝贵的时间。当然也有人觉得它会导致大量失业、社会不稳定之类,其实不用担心那些,到时总会有新的职业产生出来。
关于让人类进一步偷懒,举两个例子:
【视频:Introducing FarmBot Genesis - Teaser】
农业时代用牲口耕种,累死累活 => 工业时代用拖拉机,省力不少 => 互联网时代大型收割一体机、科学栽培、转基因,产量提高并大幅降低工作量 => 人工智能时代从种菜灌溉到烹饪洗碗都可以让机器自动搞定,人只要负责吃即可。
古时候获取信息靠竹简刻字,效率低数据少 => 工业时代有油墨印刷,去图书馆查找书籍资料,效率低 => 互联网时代使用搜索引擎,输入关键字,从列表中找到想要的,列表条目多了找起来仍然累 => 人工智能时代不仅不需要键盘和列表,直接给你答案,而且还能直接帮你做事完成任务。
2. 人工智能的发展会不会不久后就遇到瓶颈?
人工智能的的基础是计算能力和数据,核心是算法。
图片来源:IDC、招商证券
先看看基础是不是牢固——计算能力方面,GPU并行计算,未来量子计算,更快的芯片,更低的存储和计算成本,可以满足发展需要;数据方面,数据越多,越能让计算机从中找出新的规律并提升智能水平,数据总量每两年翻一番,到2020年数字宇宙将达40000EB,可以满足发展需求,而且即使算法没有进展,使用现在的技术配上新的数据,也能有巨大的应用空间——所以发展的基础是没问题的。
图片来源:IDC、招商证券
再看看核心,算法——目前的AI由于机器学习的突破,在很多领域已经超过人类,例如图像识别、下棋等,而且还能使用无监督的自学来不断改进自身,广义智能已基本实现;各种机器学习算法也在通过不同的方向不断的深入,例如DQN、RCN等;参与算法研究的也都是顶级的科技公司,例如谷歌、微软、脸书、苹果——相信那些精英一定能继续推动AI前进的。
曾经AI有过一段“冬天”的历史,很大原因是当时数据、计算能力、算法都不具备,现在由于科技的快速发展,跟当时情况已经完全不同了,所以广泛使用人工智能的时代已经不远了。
在当前这个时间点上,AI的发展现在还处于非常早期,处于AI能力不断改善以及部分可用的技术慢慢运用到各行业的过程中,这个过程会逐渐加速;对创业者来说,现在也正是利用和推广AI技术的好时机。
3. 人工智能产业生态圈是什么样的?
人工智能产业生态圈分为基础、技术、应用三层。
图片来源:艾瑞咨询
大企业一般从下往上切入,科研机构从中间切入,创业公司从上层切入。
生态圈中每个部分,包括其中的细分领域,现在都有很多公司在角逐,竞争非常激烈,不过最终技术层和基础层将由少数几个公司确定规范,开源并推广,应用层则会一直保持百花齐放。
图片来源:艾瑞咨询
上图数据比较老,只是展示了一小部分。AI相关的创业公司,在2016/9的时候,仅仅国内有公开信息,就有超过200家,如果算上大数据挖掘方面的公司,有超过1000家,而国外公开信息的AI相关创业公司,有800多家。
4. 现在互联网生活挺好的,人工智能还能为我做啥?
虽然现在AI还不是很发达,但现有技术应用结合好的话足以带来很多的改进,举几个已经实现或现有技术可以实现的日常使用例子:
解放双手:
开车时收发微信,或者看新闻,需要操作和看手机,很不安全,而现有的技术可以实现用语音指令跟手机交互操作,或通过无人驾驶让你的车变成睡觉的地方。
降低技术使用成本:
不会上网查资料,不会上网订机票,不会上网订餐购物,或者虽然会但是嫌麻烦,没关系,现在的语音助手类APP已经可以像私人秘书一样,不仅直接通过内部搜索回答你的问题,而且还能直接帮你做事,甚至主动给你出谋划策。
琐事处理:
跟客户定时间会面,自己日程安排复杂也不知道别人什么时候有空,来回发邮件沟通确定很麻烦,直接用AI就可以了,虚拟人物会帮助你跟对方邮件沟通敲定时间保证双方都满意。旅游行程规划好麻烦,让AI帮你自动设计规划,跟着执行体验即可。
工作辅助:
例如撰写招聘广告,AI可以帮你对广告进行打分,对其中的遣词造句进行批改,例如某些词太软或太硬、词性不匹配招聘对象、有更好的成语引用等,并提供修改建议,确保最终高品质的输出。财务工作繁忙,把各种发票提交扫描就行,自动识别其中数据汇总报表。
现在的AI有点像“电”刚发明的时候,人们当时觉得“电”似乎没什么用,各种技术也不成熟,甚至怀疑电会带来危险和灾难,可到了现在,电已经成为了一种无处不在的基础设施,技术成熟统一,上层应用层出不穷,这可能也是AI的未来吧。
应用领域介绍
以上是对一些基本问题的看法,接下来开始介绍具体的实际的应用。这里介绍的主要是些有一定代表性的创业公司的项目,其中有些公司已经被收购了,但列举内容并不代表这些公司一定值得投资,列举他们也只是用来对不同领域的应用做举例说明。另外,有些应用产品的工作原理还是建议看下相关视频或亲自体验。
由于人工智能应用领域广泛,因此按照当前人工智能实现的基本功能来分类介绍,即四部分:图像认知能力、语音语义理解能力、数据分析能力、整合多种能力的机器人,一方面这样分配比较均衡,另一方面这样跟人类处理信息的模块能对应上关系,即人类处理信息时输入主要靠的是视觉图像和听觉文字,思考主要靠分析。
另外,由于篇幅限制,语音语义理解、数据分析和机器人相关的应用会在“下篇”介绍。
第一部分 图像认知能力的应用
1. 常见的图片认知应用
安防系统、客流统计、智能交通管理等应用还是比较常见的,一般面向企业;而个性艺术创作一般用于拍照软件,面向普通个人用户;图片分类检索功能融合在搜索技术和相册管理中,面向企业也面向个人,其中面向企业的更有商业价值,例如鉴黄系统。
值得一提的是图像理解技术:由于拍照手机的普及,图片和视频数据在信息中占到了最高的比例,而且这些数据,是围绕着用户个人的;普通文字数据的检索会遇到瓶颈和冗余,而对个人属性能力信息、人与人关系的搜索会更有价值;因此,可以通过对个人图片视频数据的解读,例如什么时间什么地点跟谁在一起做什么,挖掘个人经历,个人偏好,人际关系等,作为各行业数据基础,提升用户体验。
2. 便捷购物:Sentient
【视频:Shoes.com's Visual Filter powered by Sentient Aware™ for e-Commerce】
从候选图片中选择最喜欢的款式,随后会出现新的候选图片,选3-4次,就能找到自己最心仪的款式,相当于通过AI把盲目查找转变成了购物向导。
1) 京东类正品ECC可以尝试的一个方向
2) 应用商店、视频网站等也可以用类似的方法帮用户快速找到自己想要的东西
3) 用户在意的可能不仅限于外观,可以考虑明星同款等其他效应,添加额外关联信息
4) 不同类别的产品用哪个特征分类,可以考虑大数据学习用户的购物和使用习惯
3. 物体识别+AR日常:Blippar、WordLens
【视频:Blippar - A new way of discovering the world】
用手机看物体或文字,会出现相关的广告、动画、翻译,覆盖在原来的物体上。
1) 放到AR眼镜里,结合手势识别和声音,能让用户感受更丰富的世界
2) 结合O2O的服务和各类相关利益的信息,会产生商业价值
3) 大多公司会需要对自己的产品做AR资源和服务入口,广告公司得到新业务
4) 结合社交,增加用户或明星的评论信息显示有助于用户购买理想产品
4. 物体识别+AR工作:Apx Lab、ScopeAR
【视频:Boeing - APX Labs】
头戴式眼镜,用于工业领域,帮助工人提高工作效率,可以显示基本信息、待办事项、拍照、视频、沟通交流,标示任务等,使用AR对物体进行标示的沟通更易让人理解意图。
1) 直接加强沟通,提高效率,解放双手,放松大脑,照着提示做就行,未来可能普及
2) 可以跟其他系统绑定,例如提醒运动减肥,朋友生日提醒,客户沟通等
3) 最终会跟日常AR使用场景以及自然语言处理的私人秘书功能整合在一起
4) 十分看好AR的前景,趋势不可逆,鼠标->触屏->AR操作是发展必然
5. 定位和动作识别:13th Lab、Nimble VR、uSens
【视频:uSens' Latest Demos 082016】
这些其实也是AR/VR相关的重要支持技术,帮助精确定位,手势识别,更自然的体验。
1) Slam可运用于场景建模,机器人寻路,自动驾驶等领域
2) 动作识别加强了人机交互体验,不过前期还是最基础不易搞错的动作比较好
3) 现在有廉价的传感器辅助做全身的动作捕捉,那样UGC和行为记录会更方便精确
6. 拍片诊断和器官建模:Arterys、3Scan
【视频:Arterys & Deep Learning】
把计算机视觉技术运用到医疗拍片分析上,根据MRI等数据生成3D建模和动画,在细分领域发挥了电脑的长处,帮助诊断和研究疾病。
1) 也许对人体表面的图片也可以进行分析利用,例如普通用户用手机摄像对着自己,根据脸颊颜色,青春痘大小,舌苔形态,语音声调,并结合体温血压等数据,就可以判断常见疾病并给出建议,节约医院资源
2) 这方面不知道BAT布局怎么样,除了挂号,是不是还可以提供公民更多的关怀
7. 自动财务报表:Smacc
【视频:Scan Invoices and Receipts with Scan2Invoice】
用手机摄像头扫一下发票,自动识别其中内容,输入财务系统云端并进行处理,各终端看到实时更新的财务报表。
1) 用手机或者眼镜扫描物体并输入到应用,除了发票,还可以是其他,例如某个电视节目片段,某个名贵包包,或者某段C++代码,自动解析分类收藏
2) EverNote之类的笔记应用还有较大的发展空间,可以记录各种类型的信息并建立信息间的对应关系
下篇内容将根据人工智能的主流能力,即图像识别能力、语音语义理解、数据分析能力、机器人技术,开始举例介绍AI具体的应用领域,并穿插了一些笔者浅薄的看法。