阿里云三湾:人工智能发展带来语音、视觉和数据的智能时代

亿欧网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

2016年11月30日,“开启未来之门丨 阿里云 人工智能 沙龙”在深圳举办。这是阿里云深圳分公司联手合作伙伴草根天使会、赛格·种子期孵化器,呈现的一期以“人工智能+智能硬件”为主题的沙龙活动。

活动上,阿里云高级专家三湾,阿里云专家李亮,阿西莫夫科技创始人及CEO康平陆做了精彩的演讲。

以下是阿里云高级专家三湾所做的主题为“阿里云人工智能领域实践”的分享,整理者李基祥。


我会和大家简单介绍一下,人工智能的发展,大规模机器学习、语音、视觉和数据智能时代。

    在刚过去双11,龙岗大运城的场馆里,阿里云的ET做了一个魔术游戏,下面随机挑了五位美女切牌,ET可以判断出来对应的人拿的是什么牌。

这个扑克牌的魔术,再加上ET之前与胡晓明进行的对话,基本上涵盖了人工智能领域所有的基本能力。它之中包含的技术,包括ASR 语音识别 ,TTS、NLP、OCR技术,包括图像视频分析,人脸的识别追踪,包括机器翻译、规则引擎、推荐引擎等等,基本上涵盖了人工智能几个关键的层次和领域。

人工智能的发展,从上世纪50年代就已经开始了,到2006年由加拿大多伦多大学的机器学习泰斗Geoffrey开始使用深度学习技术在工业界做出突破,那时深度学习使用才开始铺开,到了2011年Google大脑,在看视频时可以识别出哪些猫、哪些是人,而Google的Alpha Go战胜了李世石,则彻底掀起了人工智能的高潮。

我们在这里讲人工智能,其实有很大程度是由于Alpha Go战胜了李世石,成功吸引普通大众对人工智能的关注,因此2016年对人工智能来说是很重要的年份。

人工智能和大数据的关系

人工智能和大数据又有怎样的关系?我们可以看到现在数据越来越多,每年数据的增长都是指数化的增长趋势。从这个角度来看,数据越来越多的时候,更需要机器学习的能力,光靠人的大脑,机器学习不足以支撑我们对数据更快的反应、更好的理解及运用。

所以海量数据处理需要面对学习能力不足的问题,这也是大数据面临着、需要解决的问题。

    在过去人工智能基本上是单机的模式来做,现在进入云计算的时代,从单机的样本到跨集群、跨机房、跨网络,进行高性能、海量的数据处理,大数据是为人工智能注入新的活力,让他有更强能力做更大数据计算以及更深层数据应用。

    同时以大数据为基础的深度学习可以在各个领域得到突破性的进展。最关键的几个领域大家也有所耳闻,主要是在语音识别、图像识别、 机器视觉 。基本上是在听、看、说,当然还没有到更深的层次,这几个层次已经让人工智能在很多的领域里,可以帮助我们更好的提升。不管怎么样,数据量增多、数据种类增多,需要人工智能加速我们对数据的应用,挖掘数据的价值。

    我们可以看到人工智能现在应用的领域其实有很多。它能帮助我们,替代我们人所不擅长工作,比如说长时间的疲劳劳动,长时间需要肉眼识别的工作,另外还包括手机的更多智能化、智能博弈、智能可穿戴设备、机器人、自动驾驶、智能医疗等等,在这些领域我们都需要人工智能帮助我们提高设备和机器的能力。

对于大数据推动的深度学习而言,首先要有一个大规模的机器学习平台。对于阿里而言,我们的数据智能整体的框架,包涵了计算引擎,开放的平台,和最关键的智能数据服务。

而在这个平台上还有很多应用可以做,例如智能交通、物联网、智能视频、智能推荐、移动分析等各种算法。

机器视觉应用

在视觉方面我们有非常强的视觉计算能力,用肉眼,机器人替代人眼。视觉包含了很多技术领域,包括视频、图像的分析、切割,视频的结构化,目标的检测,物体的检测、跟踪,另外视觉搜索等等。

我们可以看看阿里云在视觉上人做了哪些工作。

交通行业在人工智能和视觉这块用得特别广泛,因为有各种各样的摄象头,有各种各样的视频设备,可以检测到人、机动车、非机动车,进行对路面的分析、路牌的标识,停车场信息采集、比对,车辆特征提取的比对,这都是非常常见的交通行业机器视觉应用。

阿里给杭州市做的城市大脑,应用了交通行业里机器视觉的解决方案,可以实时的感知杭州市所有的交通卡口,路面上的所有车流、人流、交通、车牌、车型等所有的数据。阿里云用视频解决方案,可以感知在整个城市里,所有方方面面正在发生的点点滴滴,并把所有场景准确记录、实时理解分析。

这是另外一个场景,这是广州,广州一条大道来做实时红绿灯的调配,通过交通拥堵检测以后,对信号灯进行实时的检测和调整,这也是用了各种视频、流量、综合的设备,能在每个路口准确的判别交通流量的状况,交通路口的情况,以及左转、右转的流量分配以及排队的状况,通过人工智能更好的优化路口的配时、交通整体城市拥堵的调整和提升。

只要拍摄的视频足够清晰,能准确判断上栏、两分球、三分球、抢断和扣篮,就可以对任何一个人打篮球的动作进行分析,并且纠正。体育领域里数字化、大数据的分析对帮助分析科学训练、比赛赛事分析以及赛事转播都非常有帮助。

这里要做的事情很多,包括转播的自动化、远近景的获取等等。运动员一般会穿带编号的,让机器可以有轨迹的获取。

大家都说大数据帮助世界杯做了很多工作,其实无外乎是分析竞争对手,每个球员的跑位、运球的轨迹、发球的偏好,这个技术也比较成熟,很多客户都在使用。

还有一个领域是图像搜索。很多时候搜文字可以搜索,但搜图片还是很有难度的。图片的检索不像文字,文字已经完全可以把索引的技术做出来,但图片索引比文字搜索更难,他要从图片中识别出特征,如果是商品的话还要另行识别、进行特征的提取。

现在每个人装的淘宝、天猫APP,都有一个摄象头,点一下就可以拍任意一个东西,然后检索出来类似的商品。

很多客户在探索的是视频、图片广告的嵌入,让用户最终看到的图片是嵌入式广告的形式,上面有一个经过叠加进去的广告视频,但却不影响观看体验。这种方式可以针对每个用户,做用户划项,根据用户特性和偏好展示不同的广告,每个人看到是不一样的。

阿里的平台可以帮助实现刚才看到所有的机器视觉技术,我们有肉眼识别、人眼识别、图像识别、视频处理的能力,可以帮助各种各样智能硬件、智能设备提高能力,满足用户对视觉感知的诉求。

接下来是语音交互,语音交互大家接触得会更多,更常见一些,他的技术更为成熟,这也是云栖大会,我们在云栖大会,每个演讲者上去发言都会把他的语音翻译成文字,在上面做实时的转播,我不知道这边有没有做直播的同学,很多直播都在和我们合作,把网红通过文字呈现出来,这也是一种增强体验的能力。

人工智能已经比人类要好,这个不得不承认,现在在很多领域已经比人类要更成功,我们可以看到,我们在阿里的年会上,那边还是胡晓明,一边敲、一边通过语音识别,我们发现机器识别的准确率已经超越人,而且不是超过普通人,超越了世界亚军,这就跟围棋比赛一样,Alpha Go打败李世石是一样的道理。重复性、高强度人类不能支撑的领域,机器远比人类表现得更为优异、更好。我们做人工智能的目标是让机器在某些领域超越人类,我觉得是更好的为人类服务。

语音交互应用

在语音交互上,我们不但要让机器能听会说,还要让他能懂你。

语音交互理解,大家都在常用,每个智能手机上都有基本的能力,进行语音识别和语音合成,实际上我们需要更多的是它能理解我们。

目前我们做得很多的是知识库,通过后台的知识图谱,来完成整个机器人技术架构的问答,尤其是在机器人领域的交互。现在有的机器人能进行简单的对话,而有的当你说一句话还要理解很久。苹果的SIRI还没有达到和人类流畅的交流,进行上下文很好衔接。事实上,将上下文进行联系这个技术领域比语音识别更难一些。

基于这个领域的技术进行多轮对话,其实难度非常大的。通常分为狭义和广义的语音技术,比如说手机上用到的,以后互联网汽车上用到的,包括各种各样智能设备上用到的。在各种各样的智能场景中,语音技术都能帮助我们更好的理解和认知用户心理,提升用户的体验。

还有很多语音的场景,包括导购,包括应用直达、语音识别、功能提升,包括法院进行庭审的时候,可以把对应文字快速记录下来。

人工智能的综合应用

前面讲过了图像和语音,其实人工智能还可以综合各种因素做很多综合性的预测。

包括对城市交通的预测,例如ET可以通过现在路面状况,判断一小时以后路面会是什么样的。利用人工智能,我们可以站在技术的高地站得高、看得远、看得清,可以清楚的看出来一个城市的拥堵状况,并进行路况预测。

上半年阿里的小Ai和上一季《我是歌手》进行过歌王预测,通过对人群表现,舆情状况,现场观众反映,以及每个歌手的风格、受众等各种情况,利用算法判别、预测谁是冠军,最终我们成功预测李纹将是最终的冠军。

大家一直在应用人工智能,利用算法在改善和提升、优化,我们认为,今年人工智能真是到了爆发的一年。


2016年最后一场行业盛会,第二届创新奖评选再度来袭,12月23日,北京亮马桥四季酒店,见证新资本、新产业、新技术、新理念带来全新变革。科技赋能产业, 见证下一个商业风口!

阿里云三湾:人工智能发展带来语音、视觉和数据的智能时代

随意打赏

阿里云人工智能小ai阿里云人工智能et阿里人工智能et阿里云数据中心阿里云人工智能阿里云服务器阿里人工智能阿里云企业阿里云人工阿里云邮箱
提交建议
微信扫一扫,分享给好友吧。