科技巨头们要用无障碍科技改变世界,腾讯和Facebook已经用上了AI技术
科技改变生活将会贯穿科技发展的整个过程,不同的技术会给生活带来不同程度的变化,并且不同的群体在相同的时间也会感受到不一样的变化。如今,不少人正在期待VR和AR技术带来的不一样的视觉体验以及AI技术带来的便利生活。但对于部分特殊人群而言,他们因为听说看的障碍离科技有着遥远的距离。
不过,国内外的科技巨头们都在努力通过无障碍科技改变他们的世界。更让人兴奋的是,腾讯和Facebook已经用上了AI技术,这将有何不一样?
科技巨头们跨越两个时代的无障碍科技
在手机成为人们活中不可缺少的一部分之前,PC的普及改变了我们获取信息、工作和生活的方式。Windows作为全球使用最广泛的PC操作系统,微软也早已在系统中加入了不少针对视觉、颜色识别、听觉、读写能力等人群的辅助功能,主要是为键盘交互和屏幕阅器提供支持,为用户自定义(如文字、缩放设置、颜色和高对比度)提供支持,为UI某些部分提供替换选项或候补选项。
最新的操作系统Windows10中,微软针对视觉障碍人群有屏幕阅读器、高对比度主题、放大器等功能;听力障碍的人群可以借助字幕了解试听媒体内容;行动障碍人群可以通过语音识别技术来解决使用问题。体验方面,从微软展示的视频看,语音对屏幕内容的描述速度对视觉障碍的用户可能有些快,对没有视觉障碍的人来说描述有显得有些简单。
移动互联网时代,Android和iOS统治着市场,因此谷歌和苹果也都在自家的系统中加入了辅助功能。Android的无障碍功能有屏幕阅读器,通过触目和语音反馈实现与设备的互动;还有显示的更改设置,包括字体大小、放大功能以及显示的对比度和颜色;互动控件则是借助语音打开应用和进行导航及修改文字;还可以通过蓝牙将可刷新的盲文显示屏连接到Android设备;也能为Android设备开启字幕显示功能及指定的字幕。当然,基于原生Android系统的无障碍功能,手机厂商和OEM也能再做无障碍功能的改进和创新。
有意思的是,iPhone上的无障碍功能曾被广泛使用。由于早期iPhone Home键容易发生失灵的情况,不少iPhone用户都开启了辅助功能中的AssistiveTouch,这其实是苹果为有肢体障碍的人群设计的功能,也是苹果多个的无障碍功能之一。据雷锋网了解,苹果在iOS系统中加入针对残障人群的功能可以追溯到2009年iPhone 3GS中的颜色反转,后来系统中又增加了专门为视障人士开发的屏幕阅读技术VoiceOver、放大镜等功能。如今的iOS系统针对视力、听力、肢体与活动能力、学习与读写能力有障碍的人群都加入了辅助功能。
我们知道,苹果在PC、移动领域都取得了不错的成绩,所以除了iOS系统,苹果PC使用的macOS系统中也包含屏幕和光标放大、全功能屏幕阅读器、可视闪烁提醒、隐藏式字幕支持等辅助功能。还有值得一提的是,除了软件方面的设计,苹果在iPhone7和Apple Watch中内置了Taptic引擎,通过振动向用户提供触觉反馈,这一设计结合Watch OS 3.0能为视觉障碍用户报时。
社交巨头融合AI的无障碍技术
可以看到,微软、谷歌、苹果都在自家系统中增加了辅助功能,为的是人数占比不大的残障人士也能享受到科技带来的便利,这些系统中的无障碍技术有诸多相似之处也各有一些差异,体验也存在差别。
当然,仅有系统层面的无障碍技术还远远不够,不同的应用想要实现更好的体验需要更有针对性的无障碍技术。值得注意的是,雷锋网 (公众号:雷锋网) 发现美国科技巨头Facebook和中国社交巨头腾讯都是率先将AI技术融入到无障碍科技的公司。
Facebook在打造的是无障碍环境的过程中,除了在应用上兼容不同系统的无障碍功能,Facebook还将反馈融入AI系统,让视觉障碍的人群也能“读懂”照片内容。Facebook希望借助自家的Automatic Alt-Text (AAT)技术,让屏幕阅读器用户也能够理解新闻推送中大部分甚至全部的图像内容。
国内的社交巨头腾讯同样也在兼容PC和手机设备系统的基础上,用AI技术帮助视障用户“看到”图片,破除他们的社交障碍。据悉,在QQ空间独立版7.7安卓版的新功能中,有一个是用AI技术对图片进行描述并自动朗读。具体来说,使用安卓系统的视障用户可以在QQ空间APP点击图片,读屏软件会朗读出AI生成的一句图片描述,借助科技可以“看到”网友分享的图片,更深层参与到社交场景中。
QQ空间无障碍版本“图片语音即时描述功能”
雷锋网了解到,具备上述功能的QQ空间APP融入了来自腾讯AI Lab的图像描述生成技术,这项技术是腾讯AI Lab自主研发的强化学习算法,在国际顶级大赛MS COCO的该类别挑战赛上排名第一,超越微软和谷歌等公司。
或许在没有视觉障碍的人群看来这个技术不够“黑科技”,但从学术研究的角度来看,图像描述生成的研究不仅仅需要理解图像,更需要理解自然语言,这是一个跨学科跨模态的交叉研究课题,也是对深度神经网络的学习能力向多个数据域扩展的一步重要的探索。
腾讯 AI Lab 研发了新的强化学习算法(Reinforcement Learning)以进一步提高图像描述生成的模型能力(原理如图),相应的图像描述生成模型,采用了编码器-解码器(encoder-decoder)的框架,同时引入了注意力(attention)的机制。在解码的过程中,AI Lab 创新性地使用了多阶段的注意力机制,除了引入多阶段的注意力机制,AI Lab 所研发的强化学习算法能进一步提升构建的网络模型的训练效果,另外,针对此不可微的问题,AI Lab 使用强化学习算法训练网络模型以优化这些衡量指标。
图像描述生成(image captioning)
除了图片描述,QQ还和优图团队合作推出了OCR图片文字提取功能。具体来说,只要打开手机QQ,长按对话框中的图片选择“提取图中文字”,或是点击“扫一扫”中的“文字提取”,就可以将图片上的文字内容智能识别成为可编辑的文本,让视障用户可以很方便地提取好友发的图片上的文字。同时,OCR图片文字提取功能可以实现多场景应用落地,帮助视觉障碍用户阅读书籍、食品、药品说明书等。
OCR图片文字提取功能的背后是优图实验室世界领先的深度学习技术,它可以在任意版面下识别出整图的文字,包括中英文、字母、数字、标点等共1000种标签,并覆盖到数十种字体,满足生活中大部分场景的读图识字需求。
手机QQ OCR识别功能
在AI技术的加持下,视障用户的社交痛点正在被解决。一位体验了QQ空间自动识别图片后“说出”文字描述的视障用户说:“医学不能让我们复明,但或许科技可以。”另外,一位湖南视障用户因为读屏软件读取QQ表情为空信息而困扰,为此手机QQ开发出表情读取功能让他不仅能与外界顺畅沟通也能用表情表达内心的想法。雷锋网认为,随着AI技术的加持,未来QQ将能够更生动地读取更多的表情包,让视障人群能够更好地使用表情包。
QQ表情读取
用无障碍技术改变世界
腾讯用AI技术让更多的视障用户能够更容易地进行社交,其实早在2009年腾讯就开始关注视障用户使用情况,在PC中推动无障碍技术的改造,使QQ成为国内盲人群体最主要的网络社交平台。2013年,手机QQ作为国内首批支持无障碍特性的APP。2014年1月,腾讯公益慈善基金与致力推动信息无障碍的NGO一起组建了“视障信息无障碍工程师”团队。
2017年,手机QQ共适配1934个无障碍特性,技术上推出OCR图片文字提取功能、QQ表情读取、安卓平台安全支付、声纹加好友、有效识别多条链接等无障碍功能。2018年3月,在中国残疾人联合会、中国盲人协会、中国互联网协会信息无障碍工作委员会的支持下,QQ空间启动“无障碍AI技术”对外开放项目,通过“多媒体AI平台”小程序上的“无障碍AI”入口,首批开放包括OCR文字识别、语音合成、图片转语音三大无障碍AI 技术。
目前,腾讯旗下的QQ、QQ空间、微信、腾讯网、腾讯新闻、应用宝、企鹅FM等大部分产品已针对残障用户实现专门优化。值得一提的是,QQ和QQ空间相关功能在2018年使用量超过1.6亿次,已经成为国内视障群体最主要的网络社交平台。
腾讯在这一领域的持续付出也得到了认可,法国当地时间2018年12月3日,联合国教科文组织(UNESCO)在巴黎颁发“数字技术增强残疾人权能奖”,该奖项表彰“促进残疾人包容发展,通过数字技术为残疾人生活创造合理便利条件做出杰出贡献”的个人和组织。需要指出的是,腾讯是亚洲首个获奖的组织,也是全球范围内首家获奖的企业。
雷锋网小结
残障人群数量只占全球人口总数的很小比例,但是我们欣慰的看到无论是主宰PC时代的Windows系统还是统治手机时代的Android和iOS都为残障人群增加了辅助功能,社交巨头腾讯和Facebook更是率先将AI技术应用到自家的产品中,提升残障人士的使用体验,破除他们的社交障碍,让所有人都能感受到科技改变生活,更是科技巨头们用技术改变世界的一个举动。
现在,我们不仅看到有越来越多公司的产品开始加入针对残障人群的设计,也看到了腾讯早在2009年就开始关注视障用户,希望用极致的产品体验满足所有人的社交需求,并且这个努力也得到了联合国教科文组织的认可。
。