为什么说“无监督学习”才是深度学习的未来?
【编者按】 深度学习 的基础就是有大量被贴过标签的数据,而对当前情况来说,数据是有的,而且很多,可是被整理过的数据就太少了。是致力于为数据贴标签再教机器去学习,还是培养机器进行 无监督学习 ,不需要指导就能得出结论?
本文发于网易智能,由网易见外智能编译 机器人 编译,经亿欧编辑,供行业人士参考。
令人惊讶的是,尽管我们的世界几乎被数据所淹没,但很大一部分是未经标注未被整理过的,这意味着这些数据对于大多数目前的监督式学习来说是不可用的。
而深度学习尤其依赖于大量良好的、结构化的、有标签的数据。在我们“神经网络非数理化指南”的第二部分中,我们将研究为什么高质量的、标记过的数据如此重要,它来自哪里,如何使用,以及近期会有什么样的解决方案可以提供给我们制造的那些渴望学习的机器。
监督学习:让我握住你的手
在关于神经网络的文章中,我们曾解释了如何通过精心制作的“香肠印刷机”(sausage press)将数据输入给机器,这些印刷机能够快速进行剖析、分析甚至自我精炼。
这一过程被认为是监督式学习,因为大量的数据被输入到机器中,这些数据被事先煞费苦心地贴上了标签。例如,要训练一个神经网络来识别苹果或橙子的图片,就需要给这些图片贴上标签。机器可以通过识别所有被标记为苹果或橙色的图片来理解数据,这些图片有共同之处,因此机器最终可以利用这些已识别的图片来更准确地预测新图像中所出现的内容。他们看到的标记数据越多,看到的数据集越大,就能更好地增进他们预测的准确性。
这种方法在教 机器学习 视觉数据时很有用,还可以教机器如何识别从照片、视频到图形和书写在内的东西。一个明显的优势是,在许多应用程序中, 机器在图像识别上做得甚至比人类还好。
比如,Facebook的深度学习软件能够将一张陌生人的两张照片进行匹配,其准确性与人类相当(实际上97%的情况下要好于人类),而谷歌在今年早些时候推出了一种可以从医学影像中探测肿瘤的神经网络,它的准确性甚至高于医师。
无监督学习:不需要监护人指导就得出结论
如你所预期,与监督式学习相对应的是无监督学习。这是指你松开系在机器上的皮带,让它潜入数据中,自主地进行发现和体验,寻找模式和联系,并得出结论,而不需要监护人的指导。这项技术长期以来一直被一部分 人工智能 科学家们所批评,但在2012年,谷歌展示了一个深度学习网络,能够从一大堆没有标记过的图片中破译猫、人脸和其他物体。
这项技术令人印象深刻,并带来了一些极为有趣和有用的结果, 但是,到目前为止,在任何方面无人监督学习都达不到监督学习的准确性和有效性。
无处不在的数据
这两种方式的差异使我们进入了对一个更大、令人困惑的话题的探讨。把这些机器比作人类婴儿很有用。我们知道,只要让我们的孩子放松,没有指导他也会学习,但他学到的不一定是我们想要他学的东西,学习的方式也无法预测。
但是,既然我们也通过教育来教孩子,那么我们就需要通过客观上无穷多的话题使孩子暴露于大量物体和概念之中,我们需要教给孩子方向,动物和植物,重力和其他物理属性,阅读和语言,食物类型和元素等。事实上是所有存在的事物。随着时间推移,所有这些几乎都可以通过展示和讲述活动以及回答年轻人无穷多得问题而被解释。这些问题都是由任何好奇的年轻人提出的。
这是一项浩大的工程,但所有父母和普通孩子身边的人每天都在做着这样的事情。神经网络有同样的需求,但它的关注点通常更狭窄,我们也不太会与它进行社交,所以标签需要更加精确。
目前,人工智能研究人员和科学家可以采取很多方法来获取数据,以训练他们的机器。第一种方法是走出去,自己收集大量的标签数据。 谷歌、亚马逊、百度、苹果、微软和Facebook等公司的情况都是如此,有意思的是,这些企业都拥有令人惊叹的海量数据——其中大部分都是由客户免费提供的。如果想把所有这些数据都列出来,那就太愚蠢了;但应该考虑一下上传到这些公司数据库云存储上的数十亿条标记过的图片。
然后想想所有的文档,通过语音、文本、照片和光学字符识别进行的搜索查询,位置数据和地图,评级、赞和分享,购物信息,快递地址,电话号码和联系方式,地址簿和社交网络。拥有这些资源的公司——以及任何规模庞大的公司——往往在机器学习中拥有独特的优势,因为它们拥有丰富的特定类型的数据
数据带来的困难
如果你碰巧没有一家拥有海量数据的财富100强公司,那么你就应该知道如何与他人分享。 获取大量多样化数据是人工智能研究的一个关键部分。 幸运的是,现在已经有大量免费和公开的标签数据集,涵盖了各种各样不同的类别。根据你所想,你可以找到显示从人类面部表情和手语到公众人物脸型和肤色的各种数据集。
你还可以找到数以百万计的关于人群、森林和宠物的图片,这包括所有宠物的照片;你也可以通过筛选大量的用户和顾客评论来获得相关信息。此外,还有一些数据集,包括垃圾邮件、多种语言的推文、博客帖子和法律案例报告。
新的数据类型来自于世界上越来越多、无处不在的传感器,比如医疗传感器、运动传感器、智能设备的陀螺仪、热传感器等等。还有就是人们给他们吃的食物、葡萄酒标签和讽刺性标语等拍的照片。
问题在哪里呢?
尽管数据是如此之多,但事实证明许多数据都不是那么有用。要么是它们太小了,要么是不太好,要么是只有部分被贴上标签,或者标签贴的不合适,总之他们就是无法满足你的需求。 例如,如果你希望教会一台机器识别图像中的星巴克标志,你可能只能找到一个用来训练的图片数据库,该数据库可能被打上了“饮料”、“饮品”、“咖啡”、“容器”或人名“乔”,没有正确的标签,它们就没有用处。
一般的律师事务所或老牌公司在其数据库中可能会有数百万份合同或其他文书,但这些数据无法被使用,因为它们可能是被简单地以未打过标签的PDF格式保存的。在获得最优数据方面的另一个挑战是确保所使用的训练数据集数量够大,并且是多样化的。
另外,在训练一个复杂的模型,如 深度神经网络 时,使用小数据集可能会导致所谓的过度拟合,这是机器学习中一个常见的问题。 实际上,过度拟合是由于大量可学习参数与训练样本有关联导致的,这样的参数充当了“神经元”,我们在之前通过反向传播对其进行了全面的调整。结果可以是一个能够记住这些训练数据的模型,而不是从数据中学习一般概念的模型。
回想一下我们的苹果-桔子网络。因为作为训练数据的苹果图像很少,而神经网络却很庞大,我们很可能会让网络在特定细节上进行仔细的研究——红色、棕茎,圆形,这些细节需要在训练数据之间被准确地区别化。这些微小的细节可能会很好地描述训练苹果的图片,但当测试中机器被要求识别一个新的苹果时,这些细节可能就被证明是无关紧要,甚至是不正确的,因为在测试的时候,可能会有一个新的、机器之前未见过的苹果。
另一个重要的原则就是数据的多样性,从统计学上来说,你所积累的数据越独特,你的数据就越有可能更加多样化。
在“苹果-桔子”的例子中,我们希望机器能有合理的概括能力,这样它就能识别所有苹果和桔子的图像,不管这些苹果桔子是否出现在训练集中。
毕竟,并不是所有的苹果都是红色的,如果我们只在红色苹果的图片上训练我们的网络,很有可能在测试时它是无法识别出绿色苹果的。因此,如果在培训中使用的数据类型是不全面的,无法囊括测试中所有的可能性,那么就会出现这样的问题。
在很多人工智能领域,以偏概全的问题已经开始出现。神经网络和用来训练它们的数据集反映了其制造者人群中的偏见。再一次,如果只用红苹果来训练我们的苹果-橘子网络,我们可能会让机器具有偏见,认为苹果只能是红色的。
如果类推到其他应用之中,比如面部识别,那么不全面数据带来的影响就会变得非常明显,就像老话说的那样:“进来的是垃圾,出去的还是垃圾”
制造一个可以独立思考的捕鼠器
缺少人力去标记数据是一个问题,这很昂贵。 或者如果世界上的所有公司都忽然统一开放他们的数据资源,并心甘情愿地将其提供给全球的科学家,这样一来缺乏好的训练数据一事就不复存在了。
与其朝着获得尽可能多的数据这一目标努力,深度学习的未来可能会是朝着无监督学习技术这一方向发展。
如果我们想一想我们是如何教给婴幼儿关于世界的知识时,这样的做法就是有道理的;毕竟,尽管我们确实教会了孩子很多东西,但作为人类所做的最重要的学习,是经验,这是无人监督的。