小白学数据：一文看懂机器学习

搜狐科技 • 9年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

　　大数据文摘作品，转载需授权

　　编译：Aileen，薛菲，Nancyzxll

　　久违的下载来了！

　　 2016年2-3月合集下载，大数据文摘后台回复“ 最新下载 ”

　　 ◆ ◆ ◆

译者注

　　大数据时代，机器学习绝对是最热门的词汇之一。每一个人，无论是文科生还是理科生，各行各业的人士，都或多或少听说过机器学习这个词。简单的说，机器学习就是让电脑程序像人类思维一样解决问题。小白还是会问：“好吧，但是机器学习到底是个啥？生活中哪里可以用到？”这是一个好问题！接下来我们就通过回答一系列问题来给小白解释什么是机器学习，每个人都可以看得懂。

　　 ◆ ◆ ◆

几个基本问题

　　 小白问：所以机器学习是尖端科技吗？

　　答：不是，但是它会用在尖端科技中。

　　 小白问：那为什么很多人，比如我，都大不敢去尝试进入这个领域呢？

　　答：可能这个事儿听起来有点不可思议吧。所以好多人误以为这超出了自己理解和学习能力范围。

　　 小白问：那到底它有多复杂？

　　答：干过这个事儿的人就知道，它就是个孩子们的游戏。（这个说法有点夸张，但基本就是这个意思）。

　　 小白问：那机器学习到底是个啥？

　　答：它是个试图让事情更智能的过程。我们大多数人都听说类似“人工神经网络”这类的词，就是试图复制人类大脑工作过程的一种尝试。即使是这样的事情都不一定总是复杂的。说白了，它就是乘法和微分。就是你在学校里学的数学，没什么不同的

　　小白问：你说机器学习让事情更智能，什么是智能？

　　答：智能就是理解事物背后的概念和模式。可以是理解人的情绪，弄清楚人类的语言在讲什么（例如：汉语，英文，印度语），或者很酷地做些预测。

　　 小白问：这可能是个傻问题，为什么叫机器学习？这名字对小白来说有些拗口啊。

　　答：没有问题是傻问题！机器学习是由英文MachineLearning直接翻译而来，这里的机器就是指的计算机。人脑之所以可以工作，是因为它在不断吸收信息并学习。机器学习就是让计算机像人脑一样，也学习它接收到的数据和信息。拿图片分类这件事儿来说吧，我们人脑之所以知道这个图片是苹果，那个图片是鸭梨，是通过看了足够多的苹果和鸭梨终于学会了正确分类。机器学习就是指我们写一些电脑程序使得计算机可以自动学习，最终正确分类。

　　 小白问：机器学习最主要的好处是什么？它为什么这么重要？

　　答：机器学习可以模拟人脑学习。对于学习的过程显然人脑学习容易得多，一个小孩都可以分清苹果和鸭梨。机器学习则需要花时间写代码，而且需要提前学习大量已知数据（比如，要给你的计算机看很多很多的苹果和鸭梨）才能正确作出分类判断。但是，一旦机器学习的过程完成，自动化和大量应用就很容易 � 一台机器可以轻而易举的对百万张图片进行很快分类且不会劳累，人脑可是做不到。所以说，机器学习和大数据是完美搭档！

　　 小白问：那机器学习可以用来做什么？

　　答：基本上人类可以做什么，机器学习就可以做什么，甚至更多！比如：

1）你在某个电商网站上买东西，机器学习可以从千万商品中找出你最想要，最相关的选项

　　 2）视频网站用机器学习来猜你今天的心情，然后给你推荐你现在最感兴趣的电影。

　　 3）谷歌可以从亿万搜索结果中找出最相关的网页。

　　 4）医学领域应用机器学习，在一个人健康的时候就预测出他是否会得某种病（比如癌症）。是不是有点起鸡皮疙瘩了？

　　 5）我最喜欢的应用是微软的小娜（Cortana）和苹果公司的Siri这样可以理解语言的机器人。

　　 6）所有的事情几乎都可以用到机器学习！！^_^

　　 ◆ ◆ ◆

深入聊聊

　　机器学习在netflix中的应用（netflix是美国著名电影电视剧点播网站）

　　 Netflix中的每一部电影都有一个标签，注明了这部电影的类型。比如著名的星球大战系列电影的类型标签就是冒险型。除了类型标签以外，这些电影还有一些别的标签，比如演员，导演，出产年份等等。

　　当你在netflix上看电影的时候，系统会根据你的行为自动地记录一些其他信息。比如你有没有看完这部电影，没有的话看了多少分钟或者你中间暂停了多少次等等。有了这些信息以后，系统就可以开始找出你行为中的一些规律，然后就可以给你推荐下一部你可能想看的电影。

　　比如下面是个筛选电影的流程：

　　你喜欢动作片 -> 在所有电影里面，有100部电影可以选择

你喜欢周润发 �> 还剩50部电影

你不喜欢时间长的电影 �> 只剩10个选择了

　　现在我们就可以把这10部电影推荐给你，但是系统可以做的远远不止这些。

　　你通常在晚上6-10点之间看电影->选择这个时间为你推送影片信息

你通常在睡前看恐怖电影->在晚上10点左右优先推荐恐怖片

　　 机器学习在谷歌语言分析中的应用

　　机器学习在谷歌应该说无处不在：包括在输入搜索问题的时候得到的自动提示，还有最后得到的搜索结果通通用的是机器学习。更确切的说，用的是自然语言处理也叫NLP。所谓的自然语言就是人类互相交流实用的语言，比如中文和英语。机器通过自然语言处理可以把这些自然语言中的每一个词都转化成向量。你可以把这些向量想成一个长度为N，高度为1的矩阵（排成长方形的一堆数），通常N的大小取决于所分析语言的复杂程度，也就是说这个语言中设定的规则的数目。比如说我们可以推断英语中大概有300-400个这些规则。那么，这个向量长度就为300-400。在这矩阵中，每一个规则都有一个矩阵中对应的数值。

　　 小白问：那有这么多个规则，怎么给他们加上数值呢？

　　答：我也不知道的说 :D

　　 小白问：啥都不知道为什么还这么激动？

　　答：这就是机器学习的神奇所在！这个计算数值的过程中不需要人的插手，自动就可以得到数值。而且这些向量中的数值是有确切含义的。

　　比如下面有这三句话：

　　 1.梅西射门得分了

　　 2.罗纳尔多点球没进

　　 3.小刚希望自己的工资多点

　　传统的学习方法会认为，第二句和第三句话中都有“多点”这部分，别的好像没有什么字是重合的了。所以结论是：那第二句和第三句肯定有相同之处吧？

　　但是任何正常的人类大脑都知道其实第一句和第二句才是同一个主题，都是讨论足球，所以更有可能同时出现。机器学习中的向量也明白这个道理J。经过机器学习后，“罗纳尔多”的向量和“梅西”的向量更为接近。当我们可以比较向量的相似程度的时候，最后得到的结果就和我们大脑得到的结果更加接近。是不是很神奇呀？

　　 小白问：所以你的意思是矩阵中的数值可以帮助我们理解一句话到底是讲的啥了？

　　答：你真聪明！现在你还觉得机器学习难懂吗？^_^