人人都能看懂的机器学习入门
01 人类学习 VS 机器学习
自计算机问世以来,人类一直在尝试赋予计算机思想,让计算机变得更智能,让它能够理解我们说的话,看得懂我们的表情,还能够帮助我们处理复杂的事情。因此诞生了一个专门的学科去研究这件事,即人工智能。
如今,人工智能已经成为计算机科学的一个重要分支,它企图了解智能的实质,并生产出一种模拟人类思考的方式,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。
20世纪50年代起,人工智能发展的第一阶段是“推理期”,当时的人工智能是通过赋予计算机一种简单的逻辑推理能力使它变得智能。当时的计算机程序已经能够证明一些简单的数学定理,但这种方式远没有达到真正智能的标准。
到了20世纪70年代,人工智能的发展进入了第二阶段,也就是“知识期”。很多科学家尝试将人类的知识教给计算机,这种方式有点像中学生的题海战术,试图把所有的题目都做一 遍,以便考试的时候获得好成绩。在这段时期出现了大量的“专家系统”,但人类产生的知识量巨大,计算机没有办法全部学会,因此人工智能很快就遇到发展的瓶颈。
无论是推理期还是知识期,计算机都是按照人类设定的规则和总结的规律运作的,永远没有办法做到举一反三。如果只教会计算机做题,却没有教会它解题的思路,下次遇到别的题目时它同样不会。于是,一些学者就想到,如果教会计算机学习的方法,让它能够自我学习,问题不就迎刃而解了吗!因此,机器学习的概念应运而生,人工智能终于进入“机器学习期”。
什么是机器学习?
在搞清楚这个问题之前,我们先回想一下:学习是如何定义的。
对人类来说,学习是指一个人通过观察、模仿、理解、实践等手段获得知识或技能的过程。父母亲会不断地和婴儿说话,婴儿则通过“听”和“说”的方式逐渐 模仿,学习语言。我们从小阅读书籍、模仿字帖写字,通过听、说、读、写四种方式掌握书写汉字的技能,这些都是学习的过程。
机器学习,顾名思义,就是让计算机也能像人类一样学习,通过观察和训练,发现事物规律,从而获得分析问题、解决问题的能力。我们对比一下人类学习和机器学习这两个过程,实际上人类学习汉字时需要用的书籍、字帖对于计算机来说都是输入数据,不是将书籍和字帖放在桌子上,我们就能把里面的内容吸收到脑子里,得通过听、说、读、写等不同的方式让自己掌握写汉字的能力。
机器则通过某个学习算法去学习这些输入数据。最后我们把掌握汉字的书写称为一种技能,对于计算机来说从这些数据中发现规律就是它的技能,通常,我们把这个学习的结果叫作模型。下图展示了人类学习与机器学习的对比。
人类的技能很好理解,写字是一项技能,说话也是一项技能。但计算机能通过学习得到什么技能呢?技能是运用知识和经验执行一定活动的能力。对计算机来说,通过学习的方式可以帮助我们做数据分类、发展轨迹预测、重要因子识别等事情。
例如,从众多的基金中根据基金的历史表现和大盘的数据分析,预测明年哪些基金的收益会持续增多,这是一种机器学习的技能;从茫茫人海中准确识别出每个人的容貌,这是计算机通过学习能够获得的技能。
做过信息流或电商行业的产品经理经常会提到个性化推荐技术,淘宝在很早之前就把“个性化推荐”技术应用到了产品设计中。如图下图所示,我们每次打开手机淘宝,淘宝首页的广告栏及推荐板块的内容都不一样,并且很可能会惊喜地发现这些东西正好是我们想要的东西。
02 机器学习三要素指的是什么
怎么样做到让计算机知道什么商品才是用户当下最想要买的东西呢?要实现这个功能,需要具备三个方面的条件,如下图所示。
1. 数据
想让计算机能够理解用户在想什么,首先要让计算机去观察这个用户在淘宝上都做了些什么、买了些什么。它需要观察的数据包括用户看了哪些商品、哪些商品会点进详情页浏览、在哪些商品停留的时间比较长、买了哪些商品等等。
这些历史数据中蕴含了绝大部分人的购买规律,生活状态、甚至可以根据这些数据生成用户画像。这些数据像一座金矿一样静静等待挖掘,而我们希望计算机能够通过自主学习的方式,把这种规律挖掘出来,将来面对新的用户和商品时,就能预测哪些商品会受到哪类用户的欢迎。
2. 学习算法
算法是机器如何学习这些数据的一种策略,就像“听”、“说”这种人类的学习方法一样,可以帮助模型理解数据。然而算法都有一定的局限性,因此面对不同的数据、不同的目的,我们需要选择不同的算法。当我们要预测客户当下想购买的商品、 想建立用户的画像或者是想分析客户的购买决策因素时,需要用不同的算法。机器学习算法有很多,常见的如逻辑回归、贝叶斯分类、决策树、随机森林等等。
3. 模型
通过一系列的训练之后,我们就能学得一个预测模型,用户下次登录进来的时候 我们能根据这个用户的历史行为做出判断,在首页推荐他想要购买的商品。生成了模型以后才能做到面对新的用户和商品时,预测哪些商品会受到哪类用户的欢迎,利用这个“技能”,让用户感觉到淘宝能够想我所想,推荐的都是我正好想买的东西。
讲到这里部分读者可能会有这样的疑问,用户想要购买什么商品、哪些商品更好卖这些规律我们通过人工的方式也能掌握,在没有机器学习之前我们也一直在做类似的事情,那为什么需要机器学习呢?
还是以淘宝为例,17年“双 11”的交易额突破了1682亿元,共有14万品牌投入1500万种商品参与到“双 11”活动中。如此庞大的数据量已经远远超出了人类能够处理的范畴,我们很难在短时间内从错综复杂的数据中找到蕴藏其中的规则,做出准确的判断。何况这些数据已经是结构化的交易类数据,处理起来已经如此困难,更不用说现代企业每日决策所依赖的数据中有80%的数据为非结构化数据。
对企业来说,商品的交易数据,运输成本,库存管理,历史定价,服务成本,支持成本等数据仅仅是每日做出决策时所需的结构化数据的几个主要来源。而非结构化数据,如社交媒体,邮件记录,通话记录,客户服务,技术支持记录,物联网的传感数据,竞争对手和合作伙伴的定价信息,供应链跟踪数据等数据的指数级增长中,常常会蕴含更具有对优化推荐销售具有指导意义的预测模型,而这些数据正是当今企 所忽视的,也是我们很难去总结应用的数据。
但机器学习很善于处理这类问题,因为它会不断学习并改善模型的表现。机器学习算法本质上是迭代、持续学习的,并且会寻找最优的输出结果。每出现一次误算,算法就会吸取教训改正错误,然后开始下一次数据分析的迭代计算。计算过程以毫秒为单位,可以异常高效地优化决策和预测输出。
我们通过机器学习可以对大量数据进行分析获得规则,并利用规律对未知数据进行预测。不但能从数据中看到人类能看到的规律,更重要的是能在更短的时间内发现人类看不到的规律,我想这就是机器学习最大的应用价值。
在医学领域,通过图像识别技术,已经实现让计算机自动识别肿瘤细胞,帮助医生快速进行医学诊断;在制造业,通过强化学习的方式自动检测产品缺陷提高出品率, 帮助企业加快生产周期降低生产成本;在金融领域,通过神经网络技术可以避免传统程序化交易因为无法根据实时发生的市场变动调整算法,从而造成资产损失的风险。还有在零售、安防、航空、互联网等等不同领域,机器学习都有广泛的应用,它已经对我们生活的产生了巨大的变化。
03 什么问题适合用机器学习去解决
机器学习不是万能的,不是所有的问题都能用它去解决。机器学习擅长的是通过已知经验找到规律去解决问题。如果面对的问题没有任何规律可循,完全是一个随机事件,那么就算使用多复杂的机器学习算法也是无济于事。
值得注意的是,很多问题看似没有规律,实际上是因为人类处理不了数据量太大的情况,看起来杂乱的数据掩盖了背后的面目,这类问题并非真的无迹可寻,只是需要用正确的方法。所以面对问题,我们首先要好好分析可行性,想清楚数据背后的关联关系,透过数据现象看到问题本质。
银行想知道应该发放多少贷款给某个客户时,可以根据过往成功放贷的数据找出每个贷款区间的人群特点、自身的房车资产状况等,再根据这个客户的信息计算应该发放多少贷款,这是一个能够用机器学习去解决的问题;
每天我们的邮箱都有大量的邮件,其中包含了不少广告邮件或者是骚扰的垃圾邮件。我们可以做一个程序根据过往垃圾邮件的特点、经常出现的关键字和IP地址等, 自动识别哪些是垃圾邮件,这也是一个能够用机器学习去解决的问题;
一些产品线众多的企业早已开始利用客户购买记录以及行为特点来优化不同产品线的交叉销售策略,例如研究同时购买“啤酒”和“尿布”这类男人的特点,同时购买“面包”和“打折商品”这类女人的特点,这同样是发挥机器学习的优势去提升转化率的场景。
通过以上例子可以看出来,适合用机器学习去解决的问题,主要有以下三个基本要素:
1. 有规律可以学习
什么样的人比较容易申请到贷款、垃圾邮件如何去识别和客户购买东西的路径, 这三者都不是随机事件,它们存在共性,有内在的规律等待被发现;
2. 编程很难做到
如果我们想通过编程去把上面的规律都写下来难度非常大,比如银行面对的客户数据维度非常多,数据与数据之间的联系也非常复杂,我们很难通过穷举的方式把规则全都列清楚,并且这样的规则在面对异常数据时也没办法自我修正,对新数据的适应性也会变得越来越差;反之使用机器学习的方式可以通过大量数据的学习形成模型,实现对规则的自我学习,不断提升模型的准确率;
3. 有足够多能够学习到规律的数据
银行有大量历史上申请过贷款的客户可以参考,邮件程序有大量垃圾邮件的范本可以参考,企业也有大量成交客户数据可以供模型训练学习。最后这一点非常重要,没有数据的支撑谈论机器学习就像建造房子时搭好了梁少了砖瓦一样。
满足这三个条件的问题,我们都可以尝试挑选合适的算法去解决。基于以上的条件,如下图示,通常我们可以使用机器学习解决以下五类问题:
1. 对数据进行预测
回归任务是机器学习最典型的应用场景,回归是一种预测场景。
在这类任务中,计算机程序会通过输入数据的属性值(特征)找出规律预测新的输出数值。在二维平面中就像是根据一些连续的点构建出一个函数方程,然后通过这个方程画出下一个点的位置,因此通常我们把通过连续值构建模型的任务称为回归任务,常见的回归算法包括线性回归、逻辑回归、多项式回归等等。
这类任务在日常生活中随处可见,例如保险领域通过历史保费数据去预测新投保人的索赔金额,用于设置更合理的保险费,或者是在投资领域通过股票历史数据预测未来的价格。这类预测也用在银行放贷交易中,根据已知数据和模型,预测不同客户应该发放的贷款额度是多少;
2. 对不同类别的数据进行区分
上面的预测任务是通过连续值画出函数找到下一个预测值,分类任务则是通过对离散值进行分类并判断预测值属于哪一个类别。在这类任务中,输入的训练数据不但要有属性值(特征)还需要有对应的标签(类别)。
所谓的学习,其本质就是找到这一堆特征值和标签之间的关系。这样当下次遇到有特征而无标签的未知数据输入时,我们就可以通过已有的关系预测出未知数据的标签是什么。常见的分类算法包括决策树、逻辑回归、朴素贝叶斯以及神经网络算法等等。
分类任务不但在日常生活中很常见,在互联网领域有着极为广泛的应用,典型场景如:商品图片的自动识别分类、广告点击行为的预测以及基于文本内容的垃圾短信、 垃圾邮件识别等等,在电商及金融领域常用的客户画像精准营销也是一种综合性的分类任务。
另外我们在电商中经常看到的推荐系统实际上是一个分类结合回归的复杂场景。通常推荐系统利用客户历史行为,当前用户所处的环境以及商品的特点来决定给你推荐什么内容和商品。所以当我们设计规则的时候可以从商品出发,找到这个商品适合的受众特点,也可以从人群出发,找到这个人群喜欢什么样的商品。值得一提的是,电商的推荐系统往往是由模型以及业务规则叠加组合而成的,并非单纯依靠算法计算适合推荐的商品。
3. 找到属于同一类别的数据
聚类是指根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组的过程,这样的一组数据对象集合叫做簇。聚类的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似。与分类不同,进行聚类前并不知道将要划分成几个组和什么样的组,训练数据中不需要带有标签,完全是依靠算法聚集成簇。
产品经理经常做的用户行为分类就是一个典型的聚类场景,事先我们并不知道用户会进行什么操作,完全是根据用户的使用情况对用户进行分类。在这个场景下往往是根据运营所能接受的运营数目,给定聚类数来使用聚类。完成后为每个结果标注变量的大小,告诉运营每个类别的属性,然后分别制定不同的运营策略。
4. 寻找关键因素(归因)
机器学习的另一个用处是能够帮助我们找到影响某个问题的重要因素是什么。比如上述银行放贷的例子,客户的属性非常多,通过模型我们可以找出对放贷影响最大的因素是什么,未来可以指导业务同事需要重点收集客户哪方面的信息。
5. 检测异常的情况
在这类任务中,机器需要识别其特征显著不同于其他数据的异常值,并标记为不正常的数据。异常检测任务的一个典型应用场景是信用卡欺诈检测。
通过对你的购买习惯建模,信用卡公司可以检测到你的卡是否被盗用。一旦发现出现大量和平时购买习惯不同的交易,信用卡公司会判定这张卡发生了不正常的购买行为,可以尽快冻结该卡以防欺诈。另外在网络攻击、疾病的病因寻找、工厂的质量检测中也是大量运用机器学习的异常检测技术。
拿到需求,在构想整个使用场景的时候,我们首先想这个问题到底适不适合用机器学习的方式去解决。同时还需要思考怎么去拿到有效的数据、如果有缺失数据的话如何补充、数据类型是什么样的、是否有合适的算法可以支持实现。自己在心里有了初步的答案之后再和开发工程师进行交流,对数据提前预习能够提高不少沟通的效率。
以上就是“人人都能看懂的机器学习入门 ”的内容了,如果你还想了解其他相关内容,可以来 产品壹佰 官方网站。
自计算机问世以来,人类一直在尝试赋予计算机思想,让计算机变得更智能,让它能够理解我们说的话,看得懂我们的表情,还能够帮助我们处理复杂的事情。因此诞生了一个专门的学科去研究这件事,即人工智能。
如今,人工智能已经成为计算机科学的一个重要分支,它企图了解智能的实质,并生产出一种模拟人类思考的方式,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。
20世纪50年代起,人工智能发展的第一阶段是“推理期”,当时的人工智能是通过赋予计算机一种简单的逻辑推理能力使它变得智能。当时的计算机程序已经能够证明一些简单的数学定理,但这种方式远没有达到真正智能的标准。
到了20世纪70年代,人工智能的发展进入了第二阶段,也就是“知识期”。很多科学家尝试将人类的知识教给计算机,这种方式有点像中学生的题海战术,试图把所有的题目都做一 遍,以便考试的时候获得好成绩。在这段时期出现了大量的“专家系统”,但人类产生的知识量巨大,计算机没有办法全部学会,因此人工智能很快就遇到发展的瓶颈。
无论是推理期还是知识期,计算机都是按照人类设定的规则和总结的规律运作的,永远没有办法做到举一反三。如果只教会计算机做题,却没有教会它解题的思路,下次遇到别的题目时它同样不会。于是,一些学者就想到,如果教会计算机学习的方法,让它能够自我学习,问题不就迎刃而解了吗!因此,机器学习的概念应运而生,人工智能终于进入“机器学习期”。
什么是机器学习?
在搞清楚这个问题之前,我们先回想一下:学习是如何定义的。
对人类来说,学习是指一个人通过观察、模仿、理解、实践等手段获得知识或技能的过程。父母亲会不断地和婴儿说话,婴儿则通过“听”和“说”的方式逐渐 模仿,学习语言。我们从小阅读书籍、模仿字帖写字,通过听、说、读、写四种方式掌握书写汉字的技能,这些都是学习的过程。
机器学习,顾名思义,就是让计算机也能像人类一样学习,通过观察和训练,发现事物规律,从而获得分析问题、解决问题的能力。我们对比一下人类学习和机器学习这两个过程,实际上人类学习汉字时需要用的书籍、字帖对于计算机来说都是输入数据,不是将书籍和字帖放在桌子上,我们就能把里面的内容吸收到脑子里,得通过听、说、读、写等不同的方式让自己掌握写汉字的能力。
机器则通过某个学习算法去学习这些输入数据。最后我们把掌握汉字的书写称为一种技能,对于计算机来说从这些数据中发现规律就是它的技能,通常,我们把这个学习的结果叫作模型。下图展示了人类学习与机器学习的对比。
人类的技能很好理解,写字是一项技能,说话也是一项技能。但计算机能通过学习得到什么技能呢?技能是运用知识和经验执行一定活动的能力。对计算机来说,通过学习的方式可以帮助我们做数据分类、发展轨迹预测、重要因子识别等事情。
例如,从众多的基金中根据基金的历史表现和大盘的数据分析,预测明年哪些基金的收益会持续增多,这是一种机器学习的技能;从茫茫人海中准确识别出每个人的容貌,这是计算机通过学习能够获得的技能。
做过信息流或电商行业的产品经理经常会提到个性化推荐技术,淘宝在很早之前就把“个性化推荐”技术应用到了产品设计中。如图下图所示,我们每次打开手机淘宝,淘宝首页的广告栏及推荐板块的内容都不一样,并且很可能会惊喜地发现这些东西正好是我们想要的东西。
02 机器学习三要素指的是什么
怎么样做到让计算机知道什么商品才是用户当下最想要买的东西呢?要实现这个功能,需要具备三个方面的条件,如下图所示。
1. 数据
想让计算机能够理解用户在想什么,首先要让计算机去观察这个用户在淘宝上都做了些什么、买了些什么。它需要观察的数据包括用户看了哪些商品、哪些商品会点进详情页浏览、在哪些商品停留的时间比较长、买了哪些商品等等。
这些历史数据中蕴含了绝大部分人的购买规律,生活状态、甚至可以根据这些数据生成用户画像。这些数据像一座金矿一样静静等待挖掘,而我们希望计算机能够通过自主学习的方式,把这种规律挖掘出来,将来面对新的用户和商品时,就能预测哪些商品会受到哪类用户的欢迎。
2. 学习算法
算法是机器如何学习这些数据的一种策略,就像“听”、“说”这种人类的学习方法一样,可以帮助模型理解数据。然而算法都有一定的局限性,因此面对不同的数据、不同的目的,我们需要选择不同的算法。当我们要预测客户当下想购买的商品、 想建立用户的画像或者是想分析客户的购买决策因素时,需要用不同的算法。机器学习算法有很多,常见的如逻辑回归、贝叶斯分类、决策树、随机森林等等。
3. 模型
通过一系列的训练之后,我们就能学得一个预测模型,用户下次登录进来的时候 我们能根据这个用户的历史行为做出判断,在首页推荐他想要购买的商品。生成了模型以后才能做到面对新的用户和商品时,预测哪些商品会受到哪类用户的欢迎,利用这个“技能”,让用户感觉到淘宝能够想我所想,推荐的都是我正好想买的东西。
讲到这里部分读者可能会有这样的疑问,用户想要购买什么商品、哪些商品更好卖这些规律我们通过人工的方式也能掌握,在没有机器学习之前我们也一直在做类似的事情,那为什么需要机器学习呢?
还是以淘宝为例,17年“双 11”的交易额突破了1682亿元,共有14万品牌投入1500万种商品参与到“双 11”活动中。如此庞大的数据量已经远远超出了人类能够处理的范畴,我们很难在短时间内从错综复杂的数据中找到蕴藏其中的规则,做出准确的判断。何况这些数据已经是结构化的交易类数据,处理起来已经如此困难,更不用说现代企业每日决策所依赖的数据中有80%的数据为非结构化数据。
对企业来说,商品的交易数据,运输成本,库存管理,历史定价,服务成本,支持成本等数据仅仅是每日做出决策时所需的结构化数据的几个主要来源。而非结构化数据,如社交媒体,邮件记录,通话记录,客户服务,技术支持记录,物联网的传感数据,竞争对手和合作伙伴的定价信息,供应链跟踪数据等数据的指数级增长中,常常会蕴含更具有对优化推荐销售具有指导意义的预测模型,而这些数据正是当今企 所忽视的,也是我们很难去总结应用的数据。
但机器学习很善于处理这类问题,因为它会不断学习并改善模型的表现。机器学习算法本质上是迭代、持续学习的,并且会寻找最优的输出结果。每出现一次误算,算法就会吸取教训改正错误,然后开始下一次数据分析的迭代计算。计算过程以毫秒为单位,可以异常高效地优化决策和预测输出。
我们通过机器学习可以对大量数据进行分析获得规则,并利用规律对未知数据进行预测。不但能从数据中看到人类能看到的规律,更重要的是能在更短的时间内发现人类看不到的规律,我想这就是机器学习最大的应用价值。
在医学领域,通过图像识别技术,已经实现让计算机自动识别肿瘤细胞,帮助医生快速进行医学诊断;在制造业,通过强化学习的方式自动检测产品缺陷提高出品率, 帮助企业加快生产周期降低生产成本;在金融领域,通过神经网络技术可以避免传统程序化交易因为无法根据实时发生的市场变动调整算法,从而造成资产损失的风险。还有在零售、安防、航空、互联网等等不同领域,机器学习都有广泛的应用,它已经对我们生活的产生了巨大的变化。
03 什么问题适合用机器学习去解决
机器学习不是万能的,不是所有的问题都能用它去解决。机器学习擅长的是通过已知经验找到规律去解决问题。如果面对的问题没有任何规律可循,完全是一个随机事件,那么就算使用多复杂的机器学习算法也是无济于事。
值得注意的是,很多问题看似没有规律,实际上是因为人类处理不了数据量太大的情况,看起来杂乱的数据掩盖了背后的面目,这类问题并非真的无迹可寻,只是需要用正确的方法。所以面对问题,我们首先要好好分析可行性,想清楚数据背后的关联关系,透过数据现象看到问题本质。
银行想知道应该发放多少贷款给某个客户时,可以根据过往成功放贷的数据找出每个贷款区间的人群特点、自身的房车资产状况等,再根据这个客户的信息计算应该发放多少贷款,这是一个能够用机器学习去解决的问题;
每天我们的邮箱都有大量的邮件,其中包含了不少广告邮件或者是骚扰的垃圾邮件。我们可以做一个程序根据过往垃圾邮件的特点、经常出现的关键字和IP地址等, 自动识别哪些是垃圾邮件,这也是一个能够用机器学习去解决的问题;
一些产品线众多的企业早已开始利用客户购买记录以及行为特点来优化不同产品线的交叉销售策略,例如研究同时购买“啤酒”和“尿布”这类男人的特点,同时购买“面包”和“打折商品”这类女人的特点,这同样是发挥机器学习的优势去提升转化率的场景。
通过以上例子可以看出来,适合用机器学习去解决的问题,主要有以下三个基本要素:
1. 有规律可以学习
什么样的人比较容易申请到贷款、垃圾邮件如何去识别和客户购买东西的路径, 这三者都不是随机事件,它们存在共性,有内在的规律等待被发现;
2. 编程很难做到
如果我们想通过编程去把上面的规律都写下来难度非常大,比如银行面对的客户数据维度非常多,数据与数据之间的联系也非常复杂,我们很难通过穷举的方式把规则全都列清楚,并且这样的规则在面对异常数据时也没办法自我修正,对新数据的适应性也会变得越来越差;反之使用机器学习的方式可以通过大量数据的学习形成模型,实现对规则的自我学习,不断提升模型的准确率;
3. 有足够多能够学习到规律的数据
银行有大量历史上申请过贷款的客户可以参考,邮件程序有大量垃圾邮件的范本可以参考,企业也有大量成交客户数据可以供模型训练学习。最后这一点非常重要,没有数据的支撑谈论机器学习就像建造房子时搭好了梁少了砖瓦一样。
满足这三个条件的问题,我们都可以尝试挑选合适的算法去解决。基于以上的条件,如下图示,通常我们可以使用机器学习解决以下五类问题:
1. 对数据进行预测
回归任务是机器学习最典型的应用场景,回归是一种预测场景。
在这类任务中,计算机程序会通过输入数据的属性值(特征)找出规律预测新的输出数值。在二维平面中就像是根据一些连续的点构建出一个函数方程,然后通过这个方程画出下一个点的位置,因此通常我们把通过连续值构建模型的任务称为回归任务,常见的回归算法包括线性回归、逻辑回归、多项式回归等等。
这类任务在日常生活中随处可见,例如保险领域通过历史保费数据去预测新投保人的索赔金额,用于设置更合理的保险费,或者是在投资领域通过股票历史数据预测未来的价格。这类预测也用在银行放贷交易中,根据已知数据和模型,预测不同客户应该发放的贷款额度是多少;
2. 对不同类别的数据进行区分
上面的预测任务是通过连续值画出函数找到下一个预测值,分类任务则是通过对离散值进行分类并判断预测值属于哪一个类别。在这类任务中,输入的训练数据不但要有属性值(特征)还需要有对应的标签(类别)。
所谓的学习,其本质就是找到这一堆特征值和标签之间的关系。这样当下次遇到有特征而无标签的未知数据输入时,我们就可以通过已有的关系预测出未知数据的标签是什么。常见的分类算法包括决策树、逻辑回归、朴素贝叶斯以及神经网络算法等等。
分类任务不但在日常生活中很常见,在互联网领域有着极为广泛的应用,典型场景如:商品图片的自动识别分类、广告点击行为的预测以及基于文本内容的垃圾短信、 垃圾邮件识别等等,在电商及金融领域常用的客户画像精准营销也是一种综合性的分类任务。
另外我们在电商中经常看到的推荐系统实际上是一个分类结合回归的复杂场景。通常推荐系统利用客户历史行为,当前用户所处的环境以及商品的特点来决定给你推荐什么内容和商品。所以当我们设计规则的时候可以从商品出发,找到这个商品适合的受众特点,也可以从人群出发,找到这个人群喜欢什么样的商品。值得一提的是,电商的推荐系统往往是由模型以及业务规则叠加组合而成的,并非单纯依靠算法计算适合推荐的商品。
3. 找到属于同一类别的数据
聚类是指根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组的过程,这样的一组数据对象集合叫做簇。聚类的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似。与分类不同,进行聚类前并不知道将要划分成几个组和什么样的组,训练数据中不需要带有标签,完全是依靠算法聚集成簇。
产品经理经常做的用户行为分类就是一个典型的聚类场景,事先我们并不知道用户会进行什么操作,完全是根据用户的使用情况对用户进行分类。在这个场景下往往是根据运营所能接受的运营数目,给定聚类数来使用聚类。完成后为每个结果标注变量的大小,告诉运营每个类别的属性,然后分别制定不同的运营策略。
4. 寻找关键因素(归因)
机器学习的另一个用处是能够帮助我们找到影响某个问题的重要因素是什么。比如上述银行放贷的例子,客户的属性非常多,通过模型我们可以找出对放贷影响最大的因素是什么,未来可以指导业务同事需要重点收集客户哪方面的信息。
5. 检测异常的情况
在这类任务中,机器需要识别其特征显著不同于其他数据的异常值,并标记为不正常的数据。异常检测任务的一个典型应用场景是信用卡欺诈检测。
通过对你的购买习惯建模,信用卡公司可以检测到你的卡是否被盗用。一旦发现出现大量和平时购买习惯不同的交易,信用卡公司会判定这张卡发生了不正常的购买行为,可以尽快冻结该卡以防欺诈。另外在网络攻击、疾病的病因寻找、工厂的质量检测中也是大量运用机器学习的异常检测技术。
拿到需求,在构想整个使用场景的时候,我们首先想这个问题到底适不适合用机器学习的方式去解决。同时还需要思考怎么去拿到有效的数据、如果有缺失数据的话如何补充、数据类型是什么样的、是否有合适的算法可以支持实现。自己在心里有了初步的答案之后再和开发工程师进行交流,对数据提前预习能够提高不少沟通的效率。
以上就是“人人都能看懂的机器学习入门 ”的内容了,如果你还想了解其他相关内容,可以来 产品壹佰 官方网站。