【盘点】掌握机器学习的5条必由之路(附学习资料推荐)
1 新智元编译 1
来源:http://machinelearningmastery.com/
作者:Jason Brownlee
译者:刘小芹
【重要通知:10月18 日世界人工智能大会现场一律凭活动行二维码入场, 上午主论坛于 08:30 正式开始 ,现场座位紧张,请提前签到入场。另外, 不接受现金购票,分论坛票只有下午可以入场】 2016 世界人工智能大会 活动行浏览已经超过 7 万,还有一些已购票付款的公司和机构未换二维码。活动行在大会现场设有咨询席位,但提前换二维码节省签到时间。请团购注册的公司关注,务必提醒参会的同事们手机接收二维码,如果不清晰可以打印出来,现场在签到处换领大会嘉宾胸卡。
大会地点:国家会议中心( C4 入口)
会议签到:上午主论坛 07:30-08:30,下午分论坛 13:00-14:00
会议时间:上午主论坛 08:30- 12:00 ,下午分论坛 14:00-18:00
【关注世界人工智能大会的好友们,福利来了!】 爱奇艺科技频道提供周二上午主论坛的直播( H5地址,各端都可以看 ): http://www.iqiyi.com/l_19rr7t1kdn.html
无法亲临现场的好友们欢迎收藏!
【新智元导读】 作者在本文提出一种5步入门并应用机器学习的方法。它不是传统的方法。传统的机器学习方法提倡从下往上学,先从理论和数学开始,然后是算法实现,最后让你去解决现实世界的问题。
作者提倡的掌握机器学习的方法与传统方法相反,是从最有价值的成果部分开始。
目标是得到有商业价值的成果:怎样得出结果。
这个结果以一系列预测或能进行可靠预测的模型的方式呈现。
这是一种从上往下的、结果优先的方法。
在商业社会,开始时就有要得到结果的目标是最重要的,那么,怎样才能得到结果?
我们总结了5个步骤:
· 第1步:调整心态 (要有信心!).
· 第2步:选择程序
· 第3步:选择工具
· 第4步:用数据集练习
· 第5步:做一个作品集
就这么简单!
下图是这个过程的图示,为了简便省略了第1步和第5步。
下面是这个过程的详细解释。
第0步:了解机器学习基本概念
开始学习之前,你需要了解机器学习的一些基本概念和大事件。可以问自己一些问题,并尝试回答。
例如:
· 你应该了解机器学习是什么,并能够向同事解释。
· 你应该了解机器学习的一些经典案例。
· 你应该知道机器学习对某些复杂问题来说是唯一的解决办法。
· 你应该知道预测建模是应用机器学习最有效的部分。
· 你应该知道机器学习怎样应用于AI以及数据科学。
· 你应该了解可得到的机器学习算法有哪些类型。
· 你应该了解一些机器学习的基本术语。
第1步:调整心态
机器学习不是教授的专利,也不是只为天才和学术研究者所专有的。
你得有信心!
你一定能学会机器学习,并且利用它解决问题。
有什么理由做不到呢?
· 你不需要写代码
· 不需要掌握很多数学知识
· 不需要高等学历
· 不需要大数据
· 不需要超级计算机
· 也不需要花很多时间
真的,让你止步不前、甚至无法开始的原因只有一个,就是你自己。
· 也许你只是找不到动力。
· 也许你想必须备齐所有工具才开始。
· 也许你一直挑高深的问题做,而不是从初级问题开始。
· 也许你在使用工具和库时缺乏系统的过程。
· 也许你没有好好利用工具和库。
这些想法让你无法开始。下面这篇文章可能对你有帮助:
What isHolding you Back From Your Machine Learning Goals?http://machinelearningmastery.com/what-is-holding-you-back-from-your-machine-learning-goals/
解决这些问题的方法很多,你要发现它们、消除它们,然后继续前进。
为什么学机器学习?
当你认识到你可以学机器学习,你还要明白为什么学它。
· 也许你对学习更多机器学习算法感兴趣。
· 也许你对创建预测感兴趣。
· 也许你对解决复杂问题感兴趣。
· 也许你对开发更智能的软件感兴趣。
· 也许你甚至想成为一名数据科学家。
仔细思考这个问题,明白自己为什么想学习机器学习。
下面这篇文章可能对你有帮助:
http://machinelearningmastery.com/why-get-into-machine-learning/
找到了“为什么”后,你还要找到你的根据地。
下面这些分类,你属于哪种呢?
· 兴趣广泛的生意人
· 正在做项目的负责人
· 机器学习专业的学生
· 机器学习研究人员
· 正在处理棘手难题的研究者
· 想实现算法
· 需要一次性预测
· 需要可以利用的模型
· 数据科学家
· 数据分析师
不同的人有不同的兴趣点,因此会从不同的方向开始机器学习。
不是所有书籍或材料都适合你,知道你属于哪种人,然后再找适合自己的资料。
下面这篇文章可能对你有帮助:
http://machinelearningmastery.com/machine-learning-tribe/
第2步:选择程序
你想在一个接一个的问题中得出高于平均水平的结果吗?
那么你需要按照系统的程序来。
· 好的程序能让你利用和重复利用最好的练习
· 意味着你不必依赖记忆或直觉
· 引导你做完一个项目
· 让你总是明白下一步该做什么
· 还可以针对你的特殊问题类型和工具进行调整
我推荐的程序如下:
· Step 1: 确定问题
· Step 2: 准备数据
· Step 3: 抽样检查算法
· Step 4: 改善结果
· Step 5: 呈现结果
你可以不按这个步骤来,但在处理预测建模问题时最好要有系统性的程序。下面这篇文章可能对你有帮助:
http://machinelearningmastery.com/process-for-working-through-machine-learning-problems/
第3步:选择工具
选择一个能实现机器学习结果的最佳工具,并学习怎样最高效地使用工具。
我最推荐的工具是以下三个:
· WekaMachine Learning Workbench (适合初学者).Weka提供GUI界面,而且不需要自己写代码,可以用于快速一次性的建模问题。
· PythonEcosystem (适合中级学习者). 尤其是SciPy平台的pandas和scikit-learn。开发时你可以直接使用上面的代码和模型,它们的可靠性足够用来运行操作了。
· R Platform (适合高级学习者).R语言是为统计计算设计的,虽然语言艰深而且部分软件包文档很少,但它提供了很多方法。
针对专门领域,推荐的工具如下:
· 用于深度学习的Keras. Keras使用Python语言,意味着你可以充分利用整个Python生态系统,节省大量时间。它的界面非常干净,同时也支持Theano和Keras后端。
· 用于损失函数的XGBoost. 这是能最快实现损失函数的工具,它也支持R语言和Python。
以上只是我的一些个人推荐。同时也要学习怎样使用你选择的工具,成为这方面的专家。
用哪种编程语言?
用哪种编程语言都没关系,甚至用哪种工具也不会有什么影响。你在一个平台上实践时学到的技巧也能很容易转移到另一个平台。
第4步:用数据集练习
确定了程序和工具后,就需要练习,做很多练习。
用标准机器学习数据集练习。
· 使用从现实问题(而不是人造问题)中收集的真实数据集
· 使用适合内存和excel表单的小型数据集
· 使用好理解的数据集,以便预测结果类型
用不同类型的数据集进行练习。练习你不熟悉的问题,这能推动你在寻求解决方法的过程中技术得到进步。了解数据集的不同特性,例如:
· 不同类型的监督学习,例如分类和回归。
· 不同规格的数据集,实例(instance)的数量从小于十个、数十、数百到数千。
· 属性(attribute)的数量不同的数据集,从小于十种、数十种、数百种到数千种。
· 属性类型不同的数据集,包括实数、整数、分类数、序数、混合等。
· 不同的领域,能迫使你快速了解新的问题。
使用UCI机器学习资料库(UCI MachineLearning Repository)
上面有最常用、最好理解的一些数据集,对入门来说非常好。
·了解更多:PracticeMachine Learning with Small In-Memory Datasets from the UCI Machine LearningRepository
利用机器学习竞赛,例如Kaggle
Kaggle上的数据集通常更大型,建模需要更多准备。
这篇文章列举了一些最常用的数据集:
Tour ofReal-World Machine Learning Problems
用你自己设计的问题练习
为适合你自己的机器学习问题收集数据,你会发现这非常有帮助。
第5步:做一个作品集
为你完成的项目建一个作品集,并好好利用。
在用数据集练习并不断进步的过程中,创建一个半正式的输出集合,总结你的发现。
· 你可以上传代码,并在readme文档中总结。
· 你可以在博客中发表你的结果。
· 你可以做成幻灯片。
· 你也可以做一个小视频传到YouTube上。
每一个完成的项目都代表着你的成长作品集的一页。
技巧提示
以下是有关机器学习的一些技巧提示:
· 从简单的程序(例如上文推荐的)和简单的工具(例如Weka)开始,有信心之后再进阶。
· 从最简单最常用的数据集入手(如iris flowers 和 Pima diabetes)
· 每次应用该程序,尝试做一些改进。
· 发现新方法时,找到把它整合到你的程序中的最佳方式。
· 研究算法,但只研究到能帮助你取得更好结果就够了。
· 向专家学习,研究怎样将专家的方法加入到你的程序中。
· 像研究预测建模问题那样研究你的工具,充分利用它们。
· 不要在简单的问题中耽搁,不断挑战更难的问题。
· 专注于清晰呈现的结果,结果越清晰,你的作品集的作用越大。
· 加入论坛和问答网站社区,提问并回答问题。
总结
这篇文章提出了一个简单的5步方法,你可以用它来开始机器学习的入门,并在应用中不断进步。
虽然方法简单,但只要你确实投入努力,就会得到回报。
我有许多学生正是这样成为机器学习工程师或数据科学家的。
豪华嘉宾阵容,共飨 AI 盛宴
7 大院长齐聚新智元智库院长圆桌论坛
2016世界人工智能大会技术论坛特设“新智元智库院长圆桌会议”,重量级研究院院长8仙过海,带来最前沿的AI研究动态、剖析技术发展趋势。
八位人工智能界“高手”现场过招,思想的激烈碰撞会给目前的人工智能发展带来哪些洞见?八位院长对行业的发展会有哪些前瞻揭秘?10月18日下午,2016 世界人工智能大会技术论坛,答案将逐层揭晓。
新智元智库院长圆桌汇集了中国人工智能产学研三界最豪华院长阵容:美团技术学院院长刘江担任主持人,微软亚洲工程院院长刘震、IBM中国研究院副院长邵凌、360人工智能研究院院长颜水成、北京理工大学计算机学院副院长黄华、Intel 中国研究院院长宋继强、新华网融媒体未来研究院院长杨溟联袂出席。
2016世界人工智能大会技术论坛议程
扫描二维码购票:
购票链接:http://www.huodongxing.com/go/aiworld2016
也可点击‘阅读原文’直接购票
票务联系 132·4023·6748