雷锋网 AI 科技评论按:本文是由来自英特尔的数据科学家 Dipanjan Sarkar 在 Medium 上发布的「特征工程」博客下篇,给领域内的研究人员补充特征工程的相关知识,不论学术研究、数据竞赛还是解决商业问题都必不可少。
在上篇中,作者介绍了连续型数值数据的特征工程处理方法
。本篇为下篇,主要
雷锋网 AI 科技评论按:眨眼间我们就从人工特征、专家系统来到了自动特征、深度学习的人工智能新时代,众多开源测试数据集也大大降低了理论研究的门槛,直接加载数据集就可以开始模型训练或者测试。然而面对实际问题时,收集到的数据往往不是像数据集中那样整理好的,直接用来跑模型会带来各种各样的问题。这时候我们就开始回忆起「特征工程