建模术：数据挖掘要还原用户的生活场景

数据观 • 8年前扫码分享

万物皆数据，数据藏大道。教你Know那些有趣、有用、有逼格的Data!

继续“术”篇，希望能更贴近实操。

“术”篇将包含数据收集、数据管理、建模、网站分析、个性化推荐、场景应用、数据升温理论等，这些都是笔者擅长的领域，在长期的实践过程中，形成了个人独特、务实的理解和方法。

建模无疑是大数据里面最艺术的部分，也是最令大数据从业者痴迷、得意的领域，一个好的模型就是一篇作品，是一首诗，令人心旷神怡。

建模、模型并不是什么新鲜事物，它们早已出现在很多场合，譬如“产品模型”、“推荐模型”、“营销模型”、“挖掘模型”等等，它们有什么不同？

建模的幻影有千万种，有些人做过，有些人没做过，我们该如何看待？

建模是不是需具备很多专业知识，非专业人士无法掌握？

小白杨的所思所想，都在下面的文字。

　　 一、建模并不神秘：让数据产生新的数据

一些建模的观点已在前面的道与法两篇体现，归纳如下：

　　 建模的本质就是让数据产生新的数据。 人类、智能体的认知、行动需要用到不同的数据（Know->行动），如果这个数据没有被直接掌握，那就要基于已知的事实数据推测，这个过程就是“建模”，得到的结果就是一个新的“数据”。

建模术：数据挖掘要还原用户的生活场景

　　 建模就是在做侦探， 都是利用已掌握的大量的、不完整的、不一定可信的事实数据推导还原事实的全部。几乎所有的领域都涉及建模。

　　 模型分三大类，但万变不离其宗。

第一类，利用已知的事实数据计算推测相关联的其它事实数据，譬如应用人的属性、行为数据推测它的消费需求；

第二类，利用已知的事实数据计算推测规律性的数据，譬如基于历史的购买记录分析商品的销售趋势、细分比较等；

第三类，利用已知的细节事实数据组合建立对事实全局的认识（数据），譬如从生效时间、适用区域及客户群、定价等维度建立产品模型，其实就是综合这些细节数据形成了一个“产品”的“数据”。

对“新”的数据的认识不要拘泥于一定要和以前的数据不一样，多个数据组合形成新的含义也是一种新的数据。

数据是人类对世界的观测，把客观世界抽样、采集到数字世界里面，建模就是要在数字世界里面把客观事实还原回来、预测它的发展。有趣的是，在数字世界里面，可以打破客观物质的当前认知局限，任意交叉组合，从而有无限创新的可能。

总结一下，建模本质就是对已知数据的组合、简单或者复杂的计算处理，最终转换成一个新的数据，从而影响行动。

不同类型建模差别很大，接下来我们将聚焦到数据营销领域来探讨，部分观点不具备普适性。

　　 二、建模的六大误区

　　 误区一：会用工具等于会建模？ 数据挖掘大多遵循CRISP-DM流程，弄来很多的数据维度（有甚者上百种），选取某一种算法，找来训练集训练出一堆莫名其妙的规则，输出的目标用户特征谁也说不清楚，只能告诉你支持度、置信度多少。这个过程本来是没有问题的，前提条件是有明确的挖掘方向。但是很多人都错把业务目标当挖掘方向了。

真正的建模应该从业务目标开始，先基于业务目标理解客户分解挖掘方向（特征明显的群体），再找数据用算法关联推导。懂工具能很好的完成挖掘方向到目标结果的过程，但业务目标到挖掘方向这个过程就不是只掌握工具就能够胜任的了。

敏锐的洞察挖掘方向、正确的数据选取是建摸的核心能力，比掌握工具更加重要！

　　 误区二：建模不与实际销售场景相结合！ 某央企（莫乱猜）各省公司大数据成功案例满天飞，模型成功率动辄30-40%。笔者看到的时候自惭形愧，也一直很纳闷，做了这么多年精准营销，大部分模型的营销成功率都是几个百分点，两位数以上的凤毛麟角，怎么别人的水平都已经赶超美帝了！后来终于搞明白，原来他们的目标客户在各种渠道成功下单都算，不管是否施加了营销动作，而我们只统计针对目标用户采取营销动作的直接转化下单。他们得意于挖出目标用户的精准，其实，这些模型的高成功率只能说明这批用户自然转化率高，找出这些用户并无实质意义，因为不施加任何动作用户就已经购买了，挖它出来干嘛？

建模必须与实际销售场景结合，要么找出自然转化率高的用户采取更低成本的接触方式转化，要么找出一批用户施加营销动作后较自然转化大大提升！

　　 误区三：盲目使用、过度依赖训练集！ 训练集是个双刃剑，正确使用能充分发挥技术算法的价值，而滥用则陷入误区。前面说的某央企案例，其实训练那些模型并不困难，不就把各渠道成功下单用户作为训练集嘛，掌握工具的新手都能做出来。训练集要与准备施加的营销动作一致的才有意义。

训练集还要有代表性，譬如历史的数据是和大客户谈妥对其所有员工批量转化的，以这些数据为训练集就没有任何意义。

营销场景初始往往没有训练集，必须跳出“训练集”局限。

　　 误区四：要相关不要因果！ 《大数据时代》作者提出这个观点的时候，其实并不是要放弃追求因果，而是找出相关关系后，更迫切的是接下来怎么做，因果关系可以慢慢研究。这一点被很多人误读，世间没有无缘无故的爱，也没有无缘无故的恨，两个事物相关度很高，背后必定有一串的因果链条，如果找不到，那可能是因为训练集的问题导致伪相关，我们就要警惕了。

　　 误区五：过于迷信算法！ 大道至简，有效的东西一定是简单的。非要复杂，那一定是因为没找到或者没掌握关联度更高的原始数据。算法并不能解决所有问题，没有好的数据基础，它无能为力。建模涉及到很多关键要素，比拼的是综合实力，在同等条件下，努力提升算法才是有意义的。

　　 误区六：盲目追求数据精度！ 高的精度意味着更高的成本，对应更少的数据规模，如何取舍就要运用“法”篇说的ROI原则了。

　　 三、建模七术

建模术：数据挖掘要还原用户的生活场景

　　 1、场景驱动

建模的第一件事情是搞清楚应用场景，提炼卖点、利益点，哪些是能打动用户的关键要素。从“命中目标”和“命中营销特性”这两个方面去思考我们要找什么样的用户，匹配什么样的关键特征。

　　 2、迭代建模

建模要用互联网思维“小步快跑，快速迭代”，快速对消费者需求做出反应，否则数据会失去时效。因此我们应从简单开始入手，采用简单算法快速输出数据，后续在实战中不断检验、修正、迭代优化，不断提升数据的精准性。

　　 3、场景还原

确定业务目标后，还原用户的生活场景，设想用户的需求场景，再考察数据能否关联。

理解生活，数据挖掘会很简单。商业最终解决的是人们的物质文化需求，你想挖掘什么样的群体，先从生活中去理解它，它在什么场景下需要这些产品，有什么行为习惯，在我们的数据中留下了哪些蛛丝马迹？譬如“外围女”这个群体，你too simple对她们一无所知，就很难把她们找出来。为了挖掘“工业区人群”，我们特地组织前往厂区调研他们购买手机、上网、生活习惯等情况，为了挖掘“出租车司机”，我们打车的时候对他们进行了访谈。

五个方面理解还原。

身份属性：譬如商务精英消费能力高使用Iphone手机比例高

状态变化：譬如夜间位置变换，推测用户搬家了有宽带需求

行为表达：譬如在社交网络、搜索引擎等互联网上表达了对目标商品的关注

习惯偏好：譬如喜欢日本料理、西餐厅的人群超60%使用Iphone手机

关系推测：譬如和快递员交互的用户，我们推测它是一个电商消费者

对于任何一个业务目标，都可以从上述五个方面还原与业务目标相关联的场景，还原足够多的场景，就可以挖掘出足够规模的用户数据。

　　 4、找数据关联

还原出场景后，就要找数据进行关联。有些我们可以基于直接数据进行输出，没有直接的数据，则找间接数据选取算法进行推导，而间接数据的选取，可继续应用上述五个方面场景还原的方法。

至于具体如何清洗数据、缺省异常值处理、算法选取、误差分析等等那些实操细节，文章很多。

　　 5、快速收敛

建模是人与机器协作的结果，核心参与者是人，建模方向由人来确定，数据维度的选取主要是人（机器辅助验证），算法也是人设计的，机器所起的所用是训练迭代，而机器储存的数据相对人脑太单一，人对数据结果、应用结果进行解读，及时输入一些理解能加快收敛的速度。