数据挖掘在Google再营销中的应用

36大数据 • 9年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

数据挖掘在Google再营销中的应用

文 | 数据小A

再营销就是将广告信息再次推送到曾经访问过你的网站用户面前，Google再营销就是利用Google联盟已有的网站和广告数据，对曾经来过网站或点击过广告的用户群体召回，并结合数据挖掘技术实现精准再营销，提高转化率。

Google精准再营销具体流程如下：

数据挖掘在Google再营销中的应用

用KNIME预测模型找到高价值用户

模型节点概览

数据挖掘在Google再营销中的应用

(一)数据导入 ：CSV Reader节点，读入数据后可以查看到如下详细数据列：

数据挖掘在Google再营销中的应用

(二)数据处理 ：对读入数据进行去燥处理，主要包含以下几方面：

数据挖掘在Google再营销中的应用

具体方法如下：

数据挖掘在Google再营销中的应用

(三)建模字段选择 ：选择出对目标转化关系大的输入变量，可以通过相关系数找出，为避免同类变量影响模型效果，可以先聚类，每个类别找出一个域目标关系最大的一个变量即可，本次预测模型由于输入变量不多，不需要聚类分类。只要根据变量间的相关系数找出输入变量即可，以下是变量间的相关系数。

数据挖掘在Google再营销中的应用

(四)数据分区和建模：

将数据分为training data和test data，training data用来训练模型，test data用来检验模型的适用性。本次预测模型经过多重模型对比，我们选择SVM(支持向量机)建立预测模型。 支持向量机(Support Vector Machine，SVM)一般应用于有监督的学习模型，可用来分类和预测。 主要用来解决线性不可分类的问题，这也是SVM区别于其他模型的特点之一。此类模型需要设置输入变量是向量，例如x1=(1,0,0,0,0), x2=(0,1,0,0,0)等，需要提前将原始数据进行向量转化。

核心算法

对于线性分类问题，只需要曲线或平面就能分类，但是对于非线性，如果也用线或面来粗暴式分类，结果显然不理想，为了解决这类非线性问题，SVM通过创建一个超平面(可以理解为高维空间平面)将非线性侧切分类.

SVM在构建超平面过程中，需要到将原输入数据映射到高维空间，一般用多项式可以实现，但是由于高维空间的计算量会呈现爆炸式增长，对时间和空间是一种消耗，所以想到另一种解决方法—-核函数：即所有的计算过程都在低维空间(一般2-6维)进行，只将结果映射到高维空间，且计算的结果与直接在高维空间计算结果一致。

核函数：特征空间的隐式映射，计算两个向量在隐式映射过后的空间中的内积的函数叫做核函数。主要有以下几种核函数：

d次多项式核函数：

S型核函数：

经发现，非线性的SVM所发现的超平面与神经网络分类器发现的超平面属于一种类型，S型核函数等价于多层感应器的简单2层神经网络。

高斯径向基核函数(RBF)：

注：若 σ 很大的话，高次特征上的权重实际上衰减得非常快，所以实际上(数值上近似一下)就相当于一个低维的子空间;反之 σ 很小，则可以将任意的数据映射为线性可分，但这并不一定是好事，因为随之而来的可能是非常严重的过拟合问题。总的来说，通过调控参数 σ ，高斯核实际上具有相当高的灵活性，也是使用最广泛的核函数之一。

在实践中，核函数的选择一般并不导致结果准确率的很大差别。

举例理解超平面：

假设现在你是一个农场主，圈养了一批羊群，但为预防狼群袭击羊群，你需要搭建一个篱笆来把羊群围起来。但是篱笆应该建在哪里呢?你很可能需要依据牛群和狼群的位置建立一个“分类器”，比较下图这几种不同的分类器，我们可以看到SVM完成了一个很完美的解决方案。

数据挖掘在Google再营销中的应用