数据挖掘在Google再营销中的应用
文 | 数据小A
再营销就是将广告信息再次推送到曾经访问过你的网站用户面前,Google再营销就是利用Google联盟已有的网站和广告数据,对曾经来过网站或点击过广告的用户群体召回,并结合数据挖掘技术实现精准再营销,提高转化率。
Google精准再营销具体流程如下:
用KNIME预测模型找到高价值用户
模型节点概览
(一)数据导入 :CSV Reader节点,读入数据后可以查看到如下详细数据列:
(二)数据处理 :对读入数据进行去燥处理,主要包含以下几方面:
具体方法如下:
(三)建模字段选择 :选择出对目标转化关系大的输入变量,可以通过相关系数找出,为避免同类变量影响模型效果,可以先聚类,每个类别找出一个域目标关系最大的一个变量即可,本次预测模型由于输入变量不多,不需要聚类分类。只要根据变量间的相关系数找出输入变量即可,以下是变量间的相关系数。
(四)数据分区和建模 :
将数据分为training data和test data,training data用来训练模型,test data用来检验模型的适用性。本次预测模型经过多重模型对比,我们选择SVM(支持向量机)建立预测模型。 支持向量机(Support Vector Machine,SVM)一般应用于有监督的学习模型,可用来分类和预测。 主要用来解决线性不可分类的问题,这也是SVM区别于其他模型的特点之一。此类模型需要设置输入变量是向量,例如x1=(1,0,0,0,0), x2=(0,1,0,0,0)等,需要提前将原始数据进行向量转化。
核心算法
对于线性分类问题,只需要曲线或平面就能分类,但是对于非线性,如果也用线或面来粗暴式分类,结果显然不理想,为了解决这类非线性问题,SVM通过创建一个超平面(可以理解为高维空间平面)将非线性侧切分类.
SVM在构建超平面过程中,需要到将原输入数据映射到高维空间,一般用多项式可以实现,但是由于高维空间的计算量会呈现爆炸式增长,对时间和空间是一种消耗,所以想到另一种解决方法—-核函数:即所有的计算过程都在低维空间(一般2-6维)进行,只将结果映射到高维空间,且计算的结果与直接在高维空间计算结果一致。
核函数:特征空间的隐式映射,计算两个向量在隐式映射过后的空间中的内积的函数叫做核函数。主要有以下几种核函数:
d次多项式核函数:
S型核函数:
经发现,非线性的SVM所发现的超平面与神经网络分类器发现的超平面属于一种类型,S型核函数等价于多层感应器的简单2层神经网络。
高斯径向基核函数(RBF):
注:若 σ 很大的话,高次特征上的权重实际上衰减得非常快,所以实际上(数值上近似一下)就相当于一个低维的子空间;反之 σ 很小,则可以将任意的数据映射为线性可分,但这并不一定是好事,因为随之而来的可能是非常严重的过拟合问题。总的来说,通过调控参数 σ ,高斯核实际上具有相当高的灵活性,也是使用最广泛的核函数之一。
在实践中,核函数的选择一般并不导致结果准确率的很大差别。
举例理解超平面:
假设现在你是一个农场主,圈养了一批羊群,但为预防狼群袭击羊群,你需要搭建一个篱笆来把羊群围起来。但是篱笆应该建在哪里呢?你很可能需要依据牛群和狼群的位置建立一个“分类器”,比较下图这几种不同的分类器,我们可以看到SVM完成了一个很完美的解决方案。
SVM优点 :可以完美解决线性无法解决的分类和预测问题。在精确度上有优势。
SVM缺点 :虽然用了核函数,相对其他模型来说计算量级还是较大,耗内存耗时间,如果数据类型多,涉及到的高维空间太大不建议使用。
通过ROC曲线可以看出,这个模型的ROC=0.8318,Accuracy=76.5%,是一个比较理想的模型。
(五)数据应用—精准再营销投放(Adwords&DBM)
通过预测模型,将目标转化概率(对应预约试驾提交成功)大于0.5的高价值用户cookie(对应输变量“_c1”)找出,导入到Adwords&DBM系统中投放。即可实现更低成本拉回老客户。
本文由 数据小A 投稿至36大数据,并经由36大数据编辑发布,转载必须获得原作者和36大数据许可,并标注来源36大数据_____________,任何不经同意的转载均为侵权。
End.
转载请注明来自36大数据(36dsj.com): 36大数据 » 数据挖掘在Google再营销中的应用