浅析阿里数据新能源技术架构（上）-36大数据

36大数据 • 7年前扫码分享

作者：阿里数据

如果大家对阿里巴巴的新闻比较关注，最近可能会频繁听到阿里巴巴谈到“五新”这个词，“五新”中的其中一个概念是新能源。其实新能源就是大数据本身。技术、数据和算法三个方面结合在一起，才可以把数据真正用起来。

大家都知道，Google的数据量是很大的，但是它的数据源本身其实比较单一。以Google search，Google map等为主导，并没有太多和商业有直接相关的数据。

再来看看，Facebook。它更多的是社交行为的数据，缺少出行数据、浏览器数据、或者类似优酷的视听数据。

但是，对于阿里来说，上述的这些数据我们都有。我们面临的极大挑战是：怎么样有效的把这些全域数据融合在一起。

首先我们需要把数据有效地收集起来。我们有一个大数据体系“OneData”（有关OneData的内容，回复关键词“OneData”即可获得）。

把数据有效地收集、存储起来之后，接着要做的就是怎么通过算法把这些数据打通，并且真正有效、智能地把这些数据提炼出来。

数据融合的技术框架

浅析阿里数据新能源技术架构（上）-36大数据

这是阿里的一个生态体系图。最底层是阿里巴巴的阿里云，这是我们的一个计算存储框架。上面是阿里妈妈，阿里妈妈是负责整个阿里巴巴计算广告的一个部门，再上面是菜鸟、支付宝和蚂蚁金服。然后是与商业相关的，像淘宝网、天猫、聚划算等等，或者是跟文娱相关的，优酷土豆，还有像阿里旅行，口碑之类的业态。

阿里巴巴数据中台要做的事情是什么呢？

举一个最简单的例子，之前有一个比较火的电视剧《三生三世》。《三生三世》火热上映的时候，与之相关的商品元素，比如饮食或者穿戴之类的商品，也会瞬间在淘宝网上火爆起来。

那么如果我提前就知道某一类人群是《三生三世》的粉丝，我就可以在淘宝网上做非常高效的、准确的定位推广。

阿里数据要做的是：把数据真正打通，深度挖掘数据的价值，为业务创新应用提供数据决策基础和依据。

在真正进入算法之前，我们一定要对数据进行非常认真、仔细地进行清洗过程。俗话说，如果你的数据不清洗，其实就是“learn trash from trash”。所以数据本身一定要做得非常干净。

来看一下架构图。第一个数据层中有各种各样的数据，比如有消费数据，有广告数据，出行数据等等

浅析阿里数据新能源技术架构（上）-36大数据

把这些数据层经过有效结合在一起之后，接下来得到这种特征层的提取。

在阿里数据内部，大概有这样几个比较抽象的维度：像账号设立的静态特征，电商行为的特征，或者设备的特征等等。

在特征层之上，我们会有模型层，这里面有基于业务规则的模型，也有其他的例如异常检测，有监督或者无监督的学习，然后特征的联合校验等模型。

因为我们的数据源非常多，因此我们也可以通过部分的数据源验证另外一个数据源，看数据的增长或者留存是否处于一个正常范围。

另外还有一些比较好的方法，比如基于Graph的一些算法，实时的反作弊算法等等。在算法层之上，就是评估层。在评估层内，我们可以判断留下来的数据是否是真正有效的数据。

在上述这些数据层的上面，会有一个应用层，也同时会抽象出一些产品来帮助内部员工或者外部商家进行使用。

所以，整个数据中台实际上是从底到上对数据进行清洗的一个架构。

当我们有了非常干净的数据之后，我们要做的就是把数据打通。我刚才说了，阿里生态体系会呈现出几百个不同的数据源，这些数据源本身的数据量非常大，收集模式也各不相同。

那么我们是如何进行数据之间的融通的呢？

数据联通的技术思考

浅析阿里数据新能源技术架构（上）-36大数据

这是我们关于怎么把数据打通的一个技术架构。

大家可以看到，整个技术体系都是，先把数据接进来，再通过一些机器学习或者深度学习的办法（像word2vec,node2vec，TFIDF，归一化等）处理特征层，之后映射到一些比较抽象的高纬度Level（比方说像用户的身份信息，网络的环境相似度，文本的相似度，APP相似度等等）。

抽象完这些特征层之后，我们究竟怎样去判断。

这期间的方法大致可以分为四种有效的办法：

第一、是深度学习的模型。
第二、非线性。
第三、线性。
第四、基于图计算

此外，还有一些强召回，就是比如说用户有相同的账号登陆不同的地方。这些是所谓的强召回，它可以非常准确地被判断出来。弱召回就是基于算法特征层的这些模型，有效地判断出所有信息是否真正属于同一个自然人。

End.

转载请注明来自36大数据（36dsj.com)： 36大数据 » 浅析阿里数据新能源技术架构（上）

随意打赏

阿里大数据平台大数据技术架构阿里大数据技术新能源汽车技术阿里云架构新能源技术浅析大数据 36大数据

浅析阿里数据新能源技术架构（上）-36大数据

数据融合的技术框架

数据联通的技术思考

随意打赏

空间的想象力源于空间的大数据，看如视如何持续领航空间智能

云知声与宜兴大数据签署合作协议，为江苏智慧康养添 “新翼”

数位大数据旗下“上上参谋”企业如何利用大模型AI技术实现商业跃进

2025年贵阳贵安大数据工作会议召开

我来数科：通过大数据与人工智能技术打造安全便捷的金融服务平台

市场监管总局回应大数据杀熟

贵阳市大数据局举办贵阳贵安DeepSeek大模型专题培训

白鸽在线携手盐城大数据集团以科技守护百姓财产安全

医渡科技六度蝉联医疗大数据企业榜首，以“YiduCore+DeepSeek”重构医疗智能生态

加和科技受邀出席中国信通院“卓信大数据计划”2025年度会议