由“阿里浪”想到的：关于大数据、人工智能与百度，关系网与腾讯 | 极客公园

极客公园 • 12年前扫码分享

谁更加适合做大数据？

众所周知，大数据应当做的就是预测需求，呈现相关性，为需求铺路。阿里浪不出意外也许会做这么一套数学模型，但如果要指望它们真的做好，就不大可能了。他们能做好那不叫科幻应该叫梦幻。

阿里与新浪的创立之初就不具有大数据基因，淘宝的数据魔方在百度看来只是一个小玩具罢了。你既然脱离淘宝做数据，那就势必要做大数据。但如果真要做大数据，事实上应该让有数据基因的公司来做，也就是百度。(很多人可能会有，还有谷歌呢？其实如果从语义语词的识别上来说，百度确实对中国更加了解)

事实上大数据应该分层来看，浅层的大数据是非常好搞定的。如《大数据》中百货公司给未成年少女寄孕妇产品目录就是一个非常好的浅层案例，根据消费者购买东西的情况推算她可能将要购买什么。这个非常明显，也无可厚非。但是在浅层之前还存在着深层次的数据挖掘，它是非常难以提炼的，“从阿里浪看大数据的层级关系”一文就指出，一个人可能喜欢苹果但是在购物的过程的最后选择了橘子，这样的事情是大数据无能为力的。在该文作者看来解决这一方法的唯一途径是选择一个好的数据矿，而我并不赞同。个人认为应当进行人工智能解析，用人工智能去挖掘，再去影响消费者决策。

大数据与人工智能

由于信息的不对称，很多人觉得百度除了赚医疗竞价黑心钱之外就没有向上奋斗过，事实上百度除了在赚黑心钱以外还是奋斗的。百度的奋斗原因更多的不是对用户体验的追求，而是对黑帽seo 的控制。这就好比杀毒软件必须把最基本的杀毒做好，与病毒斗争一样。这也就逼的百度自身进步，原因很简单，如果百度控制不了黑帽就会破坏用户体验，一旦用户体验下降流量就会大量流失，这是百度最不愿意看到的。所以百度和谷歌一样经常大变算法，宁可错杀也不漏杀。chinaz 这样一个行业老站都曾经被k得只剩1w收录。(被k指网站已经达到正常收录的状态下因为作弊或者其他原因，百度等搜索引擎突然删除了所有网页或只留下首页。)

与其说百度做大数据，倒不如说搜索引擎在为人工智能铺路。谷歌最近不就是想要尝试“复制人类大脑”吗，这种事情如果没有背后强大的数据库，那是根本不可能的事情。正因为有了大数据才有了可能。

百度对 seo黑帽的控制，撇开黑链、刷点击、刷相关、入侵政府网站欺骗蜘蛛、虚拟外链及其黑客的事情之外，百度其实最要管的还是伪原创，所谓伪原创就是对文章进行关键词替换和段落的重新排序，达到欺骗搜索引擎的目的。这样的文章是搜索引擎最痛恨与头大的，我们现在站在搜索引擎的角度去考虑，百度要做的事情其实就是要做一个大数据相关性的大连接，比如出现同义词“a”，它会和“b”的意思进行相关性混编，探测重复指数。根据相关性的重复叠加度，来提取文章的关键指纹进行相似性判断。一旦超过某个相似性数值就会自然剔除，达到排除伪原创的目的。当然综合来说肯定会考虑站点权重问题，这里撇开不讨论。

百度近日已经开始在搜索页面标注内容原创与否

也就是说百度已经达到了对关键词的相关性大联结，并且能够利用用户新的搜索次数来再造新词，并且和老词进行再联结。百度目前的缺陷就是无法对首次原创文章进行第一名排序，站点权重至上的算法还没有变过，这点比不了谷歌，也有可能是中国的互联网环境太乱使得百度不愿意轻信草根站点，宁可让原文展示在高权重可信站点上。但试想如果让百度脱离站点权重至上的思维，进行原创文章的大关联排序会是一种什么样的情况？

如果是“百度浪”

如果百度入驻新浪也许可以这么做，将微博发布者的转载信息与原创信息进行精确的历史相关性定位，加入心理学分析，建立某关键词与周围关键词混合后的心理指数的数学模型。再利用人工智能将该指纹与大数据库合并进行语义解析，将所有最相关可能性进行遍历得出此人是否有可以被推荐的需要，再进行影响力营销。

现在再回到之前的场景，现在突然有人发布了一条想要吃梨的微博。被蜘蛛爬到，爬到之后提取出语义，再进行历史微博遍历对比之后：

推测这条信息是否与之前微博有强相关性；
当前心情是否能判断出，如果可以则进行算法运算；
调出此人的一切互联网存在数据，总体性格判断；
决策是否要推荐，如果要推荐就进入大数据进行关键词高相关性挖掘；
推荐结果。

此时的推荐结果不一定是橘子，可能是某个达人是如何做梨子汤（之前微博显示此人爱做饭），可能是某个与梨子相关的恶作剧（判断当前心情不好，并且无购买欲），可能是梨子牌智能电器（综合数据显示此人为电子产品爱好者，而梨子产品尚未被推荐过），也有可能是关于类似止咳方法的信息（此人曾经发过类似身体不舒服的信息，之前没有被推荐是因为没有足够数据，当出现梨子后数据就开始猜测各种可能性进行推测）。

这些推荐的大前提是对于在互联网上的你有 70% 的了解之后进行的高精准挖掘，而不是新浪那样暴力的“您的微博中提到xxx，我们为您推荐xxx”，烦得让人都想抄起狼牙棒了。

纯粹的人工智能

这才是真正的大数据，虽然可能有点夸张。哲学家对于人工智能的讨论是，人工智能要想达到完美，通过图灵测试则需要机器存储人类全部的词语，所以永远不可能。基于这样的历史讨论，个人认为这是形而上的伪命题，人类之所以异于机器在于其模糊运算的能力，这是机器完全无法模仿的。但是很多人忽略了，这是一个属于生物科技与物理科技并行的世界，也许有一天可以将二者完美地结合起来，造就出纯粹真正的人工智能。