为什么真实世界里的食物网是“金字塔”,虚拟世界的食物网是“倒金字塔”? |i黑马
左边是食物网里的能量流,右边是www网络里的用户注意力流。
左边的节点是物种,链接(本图中看不见)是物种之间的捕食关系。能量沿着捕食关系在食物网里流动,能量流支持了物种,得不到能量,物种就灭亡了。整个食物网的能量来自于太阳。
右边的节点是网站(世界排名前1000的网站),链接是网站之间的注意力流或用户流(不一定等于网站之间的超链接,因为用户可以自己关掉一个网页,再开一个网页,而不必沿着超链接访问网页)。用户沿着链接在www里流动,注意力流支持了网站,没有用户流,网站就死掉了。整个www的注意力流来自于虚拟世界外部的用户。
左图来自互联网(http://www.ipm.ucdavis.edu/water/u/foodweb.html),右图是我自己制造的迷你爬虫搜集的数据。
我的问题是,为什么真实世界里的食物网是“金字塔”,越在食物链顶端物种越少,啥都吃的只有人,能量逐渐被聚集起来。但虚拟世界的食物网是“倒金字塔”,越在食物链底部网站越少(最下面四家网站是yahoo,facebook,youtube,google),到后面的依赖别人生存的网站越来越多,流量也越来越小,注意力流的“能量”逐渐消耗丧失?
评论:
jake:
我觉得这里面的关键信息是权重,你忽略了节点和边的权重,所以就会导致看起来这样的结果。所以,我觉得那个flow hierarchy算法并不是很好。
在食物网中,根节点的biomass也是很大的,而在互联网中,虽然根节点的多样性看起来小一些,但是它的biomass也就是这些网站吸引的注意力流总和也许是很大的。
计算士 回复jake:
结构可以考虑改成权重的(但这样就牺牲了和nyperlink网络的对比可能,可以考虑各搞一个)。
我说的不是biomass,要算flow的量的话,底层和高层变化不大的。我说的就是这个bio-diversity。为啥生物多样性是底层(植物)多,高级(大型动物)少;网站是底层少(主要就是搜索引擎,交友网站和视频网站),高级多?
而且你看食物链,到了高级,什么都吃,像人可以收集几乎所有物种的能量流;但你看不见一个网站,在食物链的末端,但什么网站的流都搜集。用户一旦分流,就不可能再聚集起来了。
东方隐:
我觉得这个问题本身问的就不合适,两件事情并没有太多对比的基础,而且,什么是底层,什么是高层,有没有弄反都很难说。如果说直接吸收太阳能的那些个体是底层的话,那么直接产生注意力来源的千万用户也应该是底层。这样说的话,直接满足用户需要的各种网站(比如集智)反而是底层而不是高层,google、优酷这类的网站倒成了依赖于大量个人网站生存的食肉动物(有了个人网站才能有google,才需要各种业务提供商,而不是反过来),那么,就没有什么疑问了。
但是可以这样颠倒,就说明把注意力流和能量流进行类比,不怎么合适,例如,信息似乎是可以凭空创生的,能量却不行。而且,我们真的明白什么是生物能量流了吗?在还不懂得什么是生命的时候,用能量流、层次这些来总结生物界,可能根本是误导。注意力也一样。
jake:
嗯,你这个问题其实是很值得深思的。
我觉得有几种流可以来类比:
1、河流:
两种水流情况:
(1)、水流进一个盆地平原的情况,水流从一条主干进来,逐渐分叉,最后消失、耗散到整个盆地中,形成分形网络;
(2)、水流从一条河流流入大海,最终的目的地只有一个,但是水流在流动的过程中会形成各种支流,这些支流又可以合并,但是最后一定会流入大海。
前者是一对多的一种流动,即一个源多个灭;后者则是一对一的流动,即一个源,一个灭。
2、用户流:
从每个人的点击行为出发,如果把google看作一个大的分流网站,从google分支出各种分叉,然后淹没于最终大大小小、形形色色的网站中,从这个角度看,也是一个一对多的问题,即逐渐分叉的过程。从这点上看,用户流与(1)种河流非常相似。
3、食物网上的能量流:
食物网上的能量流究竟是怎么流动的呢?它从太阳而来,被一些植物吸收,它会最终流向食肉动物吗?不会,大部分能量其实都是直接被植物消耗经过呼吸作用而再次释放到大气之中了,这是大部分的流量;只有少部分的流量会冲向高一层次的营养级,即被食肉动物吸收,越往上走这个营养级越少。但是即使被高营养级动物吸收之后,能量流并没有完全结束,而是又被动物消耗,其中大部分是通过呼吸耗散成热了;还有很大一部分能量其实进入了土壤,也就是细菌世界中,它们进一步地呼吸、分解。
从这个角度看,其实食物链的顶端并不是能量流的最终点,所以其实食物网能量流的画法是一种误解。更科学的画法,应该是添加一大堆的节点,包含了各种细菌、微生物等等这些直接将能量流消耗掉的物种。那么一些能量流从植物直接走到了最终目的:热量耗散,有些能量流则经过大的脉冲走了一个长路径走到了最终目的:热量耗散。因此,整个食物网可以看作是这样一种场景:河流从一条主干流向大海,中间形成了无数分叉,尽管每个分叉都要汇聚到大海,但是分叉也会有多有少,分叉越多就说明营养级越多。
所以,从本质上讲,食物网上的能量流应该类似于河流的第(2)种情况。
但是,如果我们不把物种理解为节点,而是把物种的各种耗散能量的行为理解为节点,那么我们也应该会发现,能量越传到后来就越是分叉的情况,也就是能量耗散的途径越多,从这点上讲,也许这也是一个一对多的流动问题。
4、所以,如果要严格类比用户流和食物网上的能量流,我觉得更应该做的是将一个用户的冲浪行为看作是一个水滴的运动,这样,更重要的是考察该用户一个连续的点击行为构成的路径。也许这个路径的长度、概率分布等等更像食物网?
计算士 回复 jack:
恩。如果计划顺利进行,有可能可以拿到这张实证数据。
就你说的第一种流继续讨论,有没有网站在分流的末端,但又可以不受自”细分市场“的限制,从各种不同的网站吸取注意力?
现在看来是一堆矛盾:你要大的biomass,一定要接近河流入口;你要跑到河流的末端去,一定不可能很大。
jack:
你问的问题不是很清楚,我猜想如果存在着一个大量吞噬客户流的节点,那应该是一个在所有的网站都做广告的广告商,每个网站上都有包含该广告商的点击条,这样就会有大量的用户流流到这个广告商的页面。
你说的矛盾究竟是什么?我没看出矛盾来。
计算士 回复jack:
你看,在右图里,节点的大小代表网站用户流的绝对流量,节点所处的层级代在流结构里的层级(离源更近还是离灭更近)。
这两个变量是分开的测得的,并不一定节点所处的流结构的层级越高(离灭更近)的,它绝对流量就要越小。
我们知道,离灭更近的link当然会越小,也就是整个网络像树的分支或者河流的分支一样越来越细,但如果想你说的“广告商”真的存在的话,应该在高级的层级,会有一些节点比低级的节点还要大。因为它搜集了很多涓滴分支,聚成大湖。
实际情况是,并不存在这样的节点。
计算士:
你可能误以为我这里节点的颜色和大小是根据它所在的层级画的。
不是这样的,节点的颜色和大小是根据网站的绝对流量单独画的(做了开方处理),这是另外一个数据。
jack:
我还是不清楚你的困惑或者问题究竟是什么?是说食物网和用户流本身不相似吗?这没关系呀,本来河流就跟食物网上的能量流不相似,但是这并不妨碍我们找到流动之中的统一规律出来。
计算士:
哈哈,这个好玩!你的质疑很给力(特别是星星那段)!
没错,太阳只有一个,这就是所有的用户。和尚你还记得全球脑么,把全球的用户的大脑看做一个,全球脑就是那个太阳。 google,facebook,这些充当真实世界和虚拟世界的“传送门”的网站,就是“草”。因为“草”能通过光和作用,把能量从一种状态变成另外一种状态。和食物网中的物种不同的是,任何一个网站都可以承担“草”的角色。比如我把集智存在收藏夹里,每次直接点进来和你对话,就没有通过google和其他网站,这时,集智就是“草”,它直接从真实世界吸取注意力流(没有我们的对话和别人的围观,集智网站就灭亡了)。
但是,从大规模用户行为来看,大部分的网站直接从真实世界吸取的注意力流是有限的,比如到今年3月份,世界上有超过一亿两千万个网站,其中前1000个网站,占据了注意力流的97%。而小小的集智俱乐部,就是“剩下”的那些多如海沙的网站中的一个。
你可以对一个网站计算“注意力流”的收支平衡,把它上家过来的用户减去从它走向下家的用户,如果是正的,说明它“收大于支”,因此,有一部分用户从这个网站跑掉了。跑到哪去?从虚拟世界跑到外部的真实世界去了(如果你不是退出去,而只是把网页关掉又重新开一个网页,alexa的toolbar工具仍然会继续监测你的cookie,并认为你是从刚才那个网站跳过来的)。反之,则说明网站收小于支。说明这个网站一定从外部世界又吸取了一些用户流进来。
如果只有那些“收小于支”(可以从外界吸收用户,来提供给其他网站)的网站算为“草”,那么,这个虚拟世界上的“草”并不多。其中最大的就是google这几个。这也就是我为什么说小网站都“依赖”大网站。
为什么要用食物网类比互联网?一般人都会拿一个研究的比较清楚的东西去类比研究得不清楚的东西,以拓宽思维。对于“信息在互联网里的扩散”,这个题目,所有人从互联网诞生不久就开始研究,但在我看来都陷在一个非常不给力的思路里(包括已经在中国和美国的自然科学和各种基金骗了不少钱的相关项目), 他们总是想搞清楚信息,比如一个帖子,是怎么(在人际网络里)复制和扩散的。
这个思路有种种问题,但其中最大的问题和你的质疑相关,那就是, 信息不是守恒的!信息没有稀缺性,理论上你想复制多少份都可以,所以你根本不可能给出一个好的模型,或者建立一个相关的理论。要建立一个科学理论,一定要有一个守恒量。比如空间移动里的动量守恒、时间里的能量守恒、转动的角动量守恒,将来可能还有相对尺度守恒等等。请问在所有“信息的传播”的模型里,什么守恒呢?
什么也不守恒。
其实有东西是守恒的,只不过在“信息传播”这种视角下很难看清。这就是“传播信息的那个人的时间”守恒。其实不是守恒,而是有限。但找到有限的量是研究守恒量的第一步(比如经济学里的货币)。怎么看这个问题?有一个办法,把“帖子在开心网上的流动”这个网络“反过来”,就成了“开心网的用户在不同的帖子之间的流动” 。完全是同一个数据。
现在的守恒量是什么呢?首先,我们知道总的用户的总注意力是一个常量(或者无非加一个增长,但这个东西不可能是无限的,一天最多24小时,全世界最多几十亿人),这个常量在某一个时间,在所有的帖子上是一个分布。根据大家的研究经验,这个分布是长尾分布(手头有很多paper证明,不引用了)。换一个时刻,可能还是幂律分布。但具体到帖子就不一样了。这个帖子在上一个时刻很火,下一个时刻可能就没人看了。
这个情况,和货币在人类社会里的流动,“眼看他起高楼,眼看他楼塌了”,是不是及其类似?不管是谁起高楼,谁又楼塌了,那个分布,可能是稳定不变的。收入分配并没有变的更公平或不公平。
而在我讲得例子里,守恒的量就是注意力流。小月月火了,大家就要减少对芙蓉姐姐的关注,这是一个zero-sum。这是从全局来看。从一个帖子或网站来看,进来多少注意力流,就要出去多少注意力流(把逃出虚拟世界的也算上),这是要平衡的。但在“信息的传播”里,你就没法算这个。进来多少信息也要出去多少信息么?完全不是这样,可能根本不出去信息,也可能出去几千倍的信息。
另外,“注意力流”还有一个妙处。就是默认所有人的注意力(计算能力)是相等的,虽然我这里粗糙地用了“一个网站一天内吸引的独立ip的用户数量”来衡量,怎么算注意力还要进一步考察,但比“信息“要靠谱。但是你没法简单地说所有的帖子、视频、都换成几m几g来算。所有人都会告诉你,不同的帖子,就算是相同size,产生的”效用“不一样。information不等于message,但你问他怎么衡量”效用“,又卡壳或者开始胡说八道。而”注意力流“有可能实现这个统一衡量。
所以,我不是胡乱拍脑子搞出一个食物网和互联网对比的模型,而是认识到这个困境很久以后,才想到也许可以这么做的。
至于和观察者理论的关系,有很多很多。我先讲最明显的一个:“注意力流”兼有两种能力:1.提供数据(包括你最近比较喜欢的link结构,这个结构为啥包含了google可以用来做信息推荐的信息?就是因为这个结构它保存了用户对网站之间关系的判断的数据),2.对互联网上已有的用户数据进行计算(例如我给你发的文章里讲到的facebook照相标签或者google那个乱码识别的计划) 。
请问它是怎么实现同时做这两件事的呢?这里面就是“程序”和“数据”的耦合。程序对数据进行新的计算,创造出更多数据;而已有的数据里的信息又被增添到程序里,使程序更加智能,更快地计算数据。
这就是人类大脑的学习模式(外界信息的输入改变神经地质,神经地质的改变使得对外部数据的处理更高效) 。只不过,当我们谈注意力流时,我们不是在讨论一个具体的大脑,而是在讨论全球脑。
本文作者 计算士 原文请看这里