圣诞节有32天?Yahoo大数据利用社区模式,加强时间搜索查询

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

36大数据 当你拥有成千上万的照片,你可能很难找到你想要寻找的照片。你想找到去年聚会上看到的那只圣诞猫吗?如果那个派对不是在圣诞节,而是在前一周的某一天,你该怎么做呢?为了帮助提高搜索排名和国家相关性,个人,和宗教节日的照片,我们首先要看到的被采纳的照片,例如,是否是”圣诞季?”

36大数据专稿,原文来自 yahooresearch.tumblr  本文由36大数据翻译 ,任何不标明译者和出处以及本文链接http://www.36dsj.com/archives/46154均为侵权。

了解人们想要寻找的他们自己的照片是提高Flickr网站照片分享的重要组成部分。今年早些时候,我们开始了一项研究, 试图了解人们如何搜索他们的个人照片 。我们发现74组参与者大约20个在Flickr上有自己的照片,并且问他们会输入什么在Flickr上去搜索他们想要的照片。我们一共做了1492次。

结果是, 12%的人用时间项来搜索自己的照片, 这意味着某一个词某种程度上与时间连接。这些可能包括一年(2015),一个月(一月),季节(冬季),一个节日或特殊事件(感恩节,开斋节,复活节,逾越节)。然而,在照片上的日期和时间在搜索词上并不匹配:今年是错误的,或人们会搜索一张照片,照片显示带有冬天的词感恩节后的一个周末,尽管事实上,冬季直到12月21号在美国才正式开始。所以我们想了解情况:像冬天一样的秋天有多频繁?

为回答这个问题,我们将7880万个实际拍摄的Flickr照片标记一个季节名称。

36大数据

正如你所期望的, 大部分的照片都是在那个季节被拍摄的:66%的照片被标记为“冬天”的是在12月22日和3月20日之间拍摄的。约9%的搜索词标记了2个季节: 照片标记为在12月21日和3月20日之间“夏天”,例如。我们认为这可能反映出:虽然大多数Flickr用户都在北半球,但是5%的“夏天”的照片可能是在南半球似乎就不合理了。

更有趣的是,我们认为,有一种情况下,像被贴上“冬天”的秋天照片,冬天我们相信这张照片代表了冬天的体验,不管客观现实上的日历。例如,如果它在感恩节之后的一天,它确实感觉像冬天。

关于感恩节的话题,让我们看一看标有“感恩节”的照片。

36大数据

11月22日到27日的六天时间——最暗蓝区域——覆盖了65%的照片。扩大到11月15日到30日覆盖了83%的照片。扩展到整个11月则覆盖了85%的照片,包括十月(加拿大的圣诞节,在灰色范围的十月初)覆盖了90%。但是,这意味着10%的所有照片被标记的感恩节是在这个范围之外的。图片里的每一天都有至少40张照片在2003与2014年之间被拍摄,上传到Flickr上并且标记”感恩节”。手动任意选择验证公开的标记有”感恩节”的照片,发现这些照片上标记有”感恩”包括南瓜、火鸡、红叶、丰饶角与节日文化相关的所有图像。不是所有的时间搜索词都是相当复杂的,一些节日被庆祝或每天拍摄的一天,像加拿大日(7月1号)或圣诞节后的第一个工作日(12月26日)。虽然这些假期可以很容易地翻到日期查询,其他假期有更复杂的时间模式。看看那些农历假期。

36大数据

有些事件发生在农历年,如中国新年,复活节,开斋节(开斋节和宰牲节)和光明节。这些事件将被常规算法确定,但有时用一种复杂的方式。 大多数这些节假日往往摇摆作为跳跃计算定期增加对太阳日历的同步时间。 然而,在回历的开斋节,没有这样的飞跃矫正,我们看到照片标记”开斋节”的边缘年复一年的向前。

一些节日和事件,如生日,发生在每个星期的每一天。但他们通常都在星期五,星期六和星期天庆祝,然后拍照。

36大数据

所以让我们回到原来的问题:这些照片实际上是什么时候被标记为”圣诞”了。

36大数据

正如你所看到的, 12月25日被标记为”圣诞节”的照片比其他任何日子都多。圣诞夜是第二位,将近12%。 如果你看看其他语言,这种差异几乎消失:9.2%的照片在圣诞夜被标记为”诺埃尔”,11.3%的照片在圣诞夜被标记为”纳维达”以及12%的照片在圣诞节被拍摄。但是圣诞节的照片在整个12月份都被拍摄。我们现在可以设定一个关于圣诞节的定义:如果在那一天至少有1%的照片被标记为”圣诞”,我们认为它更加相关。这意味着,从12月1日到1月1日的每一天都会复合定义,这使得……圣诞节有32天。

原文: The 32 Days of Christmas: Using Community Patterns to Enhance Temporal Search Queries

End.

随意打赏

提交建议
微信扫一扫,分享给好友吧。