它是 Google “登月计划”的首个项目,为何我们很少提起它?( 上 )
书可以做任何事情。书可以劈开我们内心的冰山。
你知道这句话出自于哪位作者的哪本书吗?如果单纯凭借人的记忆力的话,很难做出回答,有人会想到去 Google 浏览器进行搜索,虽然 Google 提供了一些引用此句的网址链接,但通常这些链接都不可靠。为了得到这个问题的准确答案,你可以使用 Google 图书搜索,它能搜索出数百万数字化的文本。
使用Google 图书搜索之后,你会发现,“书可以劈开我们内心的冰山。”这句话出自卡夫卡在1904年1月写给奥斯卡·波拉克的一封信“给朋友、家庭和编辑的信件”。
Google 图书搜索的计划非常惊人。15年前,它是一个野心勃勃的项目:要把其搜索范围扩张到线下世界。 Google 与一些图书馆合作,扫描数百万本印刷书籍,想把所有线下书籍都导入其数据库。
Google 联合创始人Sergey Brin 表示,“人类知识有数千年,可能最精湛的知识都被藏在书中。如果 Google 没有这个,就太遗憾了。”
今天, Google 以其“登月”文化而闻名,接受世界性的巨大挑战。 Google 图书是很多老资历的 Google 员工共同经历过的,公司的第一个“登月”项目。扫描所有书籍!
Google 早期时候有一个“乌托邦图书馆”的愿景,将在线信息搜索这种便利延伸到线下。在当时看来这个计划就像是图书世界的一个奇点: Google 会将所有书籍传到线上,以某种方式产生人类意识的相位变化。实际上, Google 图书已经进入到计划中期,把2500多万的文字片段传送到了它的数据库中。
Google 仍然在坚持他们的初衷,当然除了这些,这里还寄托了其他人的希望。
然而, Google 图书的美好愿景被打破了。这个项目发布后不久,很快遇到了法律问题,作者们抗议 Google 侵犯他们的版权,出版商同样抗议以保护其行业免受侵害。随之而来的是数十年的法律战场,而这场纠纷终于在去年有了了结,美国最高法院驳回了作者协会的呼吁,长久以来笼罩在 Google 头顶的乌云终于散去。
这最终还是改变了 Google 图书的计划,对于陷入法律纠纷数十年的 Google 和 Google 图书的项目员工来说,他们失去了动力和野心。
在研究这个故事时,我曾担心 Google 是否已经放弃这个项目。 Google 图书一直有些秘密没有解开,很像 Google 其他的项目作风。但当我开始提问时,大家闭口不言,几个星期以来,似乎没有任何人可以谈论 Google 图书目前的情况。
Google 图书的“历史”页面在2007年关掉了,其博客也在2012年停止更新,之后 Google 图书又被放到主要的 Google 搜索博客,其中有关图书的信息几乎找不到。 Google 图书是一项很有意义的服务并持续得到外界关注。但作为一个还在进行中的项目,几乎没有任何信息被公布出来,就如同消失了一样。况且 Google 图书的法律纠纷还胜出了,所有这一切都显得匪夷所思。
我向几个已经离开 Google 的校友了解时,有几个人提到他们怀疑 Google 是否已经停止扫描书籍。最后,我了解到,确实还有一些 Google 员工在图书搜索这个项目里工作,而且还在增加新书,虽然此时增加新书的速度已赶不上2010-2011年的时候了。
Google 工程师Stephane Jaskiewicz表示:“我们的重心不在直接面向用户的界面和功能,这更像幕后工作,完善技术。通过获取内容并进行适当地处理,我们可以在线查看整本书,然后调整搜索算法。”
贯穿 Google 图书的一个工作重点,是不断改进扫描新书的扫描仪。2002年,项目刚开始时,拉里·佩奇和玛丽莎·梅耶尔估算扫描所有书籍可能需要多长时间,他们在台架上设置了一台数码相机,并使用节拍器进行定时。当公司开始认真对待这个项目时,要提高扫描的效率,对每一个操作细节都非常讲究。
Jaskiewicz说扫描仪确实不停地在更新,新版本每六个月推出一次。在项目启动时,LED照明灯不够多,因此大家要研究技术让人类操作者更有效地翻页。 “这几乎就像在弹奏吉他。”Jaskiewicz说。 “所以我们需要找到很会翻页的人。”
不过, Google 图书的大部分工作仍然是要确保搜索的质量,确保用户能快速找到所需的图书内容,这其实是个枯燥的游戏,不像是在“登月”,更像是在维修卫星。
为了了解 Google 图书是如何走到现在这一步的,你需要掌握一些有关版权法的内容,书籍分为三类:一类是公开的,主要是在1923年以前出版的图书,以及作者放弃版权的图书,意味着你可以使用这些书籍内容来做你想要做的;第二类是在出版并有版权限制的,这一类有大量书籍,如果你想对这些书籍内容做任何事情,必须与作者和出版商协商;第三类是指没有出版但是仍有版权限制的书籍,俗称“orphan works”。美国版权局的一项研究表明,这些书中有17%到25%的出版作品,70%的特殊收藏品。
有多少本书是这样的?没有人知道确切答案,这还取决于你如何定义“书”,这并不像听起来那么容易。 2010年,名为Leonid Taycher的一位 Google 工程师撰写了一篇博客文章,其中提到了 Google 图书的元数据,并得出结论,当时的数字约为1.3亿。其他人看到这个数字,认为是不真实的。真实的数字可能略低于Taycher的数字,但远高于 Google 图书目前的2500多万本。
Google 图书中的很大部分都是“orphan works”。你可以从图书馆借一本,或在二手书店买一本。但是,一旦 Google 图书将它们全部扫描并将放在互联网上,每个人似乎都想要一本。
接下来的法律纠纷,实际上是对这些“orphan works”的监管斗争, Google、出版商和作者都想要控制这些书的数字化。三方最终达成了《 Google 图书协议》, Google 可以继续扫描提供这些“orphan works”,并拨出资金来补偿作者和出版商。但在2011年,一名联邦法官拒绝了这一协议,理由是有人担心 Google 作为一个私人营利公司,会变成一个垄断的“宇宙图书馆”并收取费用。
协议无效, Google 就恢复了扫描,出版商也想参与电子书市场这一新兴业务,在未来的图书市场能超越 Google ,我们已经看到了亚马逊Kindle的成功。但作家协继续提起诉讼,指责 Google 未经版权持有人许可就对图书进行扫描和索引。虽然 Google 很富有,但也无法支付数十亿美元的版权侵犯罚金(数百万册书,每本支付数千美元)。此事一直拖延到去年,最高法院判定 Google 在搜索结果中有权分类图书,并提供简短的图书片段,如同网页一样。
这项裁决代表着 Google 和项目所有人取得的一大进步。 Google 图书的产品顾问Erin Simon说:“现在我们创造了先例,每个人都受益匪浅。 “这将被写进教科书中,让大家了解合理使用的意义。”
未完待续……
译文:这只萌萌 编辑:杨志芳
求报道、意见反馈、调戏 小秘书 “佳佳” 请加微信:
微信扫描下面二维码,关注 加速会微信公号,成长快人一步!
如果你在创业, 想认识更多的创始人,彼此学习、资源共享 ,请扫描下面二维码加入 : 创始人通讯社群 !
如果你在职场,想 认识更多媒体圈朋友(编辑/记者、市场、公关、媒介、品牌) 请扫描下面二维码加入: 媒体圈通讯社群 !