大数据背后的非关系型数据库技术公司
最近“大数据革命”被炒得沸沸扬扬,关于大数据本身及其应用被广泛议论,从谷歌自动驾驶汽车,到CSIRO和塔斯马尼亚大学利用信息系统帮助农民提高生产率,但似乎大数据背后的技术和开发它们的技术人员却被忽略了。
在这场轰轰烈烈的大数据变革中,处在中心地位的是新一代数据库技术,没有它们,就不能实现当前以前所未有的速度汇总和分析数据。同样要感谢这些技术,在多个分散的处理器之间同步分析数据,让大型网络公司和线上服务公司,如谷歌、亚马逊、Facebook等能实时为全球数十亿人群提供服务。
数据存储
传统存储技术中,数据以类似表格的方法分行列排布,调用数据时遵循固定的请求格式,这种对收集数据进行调用的格式称为SEQUEL(格式化英语查询语言,structured English Query Language),后来被缩写成SQL,运用这种格式化存储思维的数据库技术称为“SQL”技术。甲骨文(Oracle)在20世纪70年代率先推出这项技术,让该公司此后一直在数据库技术领域占据领先地位。
如果你熟悉Excel,那么Execl处理的数据也是数据库处理对象,如公司账目、市场信息、销售数据等。
但有些数据却不适合用传统方法储存,如Facebook这样的社交网络中的互联关系,如谷歌这样的搜索引擎中存储的文件索引,或Netflix这样的媒体网络中包含的大量多媒体音乐或影像数据。
好在数据库技术在不断发展,从一维的树桩表格、索引列表开始有了显著进展,产生了能够处理用传统数据技术无法胜任的大规模数据的新存储方式,这种新的存储方式的迅速流行继而引发了数据库技术的多样化。
上图:全球范围对新一代“NoSQL”数据库技术的兴趣增长迅速
新型数据存储技术被统称为超越SQL(NoSQL)的技术,非关系型数据库。这类数据库技术中,很多关键技术都不属于单个公司,如甲骨文或微软,而是来自公司或独立的程序开发者共同开发的开源项目,这种合作方式,和维基百科或Linux的公开编辑类似。
新一代数据库技术
新一代非关系型数据库有以下5个主要类型:
- 面向文件存储:适用于存储海量文件,代表产品MongoDb
- 列存储(wide column store/column-family)数据库:快速查找相关数据,相关数据被放在同一列中,代表产品Cassandra
- 搜索引擎:适用于存储文件索引,代表产品Solr
- 键值(key-value)数据库:快速访问非相关数据。可以通过key来添加、查询或删除数据,代表产品Redis
- 图(graph)数据库:适用于访问以图片方式存储的数据,如社交网络。代表产品Neo4j
此外Apache Hadoop也是一款值得注意的产品,具有业界领先技术,但并没有包括在上述5大类中,因为它处理的对象是框架和文件系统,而不是单纯的数据库,但可以支持数据库中的很多类型。
技术人员数量排行
具有相关领域前沿技术的人才是保证公司行业领先地位的先决条件。列表中的40家公司,分别是使用上述5大类技术中雇佣专业技术人员最多的公司。
从国家分布看,雇佣专业人员数量最多的公司分别有伦敦的Sky和纽约的高盛。
注:原作者McCarthy是文中提到的SIRCA公司高管。文章背景:SIRCA计划在澳洲增加Cassandra数据库技术员工人数。
(via pd 译/快鲤鱼)
关于快鲤鱼
快鲤鱼,一网打尽互联网新创公司!
这是一个专注挖掘、报道TMT领域创新性公司的科技博客,它的作者们遍布太平洋两岸,以钓者的姿态,为读者快速地寻觅下一条大鱼。
不废话了,更多内容,敬请关注快鲤鱼帐号
新浪微博:@快鲤鱼
腾讯微博:@快鲤鱼
RSS订阅 :http://www.kuailiyu.com/feed/
微信帐号:Akuailiyu