数据库行业的 “叛逆者”:大数据已“死”,MotherDuck 当立
数据库行业的 “叛逆者”:大数据已“死”,MotherDuck 当立
牛透社
· 2023.02.23 15:10
MotherDuck 拥有不一样的行业信仰。
图片来源@视觉中国
文 | 牛透社,作者 | 郑博
数据库行业发展至今,在数据层面有很多的加速和变革,尤其是过去几年的云数仓爆炸式增长,带来了行业的很多变化。毫无疑问,云数据仓库已成为企业数据堆栈的基石,各种规模的公司和组织习惯使用数据仓库来分析业务数据。Snowflake 的迅速崛起就是这一趋势的典型代表。
但如果我们把大数据的变量拆成速度、数量和多样性三个维度,我们发现大家最关注的维度仍然是速度。当我们重新审视对“大数据”的定义,并且结合数据资产的要素,我们最重要的需求是从 OLTP [1] 数据库处理的数据资产上的微服务对低延迟消耗的要求。
与此同时,很多大数据部门购买了所有新工具并从遗留系统迁移之后,他们发现仍然无法去理解这些数据,也许数据大小根本不是问题所在。世界的数据量变大了,但硬件也以更快的速度变大了,供应商仍在推动硬件的能力扩展。今天我们就来聊一家有点“不一样”思路的数据库创业公司——MortherDuck,看看他们的产品 DuckDB 是如何来理解这个世界的。
历史沿革:欧美合作的商业化产物
说起 MortherDuck 的前世今生,首先还是要从产品 DuckDB 讲起。DuckDB 是一个专门构建的进程内在线分析处理数据库管理系统,其旨在实现高效数据分析。从 2019 年 DuckDB 第一个开源版本发布,到 2021 年,短短两年间,DuckDB 的周下载量增长迅速。此时,这个原本由荷兰数学和计算机科学研究学会 (CWI) 创立的项目被分拆出来独立运作,项目研究人员 Hannes Mühleisen 和 Mark Raasveldt 成立了 DuckDB Labs。
故事至此,为什么 MortherDuck 还未出现呢?别急,我们还缺少另一位主角——谷歌 Big Query 的创始工程师 Jordan Tigani,他也关注着 DuckDB,并一直寻求为市场提供轻型数据库产品。在和 DuckDB Labs 的联合创始人 Mühleisen 沟通并获得支持后,Tigani 开始尝试将开源的 DuckDB 商业化。新公司 MortherDuck 就此诞生,并获得了由红点资本 (美国) 领投的 1250 万美元天使轮融资和 A16Z 领投 3500 万美元 A 轮融资,公司估值 1.75 亿美元。
回头来看,作为一家起步时间不长的初创公司,获得这样的资本认可不可谓不成功。由于 DuckDB 并非 MortherDuck 的原创开源产品,因此,想要未来长久且稳定地基于开源产品构建服务,得到项目创始团队的支持至关重要。
在双方的合作中 DuckDB 团队一定程度上参与了 MotherDuck,而 MotherDuck 又是 DuckDB 基金会的成员,该非营利组织拥有 DuckDB 的大部分知识产权。DuckDB 自己的商业部门 DuckDB Labs 是 MotherDuck 的股东。不得不说 Tigani 与 DuckDB Labs 合作是聪明之举,通过此举,双方利益得以绑定。
定位:OLAP 领域的 SQLite
要聊 DuckDB,我们先来看看 SQLite,其可以称得上世界上使用最多的关系型数据库系统,我们几乎在每台手机、每个浏览器和操作系统上都能找到它的身影,它甚至也在飞机上运行。
由于 SQLite 是嵌入式的,因此其不需要外部服务器管理。同时,他几乎绑定了每种语言,也正是基于这些特点,让其更容易使用,我们必须承认 SQLite 的伟大。但与此同时,其问题也突出。SQLite 是为 OLTP 而设计的,采用行存储,不能利用内存来加快计算速度,查询优化器非常有限,所以对于分析来说非常不友好。
正是基于此,DuckDB 看到了机会。简单来讲,它是用于分析 (OLAP 领域 [2] ) 的 SQLite,作为一个进程内数据库,它使开发人员、数据科学家、数据工程师和数据分析师能够使用纯 SQL 以极快的分析能力为它的代码提供支持。此外,它有能力在可能存在的地方分析数据,例如在笔记本电脑或云端。
DuckDB 使用了一个列式矢量化查询引擎,该引擎仍会解释查询,但会在一次操作中处理大量向量,由此减少传统系统 (如 PostgreSQL、MySQL 或 SQLite) 中按顺序处理每一行的开销,提升查询性能。
SQLite 是小型的关系型数据库,可用于进程内的部署。
DuckDB 所处象限
认知:数据库行业的“非共识”
与行业大部分公司不同,MortherDuck 拥有不一样的行业信仰。
首先,Tigani 认为大多数客户和组织的数据存储适中,并不大。同时,客户数据大小服从幂律分布。最大客户的存储量是第二大客户的两倍,第三大客户的存储量是第二大客户的一半,依此类推。因此,虽然有客户拥有数百 PB 的数据,但大小很快就会下降。
其次,存算分离中存在存储偏差,数据大小增速快于计算。假如业务是静态的,既不增长也不收缩,数据随时间线性增长,但计算需求不会改变太多,因为大多数分析都是针对近期数据进行的。这种存算偏差,让我们可能根本不需要进行分布式处理。而且,很多用户希望他们的问题得到简单快速的答案 —— 他们不想等待云。
最后,大多数数据很少被查询。得到处理的数据中,有很大一部分不到 24 小时。到数据保存一周时,查询的可能性或许比最近一天低 20 倍。历史数据往往很少被查询,这也就意味着数据工作集大小比我们预期的易于管理。如果有一个包含 10 年数据的 PB 表,这些数据最后可能被压缩至不到 50 GB。所以,很多云厂商专注于 100TB 的查询性能,这可能不仅与大多用户无关,且会分散他们提供出色用户体验的能力。
因此,MortherDuck 提出了自己的观点,大数据是真实存在的,但大多数人可能不需要担心。“大数据”已死——现今我们最重要的事情不是担心数据大小,而是专注于我们将如何使用它来做出更好的决策。我们也会时常问自己,组织真的会生成大量数据吗?如果生成了,真的需要一次使用大量数据吗?如果需要,数据真的太大而无法放在一台机器上吗?也许不同的组织会给出不同的答案。
未来:没有“银弹”,没有万能的选择
我们目前所处的时代高速变化,产生了很多数据库管理系统。正如我们看到的情况,目前这个世界还没有万能的数据库管理系统。大家都会采取不同的权衡取舍,以更好地适应特定的用例,DuckDB 也是如此。有时我们需要侧重考虑为多个并发用户提供服务,有时我们也需要一个对单用户工作负载非常快的嵌入式数据库。
DuckDB 会成功吗?答案也许并不确定。不过我们确实看到了一个充满活力的开源社区正在形成,虽然还未有任何商业化的信息披露,但我们应有耐心给予这个 A 轮公司,毕竟故事才刚刚开始。
DuckDB 在 Github 的 star 数量变化
注释:
[1] OLTP:On-Line Transaction Processing 联机事务处理过程,也称为面向交易的处理过程。
[2] OLAP:Online Analytical Processing 联机分析处理。联机分析处理 OLAP 是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。
4篇资讯
1关注
牛透社
崔牛会官方账号。专注于 to B(SaaS/PaaS/IaaS)领域的记录者和观察者。
最近资讯
- 数据库行业的 “叛逆者”:大数据已“死”,MotherDuck 当立
- 醒醒吧,中国 SaaS
- SaaS 生态“徘徊不前”,到底谁的锅?
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里。
敬原创,有钛度,得赞赏
-
钛粉30456 赞赏了
不与雅迪、小牛抢饭吃,海归电动两轮车品牌「号外」卷...
昨天 -
钛粉79015 赞赏了
IQAir Atem X空气净化器评测:旗舰级家用...
约6天以前 -
钛粉41049 赞赏了
负债高企,深陷亏损泥潭,科陆电子叒要募资补流
2023-02-14 18:37 -
钛粉82099 赞赏了
从卖火柴的小男孩到“宜家掌舵者”,商业天才的经营哲...
2023-02-11 18:47 -
正见Tru... 赞赏了
SaaS十词,“点火”2023
2023-02-03 17:40 -
小团子97... 赞赏了
一文速览【2022 中国经济年报】:人口首现历史性...
2023-01-18 02:02 -
钛好257... 赞赏了
国产电动车的沸腾2023:走向更残酷的牌桌
2023-01-16 07:45 -
钛粉61583 赞赏了
华宝新能:坚守长期主义,缔造商业之上的价值
2022-12-31 00:06 -
钛a66t... 赞赏了
跨界咖啡,是个好副业吗?
2022-12-30 17:11 -
赚赚 赞赏了
小红书给流量“削藩”
2022-12-30 00:36 -
钛粉81950 赞赏了
东北下岗往事轮回,一个家庭时隔20年的两次失业创伤
2022-12-20 10:24 -
钛富279... 赞赏了
蜜雪冰城「向下」的烦恼
2022-12-09 08:48 -
钛粉41450 赞赏了
遭阿里减持8000万股的商汤科技,何时盈利?
2022-11-24 22:45 -
钛粉81947 赞赏了
历史进程中的茅台与6次暴跌
2022-10-28 12:23 -
钛粉48375 赞赏了
7种傲慢与偏见,导致互联网人改造传统行业失败
2022-10-20 19:53 -
想暴富25... 赞赏了
7种傲慢与偏见,导致互联网人改造传统行业失败
2022-10-20 17:18 -
钛粉61006 赞赏了
7种傲慢与偏见,导致互联网人改造传统行业失败
2022-10-20 16:41 -
AIBEN 赞赏了
月费不到100块、1分钟出图,AI作画要打翻多少设...
2022-10-17 15:10 -
钛粉36011 赞赏了
身处风口却“一桩难求”,一文看懂充电桩产业全景|钛...
2022-10-14 14:27 -
钛粉36716 赞赏了
身处风口却“一桩难求”,一文看懂充电桩产业全景|钛...
2022-10-14 14:24 -
钛精378... 赞赏了
那些"上不了席面”的私房美味
2022-10-10 13:04 -
钛粉18902 赞赏了
中集李凌寒:数字化供应链的动因、要素及实践|202...
2022-10-01 11:40 -
有颜有钱5... 赞赏了
中集李凌寒:数字化供应链的动因、要素及实践|202...
2022-09-30 19:02 -
钛粉29232 赞赏了
割韭菜、白嫖、疯狂AMA……在30多个元宇宙Web...
2022-09-15 15:45 -
钛小773... 赞赏了
沈抖发布百度智能云新战略,回答了“木星”与“蜻蜓”...
2022-09-10 09:33 -
钛粉07914 赞赏了
钛媒体Pro创投日报:9月2日收录投融资项目25起
2022-09-03 03:20 -
钛粉65687 赞赏了
银泰百货“破产第一案”背后:苦涩退场,西安城改的挽...
2022-08-19 17:41 -
钛粉61539 赞赏了
对话蚂蚁集团副总裁何勇明:“支付宝不对标抖音”
2022-08-06 13:53 -
钛粉60785 赞赏了
近10亿募资闲置理财如今又推14亿定增,泽璟制药持...
2022-07-27 14:44 -
在天空中自... 赞赏了
钛媒体Pro创投日报:7月21日收录投融资项目32...
2022-07-22 16:40 -
钛粉14772 赞赏了
寻找下一个“玻色因”,国货抗衰盯上了蓝铜胜肽
2022-07-22 10:47 -
单晶冰糖啦... 赞赏了
宁德时代依靠钠电池可以维持万亿市值吗?
2022-07-22 10:37 -
钛友趣64... 赞赏了
女性专属时尚座驾,欧拉芭蕾猫上市19.3万元起售
2022-07-12 23:58 -
钛粉93105 赞赏了
TapTap塌房,“中国Steam”的故事结束了
2022-07-12 14:02 -
已注销用户 赞赏了
【医疗健康周报】第26周:“康诺亚生物”获得1.9...
2022-07-07 15:05 -
钛粉97884 赞赏了
零和游戏与非零和玩家:InterSystems的数...
2022-06-29 22:21 -
钛粉97003 赞赏了
零和游戏与非零和玩家:InterSystems的数...
2022-06-29 21:58 -
钛粉97388 赞赏了
零和游戏与非零和玩家:InterSystems的数...
2022-06-29 21:50 -
钛粉11323 赞赏了
丰谷酒业换帅!李寒松出任党委书记、董事长
2022-06-28 17:09 -
钛粉97508 赞赏了
海外港口货物积压,商家提前备货,今年外贸旺季来得有...
2022-06-24 18:44 -
钛粉36186 赞赏了
习酒划转茅台集团财务公司5%股权,上市仍在“激烈博...
2022-06-21 15:25 -
钛粉66633 赞赏了
重新定义“一体化”?HR SaaS产品PaaS化之...
2022-06-16 08:51 -
碧天黄地 赞赏了
未来汽车如何实现创新与融合?几位大佬有话说
2022-05-30 21:37 -
钛友趣76... 赞赏了
批量招聘难题何解?他们发现了HRSaaS的新机会 ...
2022-05-26 23:38 -
单晶冰糖啦... 赞赏了
钛媒体华南中心成立 全财经战略布局再进一步
2022-05-25 11:30 -
钛粉89798 赞赏了
郑大一附院,一家“超级医院”的双面特写
2022-05-21 06:19 -
钛粉00698 赞赏了
大厂深蹲,时代向前
2022-05-19 10:27 -
刘成军 赞赏了
中国信通院院长余晓晖:加快构建我国特色的工业互联网...
2022-05-18 14:09 -
已注销用户 赞赏了
Netflix真的会为「卖广告」掏出真心吗
2022-05-17 10:19 -
钛田097... 赞赏了
黑海粮仓“起火” ,全球粮食失衡
2022-05-09 19:50 - 查看精彩文章,打开钛媒体客户端
挺钛度,加点码!
- ¥ 5
- ¥ 10
- ¥ 20
- ¥ 50
- ¥ 100
支付方式
支付
支付金额:¥6
赞赏金额:¥ 6
赞赏时间:2020.02.11 17:32
账户【未登录】提示!
个人中心将无法记录并同步您的赞赏记录,
是否进行登录
分享文章
Oh! no
您是否确认要删除该条评论吗?
猜你感兴趣
分享文章