做少有人涉足的向量数据库,是种什么体验?| 快公司
做少有人涉足的向量数据库,是种什么体验?| 快公司
杨丽_
· 2022.12.29 08:00
在品牌和生态尚未成熟之前,商业价值挑战是多方面的。
做少有人涉足的向量数据库,是种什么体验?| 快公司
图片来源@视觉中国
人工智能的突破是建立在数据、算力、算法三个层面,彼此发展相辅相成。这是业界普遍共识。
从近些年的进展来看,深度学习大模型有效提升AI任务的训练效果,但也对计算和存储资源提出了极大需求。哪怕是只能带来一两个性能点的提升,只要最终能获得超强的效益回报,巨头科技公司往往会加大投入。性能提升的背后,是成本的代价。
但对于更多的创业公司而言,大模型做微调或二次开发的路径,且不说仍需要大量算力的支持,在实际场景中,能不能等到成熟落地也需要时间成本。是否可以替换为其他解决方案?在训练时外挂领域知识库,加强数据生产的标准化,将计算扩展到多个GPU实现分布式训练等等,均为业内在探索的方向。
Zilliz构建了一套向量数据库,虽然听起来是个新事物,但解决的问题却是上述已经存在的问题。
向量数据,顾名思义是Embedding Data。作为AI模型训练的基石,Embedding从最开始的用于文本表达的词向量,到后来可用于表达图片、视频、语音等非结构化数据转化的深层语义,这些向量数据可被计算机识别、使用,且在转化的过程中不丢失信息。
向量数据库,则是将向量数据在存储、分析等方面的问题解决,极大降低数据处理成本,帮助AI工程师获得AI数据价值。在这个过程中,相当于在非结构化数据和结构化数据层之上又加了一个新的数据层,这个数据层中的信息主要以向量的方式存在。为此向量数据库具备与ElasticSearch等传统搜索引擎对数据检索的的功能,但前者可对非结构化数据进行快速精准检索。
据Zilliz创始人Charles Xie(星爵)的观察,2013年前后,Embedding方兴未艾,但当时处理的数据量比较小,基本仍处于实验室小规模验证的阶段,也出现了很多提取算法、运算库,“数据库系统本质是帮助企业管理大量数据,如果数据量不够大,其实用不上数据库系统。”
真正的改变则来自于2017年前后,伴随深度学习在工业界的广泛落地,实际应用场景下的数据量级开始直线增加。想要高效处理这些海量的向量数据,就需要更细分、更专业的数据基础设施,为向量构建专门的数据库处理系统。
AI时代,数据处理的类型和计算体系架构都发生了较大变化,如GPU、FPGA、ARM架构芯片等层出不穷。但当时团队对最终产品形态是什么,并不是很清晰。
“因英伟达初创企业加速计划的契机,我们后来接触到了很多全球化AI企业。不断交流的过程中,我们意识到企业对海量非结构化数据管理的需求。”星爵表示,向量作为一个新型数据类型,其数据量已经达到了一定规模,对数据管理的要求如可用性、数据一致性、管理的复杂度等层面会越来越高。
星爵(Charles Xie)
一个专用的数据库系统需求呼之欲出。
场景与成本的制约
不过,业内对向量数据库的认知和应用仍属于少数,并且当前多在大厂、互联网、人工智能企业,作为基础软件,数据库系统本身在技术上十分复杂,国内的技术公司虽然此前也有数十载的自研历史但目前在产业规模上尚未达到巅峰之势,传统数据库依然有很多存量业务。在品牌和生态尚未成熟之前,商业价值挑战是多方面的。
一是成本,需要挖掘软硬件对向量数据处理的加速能力。
例如,微软bing搜索引擎,在2000年就宣布用向量实现搜索引擎的增强,可处理2000多亿张网页的向量数据。相比这些领先互联网公司,一般的企业还是很少会用到如此多的数据。
星爵指出,“从行业的普遍场景来看,大概是在千万到十亿级别的规模,但这类非结构化数据,从人类企业能够分析利用的总量相比,还是非常小的部分。随着硬件成本的进一步降低,和计算效率的进一步提升,是可以以更低的成本、更高的效率去接触更多的非结构化数据。”
在他看来,AI算法和模型训练来的Embedding会有一个很好的效率提升,但是它的计算量也比较大,这导致计算成本也比较高。如果想要降低成本,就一定需要有硬件方面的创新,包括更快的处理器、CPU、GPU加速处理数据,也需要有更好的存储体系,以及更低成本的网络带宽进行支撑。加之在软件层面的创新如索引基础、调度算法等,都将提升厂商应用的ROI。
目前,Zilliz在积极拥抱异构计算的能力,让向量数据库比较好地适配GPU,包括英伟达、苹果基于ARM架构的M1/M2、亚马逊自研的ARM芯片等。
二是在数据库本身的稳定性、性能、成本等方面寻找一个技术方案最优解,进行全新的设计思路和研发方案。
从技术架构上讲,所有的数据库都会有其通用挑战,比如在数据调度、数据管理、执行引擎、数据的存储格式、缓存、分布式、数据的一致性和高可用性等方面都存在挑战。MongoDB、时序数据库、文档数据库、分布式数据库等数据库的出现,相比传统关系型数据库在各自的细分场景下有了一个更好的效能提升。
这些数据库需要因地制宜,找到适合它的应用场景。
因此,向量数据库,跟过去十年出现的各类新兴数据库遇到的挑战一样,要在一个完整的数据库系统组件里,综合向量数据、AI数据处理的特点,做全新的设计研发和探索。最终将这些技术组件能够紧密地联系在一起,为向量数据、AI数据处理提供一种更高性能、更高ROI的具有竞争优势的产品。
三是使用场景的探索与挖掘。向量数据库主要应用在与全文检索场景时,可提升检索的精准性。
举个例子,将ElasticSearch(ES)与向量数据库进行对比参照能够发现:
一是处理的数据类型不一样,ES处理的更多是文本分析、日志检索,而向量搜索处理的是复杂的自然语言交互,如图片视频的理解,比较粗颗粒度;
二是后者使用的是深度学习技术,更加不需要人工干预,可更加精准、智能地进行搜索,在精确值上会有比较大的提升(如天安门、故宫、紫禁城可以通过深刻语义理解后明确是同一个事物),但这也导致其需要更加复杂的计算和更多的计算资源,成本会略高。在检索速度上,向量数据库都能对延时和QPS都能达到很高的水平,延时在毫秒级别,QPS单节点在上千量级。
所以,选择哪类技术路径是跟业务场景是比较强相关的,ES这类传统的搜索引擎跟向量搜索引擎需要相辅相成。
整体来看,Zilliz主要关注的行业分布在互联网、电商、传统金融、以及新药研发等新兴领域,涉及计算机视觉、图片检索、视频分析、自然语言处理、推荐系统、定向广告、个性化搜索、智能客服、欺诈检测等具体场景。
相信开源与云
目前数据库本身又具备很强的通用性,市场空间足够大,在云与智能时代,传统结构化数据库已经无力支撑很多新兴负载,企业如果继续按照原有的技术路线,在时间和成本上的消耗将非常之高,这给了细分领域数据库新的发展机会。
2019年,Zilliz公司开源了向量数据库Milvus,2020年项目加入Linux基金会旗下LF AI&Data基金会进行孵化,2021年毕业成为顶级项目。截至目前,Milvus已经积累了上千家企业用户使用,为其在数据库领域的持续探索指引了方向。
“大公司往往有足够多的用户生态和资源投入去实现这一点,但创业公司不行。技术创业者最怕的就是拿着锤子找钉子,开源的一个核心目的就是要找到PMF,快速获得用户反馈,让企业快速跨越从技术到产品的鸿沟,然后再推动产品迭代。”星爵表示。
开源虽然改变了数据库领域,提升了软件商业的天花板,但如果只靠开源,只有少数企业才能盈利。一家商业公司做开源数据库,是不会为了开源而开源。
星爵看的是,开源商业化在北美地区已经有很长的历史,在之外的地区,市场的担心和顾虑是存在的,仅在过去两三年有很大的改变,尤其在中国,市场和投资人的热情非常高涨,“但稍微有点过热了。因为开源不是万能钥匙,不是说开源就一定会成功。”
中国开源软件的起步是比较晚的,且基础也比较薄弱,例如在开源治理方面包括法规、合规性、开源运营的效率和方法论,这导致开源精神在开发者群体中的渗透,并没有一个很深刻的土壤。开源精神植入人心,需要时间沉淀。
“开源应该是是帮助企业运营者更自然地获客、获得用户反馈,然后自然而然就能实现商业化。”
Zilliz cloud架构图
Zilliz的思路是,先找到PMF,与潜在的客户市场建立联系,然后基于云建立起全托管的数据库服务,为客户提供一整套的服务体系,从而获得相应的商业收益。不过,由于Milvus开源项目带来了很多海外目标用户,这也让Zilliz结合环境和市场需求后决定将商业化路径面向出海。2022年8月,Zilliz 首先面向海外市场推出了云端全托管向量数据库服务 Zilliz Cloud。
开源、做云、出海……这不仅是Zilliz的选择,也是目前国内数据库领域创业团队面临中国本土环境下的相似路径。从最终结果来讲,无论是哪种选择,都会为企业在技术社区的凝聚力和市场价值层面带来一些回馈。
(本文首发钛媒体APP 作者 | 杨丽)
31篇资讯
22关注
杨丽_
关注企业软件、操作系统、云原生(PaaS)、数据中台 | 微信:leeyangamber
最近资讯
- 做少有人涉足的向量数据库,是种什么体验?| 快公司
- 甲骨文吴承杨:云和数据库,如何以简驭繁 | 钛媒体T-EDGE
- G7易流翟学魂谈「时代产品」:要给产业生态带来美好改变 | 钛媒体T-EDGE
声明:文章内容仅供参考、交流、学习、不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里。
敬原创,有钛度,得赞赏
-
钛粉81950 赞赏了
东北下岗往事轮回,一个家庭时隔20年的两次失业创伤
2022-12-20 10:24 -
钛富279... 赞赏了
蜜雪冰城「向下」的烦恼
2022-12-09 08:48 -
钛粉41450 赞赏了
遭阿里减持8000万股的商汤科技,何时盈利?
2022-11-24 22:45 -
钛粉81947 赞赏了
历史进程中的茅台与6次暴跌
2022-10-28 12:23 -
钛粉48375 赞赏了
7种傲慢与偏见,导致互联网人改造传统行业失败
2022-10-20 19:53 -
想暴富25... 赞赏了
7种傲慢与偏见,导致互联网人改造传统行业失败
2022-10-20 17:18 -
钛粉61006 赞赏了
7种傲慢与偏见,导致互联网人改造传统行业失败
2022-10-20 16:41 -
AIBEN 赞赏了
月费不到100块、1分钟出图,AI作画要打翻多少设...
2022-10-17 15:10 -
钛粉36011 赞赏了
身处风口却“一桩难求”,一文看懂充电桩产业全景|钛...
2022-10-14 14:27 -
钛粉36716 赞赏了
身处风口却“一桩难求”,一文看懂充电桩产业全景|钛...
2022-10-14 14:24 -
钛精378... 赞赏了
那些"上不了席面”的私房美味
2022-10-10 13:04 -
钛粉18902 赞赏了
中集李凌寒:数字化供应链的动因、要素及实践|202...
2022-10-01 11:40 -
有颜有钱5... 赞赏了
中集李凌寒:数字化供应链的动因、要素及实践|202...
2022-09-30 19:02 -
钛粉29232 赞赏了
割韭菜、白嫖、疯狂AMA……在30多个元宇宙Web...
2022-09-15 15:45 -
钛小773... 赞赏了
沈抖发布百度智能云新战略,回答了“木星”与“蜻蜓”...
2022-09-10 09:33 -
钛粉07914 赞赏了
钛媒体Pro创投日报:9月2日收录投融资项目25起
2022-09-03 03:20 -
钛粉65687 赞赏了
银泰百货“破产第一案”背后:苦涩退场,西安城改的挽...
2022-08-19 17:41 -
钛粉61539 赞赏了
对话蚂蚁集团副总裁何勇明:“支付宝不对标抖音”
2022-08-06 13:53 -
钛粉60785 赞赏了
近10亿募资闲置理财如今又推14亿定增,泽璟制药持...
2022-07-27 14:44 -
在天空中自... 赞赏了
钛媒体Pro创投日报:7月21日收录投融资项目32...
2022-07-22 16:40 -
钛粉14772 赞赏了
寻找下一个“玻色因”,国货抗衰盯上了蓝铜胜肽
2022-07-22 10:47 -
单晶冰糖啦... 赞赏了
宁德时代依靠钠电池可以维持万亿市值吗?
2022-07-22 10:37 -
钛友趣64... 赞赏了
女性专属时尚座驾,欧拉芭蕾猫上市19.3万元起售
2022-07-12 23:58 -
钛粉93105 赞赏了
TapTap塌房,“中国Steam”的故事结束了
2022-07-12 14:02 -
已注销用户 赞赏了
【医疗健康周报】第26周:“康诺亚生物”获得1.9...
2022-07-07 15:05 -
钛粉97884 赞赏了
零和游戏与非零和玩家:InterSystems的数...
2022-06-29 22:21 -
钛粉97003 赞赏了
零和游戏与非零和玩家:InterSystems的数...
2022-06-29 21:58 -
钛粉97388 赞赏了
零和游戏与非零和玩家:InterSystems的数...
2022-06-29 21:50 -
钛粉11323 赞赏了
丰谷酒业换帅!李寒松出任党委书记、董事长
2022-06-28 17:09 -
钛粉97508 赞赏了
海外港口货物积压,商家提前备货,今年外贸旺季来得有...
2022-06-24 18:44 -
钛粉36186 赞赏了
习酒划转茅台集团财务公司5%股权,上市仍在“激烈博...
2022-06-21 15:25 -
钛粉66633 赞赏了
重新定义“一体化”?HR SaaS产品PaaS化之...
2022-06-16 08:51 -
碧天黄地 赞赏了
未来汽车如何实现创新与融合?几位大佬有话说
2022-05-30 21:37 -
钛友趣76... 赞赏了
批量招聘难题何解?他们发现了HRSaaS的新机会 ...
2022-05-26 23:38 -
单晶冰糖啦... 赞赏了
钛媒体华南中心成立 全财经战略布局再进一步
2022-05-25 11:30 -
钛粉89798 赞赏了
郑大一附院,一家“超级医院”的双面特写
2022-05-21 06:19 -
钛粉00698 赞赏了
大厂深蹲,时代向前
2022-05-19 10:27 -
刘成军 赞赏了
中国信通院院长余晓晖:加快构建我国特色的工业互联网...
2022-05-18 14:09 -
已注销用户 赞赏了
Netflix真的会为「卖广告」掏出真心吗
2022-05-17 10:19 -
钛田097... 赞赏了
黑海粮仓“起火” ,全球粮食失衡
2022-05-09 19:50 -
钛i7Tw... 赞赏了
Bilibili Issues 10,000 NF...
2022-05-03 16:30 -
钛粉11841 赞赏了
式微的金三银四,进击的线上招聘 | 钛媒体深度
2022-04-28 00:39 -
钛粉70984 赞赏了
式微的金三银四,进击的线上招聘 | 钛媒体深度
2022-04-27 14:29 -
刘成军 赞赏了
【书评】工业互联网,如何开启工业全价值链价值重构的...
2022-04-20 15:10 -
钛粉12812 赞赏了
破发又大涨 海创药业“明天”的故事不好讲
2022-04-13 19:13 -
端生 赞赏了
孟晚舟归国首次亮相,华为年度净利润超1100亿元 ...
2022-03-29 17:26 -
钛粉04723 赞赏了
京喜基本退出社区团购
2022-03-28 12:53 -
钛粉34992 赞赏了
我和我的植物人女儿|钛媒体影像《在线》
2022-03-25 14:59 -
钛粉32623 赞赏了
“看风使舵”的摩根大通,为什么不值得信任?
2022-03-23 13:18 -
钛粉64062 赞赏了
酒店机器人离“万能”员工,还差多少笔融资?
2022-03-19 10:27 - 查看精彩文章,打开钛媒体客户端
挺钛度,加点码!
- ¥ 5
- ¥ 10
- ¥ 20
- ¥ 50
- ¥ 100
支付方式
支付
支付金额:¥6
赞赏金额:¥ 6
赞赏时间:2020.02.11 17:32
账户【未登录】提示!
个人中心将无法记录并同步您的赞赏记录,
是否进行登录
分享文章
Oh! no
您是否确认要删除该条评论吗?
猜你感兴趣
分享文章