给大模型持久记忆!GitHub 2万星向量数据库服务升级,国内7月上线邓紫棋彻底放飞自我了?穿比基尼出镜秀身材,身高160比例却很优越,身材真带感

2023-06-30 0 290

允中 丽翔 凹非寺

两个在GitHub上标星超2万的资料库,到底是什么濶濑?

原本,这便是前段时间火灾的矢量资料库众所周知、第两个在这一赛车场开放源码商品Milvus

狂妄数学模型伤风败俗年来,它

给大模型持久记忆!GitHub 2万星向量数据库服务升级,国内7月上线邓紫棋彻底放飞自我了?穿比基尼出镜秀身材,身高160比例却很优越,身材真带感

而就是那么两个GitHub上最盛行的矢量资料库,另一面公司Zilliz已经顺利完成了1.13万美元股权融资。

Zilliz著眼于研制面向AI应用领域的矢量资料库系统,母公司有Milvus、Zilliz Cloud等商品,目地是为开发人员提供更多可用性强、高性价比高的矢量资料库服务项目。

这三天,Zilliz Cloud正式发布2.0备受瞩目预览,着实蔚为新一波业界对矢量资料库的探讨风潮。

大数学模型控制技术重大进展飞速发展,矢量资料库在众矢之的上也起伏不定,许多人说它是给AI提供更多长年梦境的必不可少基础建设,也没人认为提升大数学模型语句宽度才是今后路径。

这不,还有Google技师专门针对有鉴于此摆摊南谯王。

众说纷纭之下,情况到底如何?不如来听听矢量资料库一线从业者怎么说。

我们联系到了Zilliz创始人兼CEO星爵,希望和他聊一聊矢量资料库对于这一轮AI浪潮的意义,以及它另一面变革的方式。

星爵认为,大数学模型的出现给AI带来了新的计算范式CVP Stack,矢量资料库是不可或缺的关键:

其中,“C”代表大数学模型(ChatGPT)负责矢量计算;“V”代表矢量资料库(vector database),负责矢量存储;“P”代表Prompt工程,负责矢量交互。

给大模型持久记忆!GitHub 2万星向量数据库服务升级,国内7月上线邓紫棋彻底放飞自我了?穿比基尼出镜秀身材,身高160比例却很优越,身材真带感

不仅如此,他还系统解答了在大数学模型发展过程中,矢量资料库具体起到的作用,以及作为矢量资料库头部公司的Zilliz,又要如何应对这一轮AI变革浪潮。

在不更改原意的基础上,量子位对与星爵的交流内容进行了整理,希望能为大家带来一些思考与启发。

大数学模型的数据基础设施

提问:前段时间矢量资料库很火,能不能先简单科普一下?

星爵:矢量资料库是一种为了高效存储和索引AI数学模型产生的矢量嵌入(embedding)数据而专门针对设计的资料库。

在传统的关系型资料库中,数据通常以表格的形式存储,而在矢量资料库中,数据以矢量的形式存储。矢量(embedding)是一组数值,可以表示两个点在多维空间中的位置。矢量资料库非常擅长处理大量的高维embedding数据,这种数据在机器学习和深度学习应用领域中很常见。

提问:在前段时间半年里,矢量资料库被广泛应用领域于大数学模型领域。矢量资料库在大数学模型领域具体有哪些应用领域?

星爵:诸如GPT、Bard、Claude和LLaMA这样的大数学模型可以产生海量矢量嵌入数据来表达复杂的语义关系,但模型本身的存储空间有限,无法长久保存这些数据。

矢量资料库就像一块外置的梦境块,可以长年存储这些数据,供数学模型随时调用。矢量资料库在LLM领域的应用领域主要可以分为以下几类:

1、管理私有数据和知识库

开发人员可以方便高效地将自己的领域数据集或者私有数据集转换成矢量格式,让大数学模型直接操作,而无需将这些数据暴露给数学模型训练方,有效保护了数据隐私和产权。

2、为大数学模型提供更多实时数据预览。

通过矢量资料库可以为大数学模型提供更多实时的数据预览,解决大数学模型“胡言乱语”的问题,而无需频繁重训数学模型。这比直接fine-tune数学模型的成本低很多。

3、实现大数学模型的个性化和增强。

开发人员可以在矢量资料库中添加语句和自己的数据来扩展大数学模型的感知能力,实现个性化应用领域。

4、提供更多智能体的梦境。

智能体是大数学模型的两个新兴应用领域场景,用于构建具有独立智能的虚拟人物、虚拟代理甚至人形机器人。矢量资料库不仅可以帮助智能体梦境其感知的历史数据和语句,帮其做出智能决策,还能使其根据长年梦境来实现人格演进。

5、保存大数学模型的处理结果。

矢量资料库可以长久保存大数学模型处理过的数据,进行离线分析和挖掘。而不像大数学模型那样,用过即弃。比如说,开放源码项目GPTCache可以将大数学模型的查询结果缓存至矢量资料库,避免重复计算,提升查询效率,这有点像CDN和Redis对网站数据的作用。

6、构建更复杂的AI系统。

在很多场景下,我们需要将多个大数学模型和矢量资料库串联,实现更强大的功能。其中,多个大数学模型甚至是多模态数学模型共同负责处理语义,矢量资料库负责数据流转。

对于大数学模型应用领域开发人员来说,矢量资料库是两个非常重要的基础设施,可以在最大限度发挥大数学模型威力的同时保护数据隐私,实现更丰富的功能。LLM和矢量资料库共同推动AIGC的发展,二者缺一不可。

全面拥抱大数学模型

提问:我们了解到,Zilliz Cloud在两周前于硅谷正式发布了全面的商品预览和升级换代。这次商品升级换代另一面的动机是什么?

星爵:我们的出发点是all-in大数学模型应用领域开发

在过去的几年里,我们的开放源码商品Milvus和商业商品Zilliz Cloud被广泛应用领域于计算机视觉、NLP、推荐系统、搜索引擎、自动驾驶和生物制药等领域。在过去的半年里,矢量资料库经历了它的iPhone时刻,数百万LLM应用领域开发人员涌入,LLM应用领域开发成为了矢量资料库的杀手级应用领域场景。众多的LLM应用领域开发人员给我们带来了大量新兴的需求,我们决定拥抱这些变化,为LLM应用开发提供更多更全面、更便利的支撑。

提问:能不能具体介绍下Zilliz Cloud做了哪些预览和升级换代?

星爵:首先,引入了对RESTful API的全面支持。我们看到新进的LLM开发人员大多具有丰厚的Web应用和移动应用领域开发背景,他们熟悉基于RESTful API将多个服务项目地能力串起来打造强大的应用领域。有了RESTful API,开发人员可以便捷地将「LLM+矢量资料库+提示词」三者连接起来,打造LLM应用领域程序。我们将这种新开发范式称为CVP Stack,能极大提升开发效率。举个例子说,明道云的一位技师使用RESTful API一天就顺利完成了Zilliz Cloud和对方平台的整合。

其次,提供更多了动态schema。此前矢量资料库采用静态schema的方式,需要开发人员在建表时根据业务定义数据的schema,这对于大型企业的成熟业务而言是一种常见的处理方式。然而,当下AIGC应用领域多处于早期快速迭代阶段,面向全国业务效果,需要频繁调整矢量资料库内的字段,对于这类需求,反复重建schema结构以及频繁的数据重导入会严重影响商品的迭代速度。有鉴于此我们引入了动态schema,支持用户根据开发需要动态灵活地进行数据处理。

再者,新增了JSON数据类型的支持。JSON是目前最盛行且最灵活的数据表示方式众所周知,被广泛地应用领域于应用领域程序开发中。我们将MongoDB的基础能力搬进了矢量资料库,用户在Zilliz Cloud上可以将JSON与embedding这两种超强能力相结合,实现基于JSON与embedding矢量的混合数据表示和处理。

另外,我们还引入了Partition Key,支持基于Partition Key的高效数据过滤;增加了组织和角色的概念,支持基于Role-Based Access Control(RBAC)的多粒度访问控制;增加了全面的LLM生态支持,深度整合了OpenAI、Claude、Cohere、LLaMA、Bard、Dolly、LangChain、LlamaIndex和Semantic Kernel等热门项目。

提问:我们看到Zilliz Cloud之前只提供更多专有集群一种商品,此次新增了Serverless和云上私有部署两种商品。这另一面的原因是什么?

星爵:Zilliz Cloud面向全国不同阶段的用户提供更多多种用户计划。

基于Serverless的入门计划

为每位用户提供更多两个免费的Serverless实例,开箱即用,可支持百万条数据规模的矢量检索,适合个人开发人员和小型开发团队使用。

专有集群商品

面向全国大型开发团队和企业,著眼高性能、高可用、高可扩展性、智能运维和优化、数据安全以及敏捷控制技术支持等企业级特性,并提供更多性能型、容量型、经济型三类实例类型,满足企业不同维度的业务需求。

自托管计划

允许用户在其虚拟私有云(VPC)上部署我们的矢量资料库服务项目,提供更多完全控制,它是注重隐私、数据安全和合规的大型企业的理想选择。

通过提供更多不同形态的商品,我们希望满足LLM开发人员在不同发展阶段的需要,让每两个开发人员、每两个开发团队、每两个企业都能方便地使用矢量数据库服务项目,加速实现AI数据基础软件的普及化。

矢量资料库市场的竞争和趋势

提问:今年年来,多家矢量资料库初创公司获得了大额股权融资,一些大厂也纷纷把矢量资料库的研制列入日程。你怎么看待日益升温的竞争?

星爵:竞争意味着市场确认和机会。竞争的加剧说明矢量资料库的价值得到了市场的广泛认可,其市场机会和潜力得以证实。与此同时,激烈的竞争也在一定程度上推动了控制技术的进步,这对消费者和整个行业而言都大有裨益,是一件实打实的好事。

来说都是有益的。我相信在两个健康的生态系统中,有多个玩家是至关重要的。这为开发人员和客户提供更多了选择,也为行业设置了标准。

在Zilliz,我们作为矢量资料库行业的先行者和开拓者,尤其欢迎这种竞争。我们将继续致力于推动矢量资料库控制技术的发展,并与其他参与者一起,为用户提供更多最先进的工具和服务项目。

提问:刚才你提到了行业标准,在关系型资料库领域有TPC-C和TPC-H这样的benchmark,矢量资料库领域有类似的benchmark么?

星爵:目前还没有标准的benchmark,这给开发人员和企业在矢量资料库商品对比和选择时造成了很多的疑惑和困难。

有鉴于此,我们近期开放了一套开放源码的矢量资料库评测工具Vector DB Bench(https://github.com/zilliztech/VectorDBBench)

该工具包含一套标准化数据集,结合多个典型场景,覆盖数据插入与索引构建、矢量查询、混合查询、数据容量等多个能力维度,同时支持用户自定义的数据集与测试场景。

我们欢迎开发人员们参与到这个开放源码benchmark的开发和迭代中来,希望Vector DB Bench能发展成为像ClickBench这样的行业标准。

提问:你认为矢量资料库赛车场今后竞争的核心是什么?

星爵:矢量资料库作为一款资料库商品,“更大更快更便宜”是今后发展的核心趋势。更大是指能处理更大的数据量,这意味着支持百亿条数据甚至更高的可扩展性;更快是指更高的性能,包括毫秒级的响应时间和高达数万的QPS;更便宜是指更少的资源消耗更高的高性价比,在相同资源消耗的情况下提供更多更强大的性能。

我们的Zilliz Cloud基于Milvus开放源码项目,这是全球现在唯一一款真正分布式的矢量资料库系统,能提供更多数百亿条矢量数据的毫秒级查询。得益于Milvus的云原生架构,Zilliz Cloud高效地实现了多租户能力,在相同的实例配置下,性能远超其他竞品。举个例子说,在基于VectorDBBench的评测中,Zilliz Cloud性能是Pinecone的两倍以上,综合高性价比超过Pinecone三倍以上。

亚洲地区云商品即将推出

提问:Zilliz Cloud现在已经支持了AWS和GCP,有没有计划支持亚洲地区云平台?

星爵:我们计划在今年7月上旬推出亚洲地区的云服务项目商品,首期预计会支持阿里云、百度云、腾讯云和金山云,并将逐步覆盖亚洲地区更多的云厂商。Zilliz Cloud亚洲地区云商品定价相比海外商品将会有较大幅度的下调,致力于为亚洲地区用户提供更多最高高性价比的全托管矢量资料库服务项目。

Zilliz Cloud:

https://zilliz.com/cloud

Milvus:

https://milvus.iohttps://github.com/milvus-io/milvus

VectorDBBench:

https://github.com/zilliztech/VectorDBBench

GPTcache:https://github.com/zilliztech/GPTCache

— 完 —

量子位 QbitAI · 头条号签约

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务