原副标题:连标识符都没写就敢要股权融资:被ChatGPT带火的矢量资料库,增添了两大波造富神话故事
校对 | 原子武器果汁、Tina
“我见过 10 多个资料库忽然变成了矢量资料库!”
“我预测每个资料库单厢忽然原生植物支持向量内嵌和矢量搜寻。”
“是的,兄弟,我的矢量资料库孵化器公司刚刚结束了 A 轮股权融资。”
……
AI 控制技术急速往前产业发展,一个核心驱动力因素,是背后的储存、处置和分析大量统计数据所需要的强悍基础建设也在急速发生不断进步。这波“新基础建设”大潮也催生又两颗冉冉上升的明日之星——矢量资料库,一种用于管理非形式化统计数据,包括位数形式的文档、音音频、影像和音频的强大软件系统。
随著消费市场对 AI 基础建设消费市场需求的急速增加,矢量资料库预计也将保持坚挺的快速增长势头,并一点一点成为未来 AI 控制技术蓝图的重要终极目标。
新式资料库创举一大批新富翁
资料库应用领域经历过一系列产业发展阶段。最早的是 SQL 类关系资料库,其中所有统计数据都被列入形式化的正方形附注。Web 2.0 民营企业的消费市场需求快速增长引起了 NoSQL 革命,资料库变得更加灵巧,能处置规模Villamblard的统计数据。如今,随著消费市场为 AI 控制技术积极酝酿,矢量资料库的时代也终于到来。
与传统资料库不同,矢量资料库不光擅于从非形式化统计数据中抽取看法。这些资料库采用矢量内嵌来表示值型统计数据,并将其排序在彼此之间相近的无数个控制点之中,能帮助使用者采用相近对象查阅统计数据库,从而随心所欲比较并找寻最适宜的相匹配项。矢量搜寻的另一个优势是这类查阅延后更低,不光适宜生成式 AI 应用。
受到近期 AI 炒的影响,更多民营企业开始加大力度股权投资矢量资料库以提升演算法准确度和工作效率。据相关统计,2023 年 4 月的 AI 股权投资应用领域呈快速增长趋势,尤其是矢量资料库应用领域的股权投资活动极为活耀,Pinecone、Chroma 和 Weviate 等矢量资料库孵化器公司都在这个月获得了股权融资。
让我们具体来看看矢量资料库应用领域非同一般的股权融资情况。
这个月,Pinecone 宣布以 7.5 亿美元的投后估值完成 1 亿美元的 B 轮股权融资。本轮股权融资由 Andreessen Horowitz 领投,加上去年的 2800 万美元的 A 轮股权融资和 2021 年的 1000 万美元的种子轮股权融资,该公司已累计筹集 1.38 亿美元。
Pinecone 是一款云原生植物矢量资料库,专为高性能、低延后和可扩展的矢量相近性搜寻而设计。它能处置密集和稀疏矢量,因此成为各种用例的理想通用选项。Pinecone 提供易于采用的 API,使用者只需编写几行标识符就能实现矢量的添加、搜寻和检索。
而 开源搜寻引擎 Weviate 的开发商 SeMI Technologies 于去年 2 月宣布拿下由 New Enterprise Associates 和 Cortical Ventures 领投的 1600 万美元 A 轮股权融资。
今年 4 月,Weaviate 再次获得 5000 万美元 B 轮股权融资。
Weaviate 是一款功能丰富的矢量资料库,专为复杂的统计数据建模和搜寻用例而生。它提供 GraphQL API,支持矢量相近性搜寻和一系列其他高级搜寻与过滤功能。Weaviate 能储存和搜寻各种统计数据类型,包括形式化统计数据、非形式化统计数据和影像。
同月, 矢量资料库孵化器公司 Chroma也获得了 1800 万美元的种子资金,估值达到 7500 万美元。
Chroma 是一款简单的轻量级矢量搜寻资料库,可用于构建内存内的文档 – 矢量储存。它以 Apache Cassandra 为基础,提供易于采用的 API。Chroma 的核心优势是简单性。它能快速完成设定和配置,无需任何特殊硬件或软件。
但值得注意的是,Chroma 上个月在 GitHub 上只获得 1.2k star。
最近,另一家开发开源矢量搜寻引擎和非形式化资料库的德国孵化器公司 Qdrant 也刚刚获得 750 万美元种子资金,领投方为 Unusual Ventures、42cap 和 IBB Ventures,另有包括 Cloudera 联合创始人 Amr Awadallah 在内的一众天使股权投资人跟投。
就目前的情况看,跟以往的其他新控制技术一样,我们恐怕很难区分矢量资料库应用领域的虚假炒与真实优势。谷歌开发专家 Jeff Delaney 就在他的节目上(搞笑地?)谈到他 在尚无任何收入、商业计划甚至是实际标识符可以展示的情况下,凭借 Rektor 矢量资料库孵化器项目让公司估值飙升至 4.2 亿美元,并呼吁大家为其股权投资。
社交媒体上,关于矢量资料库的段子也明显多了起来。
被 ChatGPT 带火的矢量资料库
矢量资料库的兴起,与生成式 AI 应用对“内嵌”概念的日益推崇密切相关。内嵌是一种高维矢量,可表示连续位数空间中的非形式化统计数据,例如文档、影像和音音频等。在 NLP 场景下,内嵌以矢量格式表示单词或句子的语义和句法,并可作为输入被馈送至深度学习模型之中。
例如,“我爱披萨”这句话就可以表示为一个 300 维的矢量,其中每个维度代表句子的特定特征或属性,例如字数、是否存在某些关键字或情绪倾向等。为自然语言生成内嵌的过程,往往是由预训练语言模型(例如 OpenAI GPT 或 BERT)来完成。
内嵌矢量的长度不受限制,可以根据具体用例和用于生成内嵌的模型而有所变化。内嵌的质量越高,语言建模、情感分析、机器翻译和问答系统等 NLP 任务的性能表现也就越好。
大语言模型(LLM)是高度依赖内嵌的先进 AI 用例之一。这些模型往往包含数十亿个参数,内嵌则广泛作用于这些模型的训练和微调过程,使其获得执行各种 NLP 任务的能力。
SQL 资料库在处置高维内嵌方面的局限性
SQL 资料库擅于处置具有固定模式的形式化统计数据,各条目通常储存在行和列构成的表内。与之相反,内嵌属于高维矢量,表示连续位数空间中的非形式化统计数据,例如文档、影像和音音频。内嵌可以包含数百甚至几千个维度,因此不适宜被储存在专门针对小型、固定维度统计数据集进行优化的传统 SQL 资料库内。
矢量资料库在设计上不光适宜处置高维矢量,例如内嵌,因此可以为大量非形式化统计数据的储存、查阅和分析提供更具可扩展性的工作效率优势的软件系统。凭借高效处置数千列相近性搜寻的能力,矢量资料库已经成为 AI 基础建设中的重要组成部分,为各类大语言模型和其他高级 AI 应用提供支持。
矢量资料库的内嵌处置优势源自以下几个特性:
高效储存 :矢量资料库强调对高维矢量的高效储存,能在最小储存空间下处置大量统计数据。这一点对于包含数百或几千个维度的内嵌而言非常重要。 高性能相近性搜寻 :矢量资料库采用专门的演算法和统计数据结构对内嵌进行高性能的相近性搜寻。使用者可以借此快速找到与给定查阅最接近的内嵌,因此非常适宜对影像或文档的相近性搜寻任务。 可扩展性 :矢量资料库具备良好的可扩展性,能随心所欲处置大规模统计数据集。这一点对内嵌非常重要,自然也能良好支持广泛依赖内嵌的大语言模型和其他 AI 应用。 灵巧性 :矢量资料库能处置各种统计数据类型,包括文档、影像、音音频和音频,因此广泛适宜各类 AI 应用。总体而言,矢量资料库在设计上非常适宜处置高维矢量(例如内嵌),这也使其成为现代 AI 基础建设中的重要组成部分。
通过语义搜寻实现 ChatGPT 定制
OpenAI 的内嵌方法是一种无监督学习方法,也被称为“表示学习”。该模型能学会特定的统计数据表示方式,在无需明确了解须抽取哪些特征或如何表示统计数据的情况下,即可完成自然语言处置等下游任务。这种方法在大语言模型训练之中效果拔群,能准确地生成顺畅自然的文档内容。
但 OpenAI 模型也有自己的局限,那是只能处置有限数量的输入统计数据。例如,ChatGPT 3.5 的 token 上限为 4096,意味着如果没有额外控制技术的加持,它就无法搜寻Villamblard的资料库。而内嵌的意义也正在于此。
矢量资料库凭借在非形式化统计数据中抽取看法的能力而愈发流行,其重要特征体现在语义搜寻等高级 AI 应用之中。语义搜寻的效果与 ChatGPT 类似,但可以在自定义知识库上运行。这里的知识可以是客户关系管理(CRM)统计数据,控制技术手册甚至是研发信息。但要实现语义搜寻,统计数据首先需要被储存在支持低延后查阅的位置,而矢量资料库就凭借种种优势而不光适宜这项工作。因此,矢量资料库的日益流行,也反映出越来越多的民营企业有意基于内部知识打造属于自己的定制化 ChatGPT。
竞争激烈程度持续提升
当然,Postgres 和 NoSQL 资料库 Redis 这类传统方案在 AI 时代也占据着一席之地。Postgres 同样具备 Pgvector 矢量 / 相近性搜寻功能。
为了不被时代抛弃,老牌资料库厂商正通过 AI 相关服务巩固自身业务。例如,甲骨文就推出一系列 AI 演算法,并以“资料库内高速学习”为宣传重点。IBM 的传统 db2 如今也被更名为“AI 资料库”,利用机器学习控制技术改善查阅性能并提供“基于置信度的查阅”功能。
此外,应用领域中的老牌劲旅(如微软)也开始提供在自定义知识库上构建 AI 应用的软件系统。例如,Azure Cognitive Search 就能帮助民营企业构建并部署基于矢量资料库功能的 AI 应用。Matchlt 则是谷歌开发的矢量搜寻软件系统。可以看到,新老势力正纷纷登场,希望能为想要在 AI 流程中引入矢量资料库的客户提供有价值的控制技术服务。
如果说 AI 已经成为众多民营企业的研究前沿和中心,那么面向 AI 的基础设施自然会随之升温。
SeMI Technologies 公司 CEO Bob van Lujit 解释了 Weviate 这样的厂商跟传统关系资料库供应商之间的区别。“这是我们第一次打造 AI 优先的基础建设,希望在统计数据科学成果跟消费市场业务消费市场需求之间架起桥梁。”
软件服务孵化器公司 Heltar 的创始人 Avyukt Aggarwal 也解释了矢量资料库与生成式 AI 工具间的紧密联系。“每一场淘金热都不缺卖铲子的人。对于生成式 AI,这里的铲子是什么?是矢量资料库。几乎一切由大语言模型支持的应用程序都在用矢量资料库,或者即将用上。大语言模型被集成到几乎所有主流应用之中,而提供一揽子托管矢量资料库的厂商是在挣淘金热之中卖铲子的钱。”
把向量资料库称为生成式 AI 的“铲子”并不为过。随著 AI 应用在民营企业生产部署中的快速普及,对高质量矢量资料库的消费市场需求也重现了 SQL 在当年云黄金期的辉煌。
参考链接:
https://techcrunch.com/2023/04/27/pinecone-drops-100m-investment-on-750m-valuation-as-vector-database-demand-grows/
https://thenewstack.io/vector-databases-long-term-memory-for-artificial-intelligence/
https://github.com/codediodeio/rektor-db
https://www.youtube.com/watch?v=klTvEwg3oJ4
https://analyticsindiamag.com/why-are-investors-flocking-to-vector-databases/
https://www.relataly.com/vector-databases-the-rising-star-in-generative-ai-infrastructure/13599/
《2023 大语言模型综合能力测评报告》出炉:以文心一言为代表的国内产品即将冲出重围
免费版“Github Copilot”,编程能力还翻倍?!谷歌硬刚微软,推出全新Colab编程平台
百度回应 Bing 成中国桌面搜寻第一;阿里回应大裁员传闻;文心一言消费市场负责人怒怼科大讯飞|Q资讯
中国的“贝尔实验室”:我们的资料库从内核的第一行标识符写起
活动推荐