Greptime:时序数据库的未来在“云”和“AI”

2023-06-02 0 849

Greptime:时序数据库的未来在“云”和“AI”

近些年,排程资料库(time-series database)始终是资料库应用领域的热点,海量数据排程统计数据的新软件系统、项目和基础工具都在飞速发展。

近日,记者采访了Greptime 联合创始人兼CEO庄晓丹。他表示,从瞄准情景来看,排程资料库的市场空间足够大,云原生植物可观测、IoT 特别是智能汽车、金融市场都驱动着排程统计数据的大批造成,对快捷和高效率处置排程统计数据的市场需求愈来愈强烈。面向全国未来,云原生植物资料库和融合AI是排程资料库估值合理的趋势。

难题1:现在资料库市场百家争鸣,排程资料库只是其中两个分支。您怎么去定义这个排程资料库,是不是就加了两个天数条码的资料库?

排程资料库不仅仅是加两个条码,它和文件格式资料库、图统计数据库一样,都是面向全国一些特定应用领域的资料库。排程资料库是一种面向全国天数字符串统计数据的资料库,它主要就用于储存和管理各种天数字符串统计数据。它主要就处置的是感应器类型的统计数据,所谓感应器包括应用软件感应器和硬体感应器。应用软件感应器比如说监视的统计数据:每秒钟的销售业务 TPS,某台物理机的 CPU、缓存指标等。硬体方面,比如说各种类型物联网感应器,新能源汽车上布置的各种类型感应器,可以将各种类型感应器统计数据储存并提供布季夫索引、分析等能力给用户。

较之现代数据库主要就面向全国各种类型事务,排程资料库的挑战迥然不同,因为Gazeille处置海量数据统计数据,统计信息量较之现代销售业务可能要高十倍,甚至十倍,比如说,我们处置过每秒钟要一千万点载入的监视情景,这是关系型资料库处置不了的。

难题2:排程数据库是如何诞生起源的?

排程资料库大概是2013年左右逐步飞速发展的。排程资料库不是两个捷伊基本概念,在轻工业应用软件里有产线监视、能源电网监视、煤矿胸腺肽水槽监视、城建胸腺肽喉管的压力监视等,对动态统计数据的明确要求比较高,因此,在现代的轻工业应用领域始终有动态资料库的基本概念。

2013年排程资料库飞速发展的打下基础是和感应器从轻工业应用领域像消费市场需求应用领域延伸密不可分的。比如说可佩戴设备、智能汽车和安防的飞速发展,需要透过统计数据交互层来收集各种类型传感器统计数据,并及时意见反馈,透过智能的演算法来做预测和智能县丞。从应用软件开发升级换代的角度看,2013年开始业内开始流行起了微服务项目和上云。在云+微服务项目的构架下,对统计数据采集的精确度和动态性明确要求提高。

因此总结来讲,排程资料库的飞速发展本质上还是软硬体感应器越发的入侵到消费市场需求端,在应用软件开发升级换代的社会关系社会变迁下对监视的市场需求提高。伴随物联网的飞速发展,大批的统计数据不断造成,排程统计数据也愈来愈多,需要对统计数据进行更好的处置,合理有效利用。

难题3:当时为什么会选择排程资料库这个赛道来创业?

感应器会入侵到所有的行业,大的趋势不会变。统计数据交互层的工作是一定要有的,比如说ChatGPT已经非常高智能了,仍然需要统计数据交互层给它提供统计数据,帮助它训练和决策。因此统计数据的工作是不可或缺的。如果感应器入侵到所有物理的世界、应用软件的世界,它明确要求更动态、精确度更高的统计数据,这个赛道的长期的趋势是向好的。

难题4:排程资料库在哪些行业上有优势,或者哪些行业会选择排程统计数据库?

有三个行业对快捷和高效率处置排程统计数据的市场需求愈来愈强烈:两个是泛IOT行业,包括车联网、可佩戴设备、安防;两个是可观测行业。所谓可观测性,是透过分析系统的Metrics(指标)、Traces(链路)、Logs(日志)等统计数据,构建完整的观测模型,从而实现故障诊断、根因分析和快速恢复。可观测性也是由现代监视演进而来的,因此也包括现代意义上的监视。海外已经有好几家做可观测的公司已经做到几十亿到上百亿美金;第三个行业是金融统计数据分析,无论是做量化交易、投资研究分析,都是基于历史的基金和股票的统计数据以及各种宏观统计数据,做动态的交易决策、量化决策等等。在这三个应用领域会有一些比较典型的排程的情景。

难题5:您怎么来看待排程资料库的发展趋势?

首先两个比较大的趋势,是云原生植物资料库的发展。现在基本所有的企业都在思考如何降本增效,一些很现代的企业都在考虑上云。排程资料库作为两个基础的统计数据服务项目,要能在云上运行,以按需使用的方式快速的帮助销售业务启动或者销售业务扩展。而随着资料库上云,以及云原生植物技术的发展,基于容器和微服务项目化的应用规模更加庞大,服务项目之间依赖呈现为网状结构,复杂的云上环境以及分布式系统的复杂性、动态性,使得故障定界、调用追踪非常困难,同时对资料库的安全性以及统计数据本身的合规性,资料库的自运维性,也会提出更高的明确要求。

第二个趋势是资料库和AI的结合。无论是DB for AI或者AI for DB,都为资料库应用领域打开了两个新发展机会。透过在资料库里面内置一些演算法或者透过GPT帮助资料库更好的调优,自适应各种环境,都有很大的发展的空间。

难题6:排程资料库是资料库中两个很小的分类,它的市场规模有多大?排程资料库有没有技术路线之争,如果有的话都有哪些路线?为什么选择你们公司现在的统计数据路线?

如果单纯把排程资料库作为两个资料库的子类别来看的话,可能市场不算大。但是排程资料库脱离不了情景,脱离不了泛IOT、可观测以及金融统计数据分析。如果以情景来看这个市场,其实是非常大的。因为情景和应用,和底层的软件系统都是紧密挂钩的,它不是两个可以横向切开的东西,应该是底下是横向的分层,但最上层的销售业务层更多是纵向的区分。

技术方面最重要的两个趋势,一是云原生植物资料库的发展,它会开启更极致的成本和更好的使用体验等很多可能性。第二点还是AI。Greptime一开始的定位就是分布云原生植物的资料库并且支持排程和分析的混合负载。

难题7:Greptime排程资料库的典型应用情景能不能分享一下?

首先,在泛IOT应用领域,主要就是新能源车企和轻工业监视,这之中会有国产信创的明确要求以及Mysql、Hbase瓶颈的难题,Greptime可以帮助客户解决。

另两个应用领域是可观测应用领域,也就是做监视。云原生植物时代,明确要求从系统内部出发,基于“白盒化”的思路去监测系统内部的运行情况,不仅发现难题,更对难题现象背后本质给出明晰解释。现在在监视应用领域基本都在用Prometheus和clickhouse来解决排程跟分析的市场需求。这方面,Greptime有两个混合负载的能力。

第三个是金融应用领域。类似web3这样的开放金融是互联网应用,对服务项目的高可用、微服务项目的吞吐包括动态的处置能力方面有一些诉求,Greptime也有一些POC的客户在尝试使用。三个应用领域Greptime都找了一些客户在做POC。

客户选择排程资料库的原因,从产品维度分析主要就有两个情景:

两个是原来没有用排程资料库,而是用Mysql、Hbase或者用自己的方案来解决。但这会遇到储存成本的难题、性能的难题、定制化代码的难题、二次开发的难题等诸多难题,因此会希望能迁移到排程资料库。

性能。其次是分析能力,包括多表的分析,超长天数范围的分析能力。储存成本和产品是不是开源也是考量因素。

据的挖掘使用。比如说,很多企业把统计数据存下来之后,以压缩文件的方式储存到云端,后续再做解压缩。如果能用排程的方式、云原生植物的方式把这些统计数据储存在云上,透过索引、分布式查询引擎,其实可以达到更好的效果。因此不能仅去考察载入能力,更多的应该去观察统计数据储存下来之后的挖掘和利用的能力。分析的能力,演算法的能力,二次开发的能力,这些也非常关键。

难题9:您觉得你们公司的优势在哪?因为这个赛道里也有挺多排程资料库的厂商了,您的优势在哪?

首先,最大的优势是我们处置过巨大的销售业务情景,1亿点每秒钟的载入,3千万点每秒钟的查询,还明确要求724小时没有出过任何P级的故障(注:终端客户交互的故障)。因此我们有一套非常可靠的排程资料库的构架,并且在排程和分析的融合,结合Python和演算法提供二次开发、智能的能力方面有很多创新。

第二个优势在于,我们是用Rust来做基础应用软件研发的一家公司。Rust对比JAVA语言资源占用的 footprint更小,性能更可预测,这一点对基础应用软件是非常关键的。Rust对比C跟C++来讲也更有安全的保障。我们使用Rust接近五年,是国内非常有丰富实践经验的团队。

难题10:针对国内排程资料库的发展,有什么建议?

国内资料库的发展是两个水到渠成的事情。随着经济进入新常态,在降本增效的大前提下,数字化一定会进入各行各业。国内资料库的发展,是长期向好的。国内的基础应用软件,国内的企业可以进一步参与全世界的竞争。而要如果想推动排程资料库发展,让更多的企业去接受,还需要国家在各个方面,包括政策引导、人才培养等各方面全维度的去促进,形成比较正向的循环。

Greptime:时序数据库的未来在“云”和“AI”

庄晓丹

Greptime 联合创始人兼CEO

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务