数据库向量化入门与实现

随著资料库软硬体控制技术的产业发展，经典之作的 SQL 排序发动机渐渐正式成为资料库系统的操控性困局，尤其是对于牵涉到大批排序的 OLAP 情景。

如何充分利用下层硬体的潜能，提高资料库系统的操控性，正式成为近几年资料库应用领域的热门研究路径，而向定量继续执行就是解决上述难题的一种有效方式，责任编辑主要对向定量控制技术的基本原理及缺点展开单纯的如是说。

为什么资料库需要向定量？

MPP资料库的API（Application Programming Interface）或者配置文件转交到了SQL查阅允诺后，系统先历经查阅导出，然后展开查阅强化，通过sysfs继续执行从储存发动机里头把统计数据加载出来，排序出结论集，回到给顾客。

一个查阅句子历经语法结构分析、系统分析、语法检查和后聚合的结论叫作Query Tree，历经强化器后的结论叫作Plan Tree。

现代资料库继续执行查阅计划一般来说选用活火山数学模型的形式，业务流程示意图右图。

活火山数学模型具有单纯、简单、功能强大等缺点，晚期资料库受制于硬体水平，IO、缓存和CPU天然资源都非常高昂，活火山数学模型能够很大削减缓存使用率，因此被数十家供应商两极化选用。

如今，随著硬体控制技术的不断产业发展，活火山数学模型的弊病也渐渐突显。这种形式存在随机性继续执行多、反格式化付出高、统计数据局部差等瑕疵，而且一次继续执行仅处置带队统计数据，CPU耗费大批时间在结点查阅操作方式树下，同时也没有特别针对CPU的SIMD潜能等优点做强化，从而造成查阅继续执行工作效率低落的难题。

据我们在PostgreSQL上实际测试，对于select sum(a) from table这样的查阅，活火山数学模型在继续执行查阅计划时，大部分时间用于加载统计数据、对统计数据的反格式化、结点继续执行树等操作方式上，用于实际SUM运算的时间不足4%。

为了进一步提高SQL排序发动机的操控性，资料库继续执行器应用领域出现向定量和编译继续执行的新控制技术。这两种控制技术的出现都是为了提高操控性，更准确地讲是为了提高 CPU的运行操控性。

编译继续执行是把复杂运算编译成一个函数，重复调用得到结论。编译继续执行的缺点是可以减少分支判断，并使函数调用栈变浅。

向定量继续执行指的是将一次排序一条元组的形式，转换为一次排序多条元组的向定量排序。通过实现批量加载和处置，大大精简了函数调用开销，减少了重复运算，增加了统计数据的局部，提高了继续执行工作效率。

HashData向定量的实践

对于像HashData这样选用云架构的统计数据仓库而言，向定量可以通过提高单节点的继续执行潜能，使整个集群的运算操控性得到很大提高。列存统计数据的高压缩比不仅节约了储存空间，同时在向定量运算过程中也有着天然的操控性优势。

HashData在实现向定量的过程中，引入了Apache 软件基金会开源项目Apache Arrow。Arrow 定义了标准的形式来表示可有效处置的缓存统计数据，同时支持多种流行的编程语言中，包括 Java、C、C++和 Python等。

Apache Arrow的子项目Gandiva提供了编译继续执行向定量运算的可能，在应用于资料库表达式排序时，相对于解释继续执行的向定量运算也有明显的操控性优势，但是由于百毫秒量级的编译时间，不利于小统计数据量查阅，因此需要在强化阶段根据统计数据情形决定是否使用。

为确保分布式资料库的下层统计数据的稳定传输，Arrow提供了基于gRPC的进程间通信Flight，其允许统计数据以Batch的形式同时进出服务器集群，让开发人员可以更轻松地创建可扩展的统计数据服务。

根据我们在PostgreSQL单机测试的结论，在使用Arrow做向定量继续执行后，ORC统计数据格式+向定量，相对于heap表加+行发动机，在最好的情形下可以获得30倍以上的统计数据操控性提高。

资料库的向定量不仅仅是统计数据储存和运算的向定量，还是一个巨大的操控性强化工程。未来，HashData会持续强化、完善向定量继续执行，提高系统操控性，更好地满足顾客业务需求。

相关文章

微信