Bokaro|InfoQ(www.infoq.com)
译者|孙镜涛
Damazan|杜小敏
统计数据数据策略师都想采用资料库做为统计数据基础构架处理并操作统计数据数据,那么哪这款资料库较为最合适策略师呢?尽管网路上已经有很多对各种资料库展开较为的该文,但其关注点一般都是构架、生产成本、可扩展性和操控性,极少考虑另两个关键所在:策略师在那些资料库上撰写查阅的缓急程度。前段时间,Mode的执行官策略师Benn Stancil发布了一则该文,从另两个视角阐述了哪一款资料库最适宜统计数据数据策略师。
Benn Stancil指出统计数据数据挖掘工作不可能将操之过急,策略师在采用资料库的过程中妨碍他们速度的往往并非宏观经济上的操控性,而是撰写查阅句子时的技术细节。例如,在Redshift中如何超过百万个,而Benn Stancil就从那些统计数据数据起程,对MySQL、PostgreSQL、Redshift、SQL Server、BigQuery、Vertica、Hive和Impala这六款统计数据数据库展开了较为。
首先,Benn Stancil指出查阅严重错误与否容易解决是来衡量资料库的两个最基本分项。资料库提供的严重原始数据(一般来说是语法严重错误、表达式名严重错误、双引号交叉等)最能说明该系统与否会对统计数据数据策略师造成很大的受挫感。通过对8种资料库查阅严重错误振幅的较为,Benn Stancil发现Vertica和SQL Server准确率最高,MySQL和Impala最高,总的来看:
但是,对于该结论Benn Stancil指出可能将有点不细致,即使Impala、MySQL和Hive是开放源码的完全免费产品,而Vertica、SQL Server和BigQuery并非,后二者的使用者一般来说是有充裕分析财政预算的大型企业,其较低的准确率很有可能将是由于采用更深入细致而并非词汇“更确切的说”。
除了准确率以外,Benn Stancil还探讨了复杂程度。尽管不同词汇其查阅宽度、查阅复杂程度和词汇复杂程度之间的关系错综复杂,要区分确切极难,但可以间接地采用查阅宽度做为测度的分项,即使两门词汇或许单纯很有可能将是即使它简约。这六种资料库查阅宽度的统计数据结论如下表所示:
如果说单纯地较为最终的宽度有失偏颇,那么可以看看随着分析的逐步深入细致,查阅逐渐变复杂的过程中,其修改次数与宽度之间的关系:
该图显示,经过20次左右的编辑之后,查阅宽度一般来说会变为之前的2倍,而在100次编辑之后,宽度会变为之前的3倍。那么在修改的过程中,其编辑次数与出错的比率又是什么样子的呢?
从图中可以看出,PostgreSQL、MySQL和Redshift的准确率较低,Impala、BigQuery和SQL Server的准确率较低。另外,和之前一样,Vertica的准确率依然最高。
此外,Benn Stancil指出策略师的技能也很重要。他对采用多个资料库并且在每个资料库上至少运行了10个查阅的策略师展开了统计数据,计算了那些策略师在每个资料库上的查阅准确率,并根据统计数据结论构建了下面的矩阵:
该矩阵展示的是顶部资料库与左边资料库相比其准确率的差别,数值越高表现就越差。例如,Hive和BigQuery交叉处的“20.2”表示:对采用这两款资料库的策略师,其采用Hive的准确率要比采用BigQuery高20.2。最底部的Total行是结论总计,从中可以看出MySQL和PostgreSQL始终表现较好;Vertica跳跃最大,几乎从最底部跳到了中游,打败了SQL Server 和Hive,这也暗示了Vertica的高准确率很可能将是由于策略师的能力而并非词汇本身。
最后,Benn Stancil指出在分析的这8个资料库中,MySQL和PostgreSQL撰写SQL最单纯,应用也最广泛,但与Vertica和SQL Server相比它们的特性不够丰富,而且速度要慢。综合各方面的因素,Redshift或许才是最好的选择。
原文《Whats the best database for an analyst?》链接:
https://blog.modeanalytics.com/best-database-for-analysts/?utm_content=buffera96be&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer
【限时干货下载】
2016/1/31前
2015年12月干货文件打包下载,请点击大统计数据数据文摘底部菜单:下载等–12月下载
大统计数据数据文摘精彩该文:
【金融】 看【金融与商业】专栏历史期刊该文
【可视化】感受技术与艺术的完美结合
【安全】 关于泄密、黑客、攻防的新鲜案例
【算法】 既涨知识又有趣的人和事
【谷歌】 看其在大统计数据数据领域的举措
【院士】 看众多院士如何讲大统计数据数据
【隐私】 看看在大统计数据数据时代还有多少隐私
【医疗】 查看医疗领域该文6篇
【征信】 大统计数据数据征信专题四篇
【大国】 “大统计数据数据国家档案”之美国等12国
【体育】 大统计数据数据在网球、NBA等应用案例
【志愿者】了解如何加入大统计数据数据文摘
专注大统计数据数据,每日有分享