周刊,报刊,该文。大统计数据挖掘产生的其它范例包括购买交易历史记录,Wikipedia,检查单,军事监视,音频和影像资料库,及大型电商。
大统计数据挖掘,他们对民营企业的影响有两个浓厚兴趣升温。大统计数据挖掘
是研究大批的统计数据的过程中找寻商业模式,关联性和其它管用的信息,能协助民营企业更快地适应环境变化,并作出更合情合理的重大决策。
一、Hadoop
Hadoop是两个开放源码构架,它容许在整个应用软件产业采用简单程式设计数学模型排序机的分布式系统环境储存并处置大统计数据。它的目的是从单个的伺服器到数百VM288器的扩充,每两个VM288都能提供邻近地区排序和储存。
Hadoop 是两个能对大批统计数据展开分布式系统处置的应用软件构架。但是 Hadoop 是以一种可信、高效率、可伸缩式的形式展开处置的。Hadoop 是可信的,即使排序原素和储存会失利,它保护数个组织工作统计数据复本,保证能特别针对失利的结点重新分布处置。Hadoop是高效率的,它采用博戈达的形式组织工作,通过博戈达处置大力推进处置速度。Hadoop 还是可伸缩式的,能处置 PB 级统计数据。此外,Hadoop 倚赖街道社区伺服器,因此它的生产成本比较低,其他人都能采用。
Hadoop是随心所欲构架和采用的分布式系统排序网络平台。使用者能随心所欲地在Hadoop上开发和运行处置海量统计数据的插件。它主要有以下几个缺点:
1、高可信性。Hadoop按位储存和处置统计数据的能力值得称赞人们尊敬。
2、高可扩充性。Hadoop是在需用的排序机集簇间重新分配统计数据并完成排序任务的,这些集簇能方便快捷地扩充到数以千计的结点中。
3、高效率性。Hadoop能在结点之间动态地移动统计数据,并保证各个结点的动态平衡,因此处置速度非常快。
4、高容错性。Hadoop能自动保存统计数据的数个复本,并且能自动将失利的任务重新重新分配。
Hadoop带管用 Java 语言编写的构架,因此运行在 Linux 生产网络平台上是非常理想的。Hadoop 上的插件也能采用其它语言编写,比如 C++。
二、HPCC
HPCC,High Performance Computing and Communications(高性能排序与通信)的缩写。1993年,由美国科学、工程、技术联邦协调理事会向国会提交了”重大挑战项目:高性能排序与通信”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国实施信息高速公路而上实施的计划,该计划的实施将耗资百亿美元,其主要目标要达到:开发可扩充的排序系统及相关应用软件,以支持太位级网络传输性能,开发千兆比特网络技术,扩充研究和教育机构及网络连接能力。
该项目主要由五部分组成:
1、高性能排序机系统(HPCS),内容包括今后几代计算机系统的研究、系统设计辅助工具、先进的典型系统及原有系统的评价等;
2、先进应用软件技术与算法(ASTA),内容有巨大挑战问题的应用软件支撑、新算法设计、应用软件分支与辅助工具、排序排序及高性能排序研究中心等;
3、国家科研与教育网格(NREN),内容有中接站及10亿位级传输的研究与开发;
4、基本研究与人类资源(BRHR),内容有基础研究、培训、教育及课程教材,被设计通过奖励调查者-开始的,长期的调查在可升级的高性能计算中来增加创新意识流,通过提高教育和高性能的排序训练和通信来加大熟练的和训练有素的人员的联营,和来提供必需的基础构架来支持这些调查和研究活动;
5、信息基础结构技术和应用(IITA ),目的在于保证美国在先进信息技术开发方面的领先地位。
三、Storm
Storm是两个免费开放源码、分布式系统、高容错的实时排序系统。Storm令持续不断的流排序变得容易,弥补了Hadoop批处置所不能满足的实时要求。Storm经常用于在实时分析、在线电脑学习、持续排序、分布式系统远程调用和ETL等领域。Storm的部署管理非常简单,而且,在同类的流式排序辅助工具,Storm的性能也是非常出众的。
Storm是自由的开放源码应用软件,两个分布式系统的、容错的实时排序系统。Storm能非常可信的处置庞大的统计数据流,用于处置Hadoop的批量统计数据。Storm很简单,支持许多种程式设计语言,采用起来非常有趣。Storm由Twitter开放源码而来,其它知名的应用民营企业包括Groupon、淘宝、支付宝、阿里巴巴、乐原素、Admaster等等。
Storm有许多应用领域:实时分析、在线电脑学习、不停顿的排序、分布式系统RPC(远过程调用协议,一种通过网络从远程排序机程序上请求服务)、 ETL(Extraction-Transformation-Loading的缩写,即统计数据抽取、转换和加载)等等。Storm的处置速度惊人:经测试,每个结点每秒钟能处置100万个数据元组。Storm是可扩充、容错,很容易设置和操作。
四、Apache Drill
为了协助民营企业使用者找寻更为有效、大力推进Hadoop统计数据查询的方法,Apache应用软件基金会近日发起了一项名为”Drill”的开源项目。Apache Drill 实现了Google’s Dremel。”Drill”已经作为Apache孵化器项目来运作,将面向全球应用软件工程师持续推广。
该项目将会创建出开放源码版本的谷歌Dremel Hadoop辅助工具(谷歌采用该辅助工具来为Hadoop统计数据挖掘辅助工具的互联网应用提速)。而”Drill”将有助于Hadoop使用者实现更快查询海量统计数据集的目的。
“Drill”项目其实也从谷歌的Dremel项目中获得灵感:该项目协助谷歌实现海量统计数据集的分析处置,包括分析抓取Web文档、跟踪安装在Android Market上的插件统计数据、分析垃圾邮件、分析谷歌分布式系统构建系统上的测试结果等等。
通过开发”Drill”Apache开放源码项目,组织机构将有望建立Drill所属的API接口和灵活强大的体系构架,从而协助支持广泛的统计数据源、统计数据格式和查询语言。
五、RapidMiner
RapidMiner提供电脑学习程序。而统计数据挖掘,包括统计数据可视化,处置,统计建模和预测分析。
RapidMiner是世界领先的统计数据挖掘解决方案,在两个非常大的程度上有着先进技术。它统计数据挖掘任务涉及范围广泛,包括各种统计数据艺术,能简化统计数据挖掘过程的设计和评价。
功能和特点
免费提供统计数据挖掘技术和库;100%用Java代码(可运行在操作系统);统计数据挖掘过程简单,强大和直观;内部XML保证了标准化的格式来表示交换统计数据挖掘过程;能用简单脚本语言自动展开大规模进程;多层次的统计数据视图,保证有效和透明的统计数据;图形使用者界面的互动原型;命令行(批处置商业模式)自动大规模应用;Java API(应用程式设计接口);简单的插件和推广机制;强大的可视化引擎,许多尖端的高维统计数据的可视化建模;400数个统计数据挖掘运营商支持;耶鲁大学已成功地应用在许多不同的应用领域,包括文本挖掘,多媒体挖掘,功能设计,统计数据流挖掘,集成开发的方法和分布式系统统计数据挖掘。
RapidMiner的局限性;RapidMiner 在行数方面存在大小限制;对于RapidMiner,您需要比ODM和SAS更多的硬件资源。
六、Pentaho BI
Pentaho BI 网络平台不同于传统的BI 产品,它是两个以流程为中心的,面向解决方案(Solution)的构架。其目的在于将一系列民营企业级BI产品、开放源码应用软件、API等等组件集成起来,方便快捷商务智能应用的开发。它的出现,使得一系列的面向商务智能的独立产品如Jfree、Quartz等等,能集成在一起,构成一项项复杂的、完整的商务智能解决方案。
Pentaho BI 网络平台,Pentaho Open BI 套件的核心构架和基础,是以流程为中心的,因为其中枢控制器是一个组织工作流引擎。组织工作流引擎采用流程定义来定义在BI 网络平台上执行的商业智能流程。流程能很容易的被定制,也能添加新的流程。BI 网络平台包含组件和报表,用以分析这些流程的性能。大统计数据挖掘十八般辅助工具
目前,Pentaho的主要组成原素包括报表生成、分析、统计数据挖掘和组织工作流管理等等。这些组件通过 J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技术集成到Pentaho网络平台中来。 Pentaho的发行,主要以Pentaho SDK的形式展开。
Pentaho SDK共包含五个部分:Pentaho网络平台、Pentaho示例统计数据库、可独立运行的Pentaho网络平台、Pentaho解决方案示例和两个预先配制好的 Pentaho网络伺服器。其中Pentaho网络平台是Pentaho网络平台最主要的部分,囊括了Pentaho网络平台源代码的主体;Pentaho统计数据库为 Pentaho网络平台的正常运行提供的统计数据服务,包括配置信息、Solution相关的信息等等,对于Pentaho网络平台来说它不是必须的,通过配置是能用其它统计数据库服务取代的;可独立运行的Pentaho网络平台是Pentaho网络平台的独立运行商业模式的示例,它演示了如何使Pentaho网络平台在没有应用伺服器支持的情况下独立运行;
Pentaho解决方案示例是两个Eclipse工程,用来演示如何为Pentaho网络平台开发相关的商业智能解决方案。
Pentaho BI 网络平台构建于伺服器,引擎和组件的基础之上。这些提供了系统的J2EE 伺服器,安全,portal,组织工作流,规则引擎,图表,协作,内容管理,统计数据集成,分析和建模功能。这些组件的大部分是基于标准的,可采用其它产品替换之。
七、Druid
Druid是实时统计数据挖掘储存系统,Java语言中最好的统计数据库连接池。Druid能提供强大的监视和扩充功能。
八、Ambari
大统计数据网络平台搭建、监控利器;类似的还有CDH
1、提供Hadoop应用软件产业
Ambari为在任意数量的主机上安装Hadoop服务提供了两个逐步向导。
Ambari处置应用软件产业Hadoop服务的配置。
2、管理Hadoop应用软件产业
Ambari为整个应用软件产业提供启动、停止和重新配置Hadoop服务的中央管理。
3、监视Hadoop应用软件产业
Ambari为监视Hadoop应用软件产业的健康状况和状态提供了两个仪表板。
九、Spark
大规模统计数据处置构架(能应付民营企业中常见的三种统计数据处置场景:复杂的批量统计数据处置(batch data processing);基于历史统计数据的交互式查询;基于实时统计数据流的统计数据处置,Ceph:Linux分布式系统文件系统。
十、Tableau Public
1、什么是Tableau Public – 大统计数据挖掘辅助工具
这是两个简单直观的辅助工具。因为它通过统计数据可视化提供了有趣的见解。Tableau Public的百万行限制。因为它比统计数据挖掘市场中的大多数其它玩家更容易采用票价。采用Tableau的视觉效果,您能调查两个假设。此外,浏览统计数据,并交叉核对您的见解。
2、Tableau Public的采用
您能免费将交互式统计数据可视化发布到Web;无需程式设计技能;发布到Tableau Public的可视化能嵌入到博客中。此外,还能通过电子邮件或社交媒体分享网页。共享的内容能展开有效硫的下载。这使其成为最佳的大统计数据挖掘辅助工具。
3、Tableau Public的限制
所有统计数据都是公开的,并且限制访问的范围很小;统计数据大小限制;无法连接到[R ;读取的唯一方法是通过OData源,是Excel或txt。
十一、OpenRefine
1、什么是OpenRefine – 统计数据挖掘辅助工具
以前称为GoogleRefine的统计数据清理应用软件。因为它能协助您清理统计数据以展开分析。它对一行统计数据展开操作。此外,将列放在列下,与关系统计数据库表非常相似。
2、OpenRefine的采用
清
3、OpenRefine的局限性
Open Refine不适用于大型统计数据集;精炼对大统计数据不起作用
十二、KNIME
1、什么是KNIME – 统计数据挖掘辅助工具
KNIME通过可视化程式设计协助您操作,分析和建模统计数据。它用于集成各种组件,用于统计数据挖掘和电脑学习。
2、KNIME的用途
不要写代码块。相反,您必须在活动之间删除和拖动连接点;该统计数据挖掘辅助工具支持程式设计语言;事实上,分析辅助工具,例如可扩充运行化学统计数据,文本挖掘,蟒蛇,和[R 。
3、KNIME的限制
统计数据可视化不佳
十三、Google Fusion Tables
1、什么是Google Fusion Tables
对于统计数据辅助工具,我们有更酷,更大版本的Google Spreadsheets。两个令人难以置信的统计数据挖掘,映射和大型统计数据集可视化辅助工具。此外,Google Fusion Tables能添加到业务分析辅助工具列表中。这也是最好的大统计数据挖掘辅助工具之一。
2、采用Google Fusion Tables
在线可视化更大的表格统计数据;跨越数十万行展开过滤和总结;将表与Web上的其它统计数据组合在一起;您能合并两个或三个表以生成包含统计数据集的单个可视化;
3、Google Fusion Tables的限制
表中只有前100,000行统计数据包含在查询结果中或已映射;在一次API调用中发送的统计数据总大小不能超过1MB。
十四、NodeXL
1、什么是NodeXL
它是关系和网络的可视化和分析应用软件。NodeXL提供精确的排序。它是两个免费的(不是专业的)和开放源码网络分析和可视化应用软件。NodeXL是用于统计数据挖掘的最佳统计辅助工具之一。其中包括高级网络指标。此外,访问社交媒体网络统计数据导入程序和自动化。
2、NodeXL的用途
这是Excel中的一种统计数据挖掘辅助工具,可协助实现以下方面:
统计数据导入;图形可视化;图形分析;统计数据表示;该应用软件集成到Microsoft Excel 2007,2010,2013和2016中。它作为组织工作簿打开,包含各种包含图形结构原素的组织工作表。这就像结点和边缘;该应用软件能导入各种图形格式。这种邻接矩阵,Pajek .net,UCINet .dl,GraphML和边缘列表。
3、NodeXL的局限性
您需要为特定问题采用数个种子术语;在稍微不同的时间运行统计数据提取。
十五、Wolfram Alpha
1、什么是Wolfram Alpha
它是Stephen Wolfram创建的排序知识引擎或应答引擎。
2、Wolfram Alpha的采用
是Apple的
3、Wolfram Alpha的局限性
Wolfram Alpha只能处置公开数字和事实,而不能处置观点;它限制了每个查询的排序时间;这些统计数据挖掘统计辅助工具有何疑问?
十六、Google搜索运营商
1、什么是Google搜索运营商
它是一种强大的资源,可协助您过滤Google结果。这立即得到最相关和管用的信息。
2、Google搜索运算符的采用
更快速地过滤Google搜索结果;Google强大的统计数据挖掘辅助工具能协助发现新信息。
十七、Excel解算器
1、什么是Excel解算器
Solver加载项是Microsoft Office Excel加载项程序。此外,它在您安装Microsoft Excel或Office时需用。它是excel中的线性程式设计和优化辅助工具。这容许您设置约束。它是一种先进的优化辅助工具,有助于快速解决问题。
2、求解器的采用
Solver找到的最终值是相互关系和重大决策的解决方案;它采用了多种方法,来自非线性优化。还有线性规划到进化算法和遗传算法,以找到解决方案。
3、求解器的局限性
不良扩充是Excel Solver缺乏的领域之一;它会影响解决方案的时间和质量;求解器会影响数学模型的内在可解性;
十八、Dataiku DSS
1、什么是Dataiku DSS
这是两个协作统计数据科学应用软件网络平台。此外,它还有助于团队构建,原型和探索。虽然,它能更有效地提供自己的统计数据产品。
2、Dataiku DSS的采用
Dataiku DSS – 统计数据挖掘辅助工具提供交互式可视化界面。因此,他们能构建,单击,指向或采用SQL等语言。
3、Dataiku DSS的局限性
有限的可视化功能;UI障碍:重新加载代码/统计数据集;无法随心所欲地将整个代码编译到单个文档/笔记本中;仍然需要与SPARK集成
以上的辅助工具只是大统计数据挖掘所用的部分辅助工具,小编就不一一列举了,下面把部分辅助工具的用途展开分类:
1、前端展现
用于展现分析的前端开放源码辅助工具有JasperSoft,Pentaho, Spagobi, Openi, Birt等等。
用于展现分析商用分析辅助工具有Style Intelligence、RapidMiner Radoop、Cognos, BO, Microsoft Power BI, Oracle,Microstrategy,QlikView、 Tableau 。
国内的有BDP,国云统计数据(大统计数据挖掘魔镜),思迈特,FineBI等等。
2、统计数据仓库
有Teradata AsterData, EMC GreenPlum, HP Vertica 等等。
3、统计数据集市
有QlikView、 Tableau 、Style Intelligence等等。
相关推荐