数据挖掘辅助工具类应用领域软件,大体上能分成下列5类:
Excel自然生态辅助工具、运筹学辅助工具、BI辅助工具、资料库辅助工具、程式设计辅助工具
(Excel原则上分成两类,主要就原因在于它应用领域情景广为,且采用者绝对值过分巨大,即使少于其它大部份辅助工具用户之和)
每两类型的代表者辅助工具依次有:
Excel自然生态:Excel、VBA、PowerQuery、PowerPivot、Power View、Power Map
运筹学辅助工具:SAS、SPSS、Stata、Minitab、Eviews、Statistica、MATLAB、Mathematica
BI辅助工具:PowerBI、Tableau、Qlikview、SAP BI、Oracel BI、FineBI、Yonghong BI
资料库辅助工具:MySQL、PostgreSQL、Oracle、SQLServer、MongoDB、Hive
程式设计辅助工具:Python、R、Julia、Scala、Spark、Java、Hadoop
上面依次就每一辅助工具做单纯如是说
Excel自然生态
Excel不仅包涵表单应用领域软件,除了许多内建的数据挖掘辅助工具和应用领域程序,从广大群众此基础而言随处能及。
1、Excel
无须多言,基本上天下人都在用的信息处理应用领域软件,由谷歌合作开发,是office铁三角众所周知。
尽管excel很难侧发力,但绝大部分人对excel的采用某种程度还处于进阶期,读取数据、做做表。
其实excel能制作复杂的报表、模型、应用领域、系统,比如构建金融分析模型。
大家学习excel,能从基本界面、导入导出、公式&函数、筛选排序、数据格式、可视化图表、数据透视表、数据模型、工作协作这几个方面侧发力,最好是按照官网文档指导,配合实践,一般进步会很快。
2、VBA
Excel里的程式设计语言,通俗理解为宏,自动化地执行一些操作。Office 应用领域软件提供丰富的功能接口,VBA 能调用它们,实现自定义的需求。
VBA最大的作用是自动化、批量化、智能化地操作Excel,被广为应用领域于数据分析处理、数据建模、报表合作开发、应用领域合作开发等,在金融、审计、财务等行业非常流行。
3、PowerQuery
一种嵌入Excel Microsoft 产品的技术,旨在帮助你塑造数据。 在Excel,选择功能区
从各种数据源导入和刷新数据后,能在分步转换中调整数据,逐步创建唯一的表单形状以满足数据挖掘需求。
4、PowerPivot
一种数据建模技术,用于创建数据模型,建立关系,以及创建计算。 可采用 PowerPivot 处理大型数据集,构建广为的关系,以及创建复杂(或单纯)的计算,这些操作全部在高性能环境中和所你熟悉的 Excel 内执行。
5、Power View
一种数据可视化技术,用于创建交互式图表、图形、地图和其它视觉效果,以便直观呈现数据。 Power View 在 Excel、BI SharePoint、SQL Server 和 Power BI 中均可用。
6、Power Map
一种三维 (三维) 数据可视化辅助工具,可用于以新方式查看信息。 通过电源图,可发现传统二维表单和图表中 (二维) 见解。
采用 Power Map ,能在三维地球或自定义地图上绘制地理和时态数据,显示这些数据,并创建能与其它人分享的视觉浏览
运筹学辅助工具
这类辅助工具偏专业数学统计分析,能做数据挖掘、数据建模、系统搭建等工作,适合学术和大型商业公司。
7、SAS
三大统计应用领域软件众所周知。是目前国际上最为流行的一种大型统计分析系统,被誉为统计分析的标准应用领域软件。
它由数十个专用模块构成,功能包括数据访问、数据储存及管理、应用领域合作开发、图形处理、数据挖掘、报告编制、运筹学方法、计量经济学与预测等等。
主要就完成以数据为中心的四大任务:数据访问;数据管理;数据呈现;数据挖掘。
8、SPSS
三大统计应用领域软件众所周知。IBM公司的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称。
SPSS和Excel比较像,界面单纯,适合初学者采用,且统计功能强大,拥有四大模块,用于信息处理、描述性分析、推断性分析和探索性分析。
SPSS具有完整的数据输入、编辑、统计分析、报表、图形制作等功能,自带11种类型136个函数。
SPSS提供了从单纯的统计描述到复杂的多因素统计分析方法,比如数据的探索性分析、统计描述、列联表分析、二维相关、秩相关、偏相关、方差分析、非参数检验、多元回归、生存分析、协方差分析、判别分析、因子分析、聚类分析、非线性回归、Logistic回归等。
9、Stata
三大统计应用领域软件众所周知。是一套提供其采用者数据挖掘、数据管理以及绘制专业图表的完整及整合性统计应用领域软件。它功能非常强大,包涵线性混合模型、均衡重复反复及多项式普罗比模式。
用Stata绘制的统计图形相当精美,且Stata具有操作灵活、单纯、易学易用、运行速度极快等优点。
功能包括:数据管理,统计分析,图表,模拟,自定义程式设计。
10、Minitab
数据挖掘、统计、过程改善辅助工具。应用领域情景是现代质量管理统计,通常结合一些统计处理方法,如六标准差(Six Sigma), 能力成熟度模型集成(CMMI),以及其它制程改善方法等。
11、Statistica
一个整合数据挖掘、图表绘制、资料库管理与自订应用领域发展系统环境的专业应用领域软件。
STATISTICA不仅提供采用者统计、绘图与数据管理程序等一般目的的需求,更提供特定需求所需的数据挖掘方法(例如,数据挖掘、商业、社会科学、生物研究或工业工程等)。
12、MATLAB
三大数学应用领域软件众所周知。一种用于算法合作开发、数据可视化、数据挖掘以及数值计算的高级技术计算语言和交互式环境。
除矩阵运算、绘制函数/数据图像等常用功能外,MATLAB还可用来创建采用者界面,以及调用其它语言(包括C、C++、Java、Python、FORTRAN)编写的程序。
MATLAB的辅助工具箱非常强大,可以支持各行各业做数据挖掘建模。
典型应用领域有:数据挖掘、数值与符号计算、工程与科学绘图、控制系统设计、航天工业、汽车工业、生物医学工程、语音处理、图像与数字信号处理、财务、金融分析、建模、仿真及样机合作开发、新算法研究合作开发、图形采用者界面设计等。
13、Mathematica
三大数学应用领域软件众所周知。一款科学计算应用领域软件,有时候也被称为计算机代数系统,广为采用于科学、工程、数学、计算等领域。
它很好地结合了数值和符号计算引擎、图形系统、程式设计语言、文本系统、和与其它应用领域程序的高级连接,许多功能在相应领域内处于世界领先地位。
BI辅助工具
BI也就是商业智能,一般用来分析商业数据,洞察商业机会。这能是绝大部分数据挖掘岗位需要用到的辅助工具,因为学习单纯,且信息处理和展示功能强大。
下图是Gartner统计的BI辅助工具实力榜:
14、PowerBI
谷歌的BI产品,也是目前世界上最流的BI辅助工具众所周知,它优势在于和谷歌自然生态集成较好。
Power
无论采用者的数据是单纯的 Excel 电子表单,还是基于云和本地混合数据仓库的集合,Power BI 都可让采用者轻松地连接到数据源,直观看到(或发现)重要内容,与任何所希望的人进行共享。
Power BI 单纯且快速,能够从 Excel 电子表单或本地资料库创建快速见解。 同时 Power BI 也可进行丰富的建模和实时分析,及自定义合作开发。
因此它既是采用者的个人报表和可视化辅助工具,还可用作组项目、部门或整个企业背后的分析和决策引擎。
15、Tableau
同样是目前世界上最流的BI辅助工具众所周知,优点是数据挖掘、可视化能力强大。
Tableau是用于可视分析数据的商业智能辅助工具。采用者能创建和分发交互式和可共享的仪表板,以图形和图表的形式描绘数据的趋势,变化和密度。
Tableau能连接到文件,关系数据源和大数据
16、Qlikview
一个完整的商业分析应用领域软件,使合作开发者和分析者能够构建和部署强大的分析应用领域。QlikView应用领域使各种各样的终端采用者以一个高度可视化,功能强大和创造性的方式,互动分析重要业务信息。
它让合作开发者能从多种数据库里提取和清洗数据,建立强大、高效的应用领域,而且使它们能被Power采用者、移动采用者和每天的终端采用者修改后采用。
17、SAP BI
SAP公司的BI服务,一款支持数据报告、可视化和共享的集中式套件。作为 SAP Business Technology Platform [业务技术云平台] 的本地 BI 层,该套件能随时随地将数据转化为有用的洞察。
18、OracleBI
Oracle公司的BI服务。
19、FineBI
国内较为领先的BI应用领域软件,定位于自助大数据挖掘的BI辅助工具,提供信息处理、即时分析、多维度分析、可视化等服务。
20、Yonghong BI
同样是国内较为领先的BI应用领域软件,基于本机安装,省去繁琐的部署环节,即装即用。提供一站式、敏捷、高效的数据治理及可视化分析、AI深度分析能力。
资料库辅助工具
资料库是数据存储的辅助工具,一般企业都会有自己的私有部署资料库,或者云资料库,每一位数据从业者基本上都需要和数据库打交道。因为熟悉各类资料库,并编写SQL查询,是数据人必备技能众所周知。
21、MySQL
最流行资料库众所周知,国内互联网公司最喜欢的资料库,我愿称之为必学。
MySQL在过去由于性能高、成本低、可靠性好,已经成为最流行的开源资料库,因此被广为地应用领域在Internet上的中小型网站中。
随着MySQL的不断成熟,它也逐渐用于更多大规模网站和应用领域,比如维基百科、Google和Facebook等网站。非常流行的开源应用领域软件组合LAMP中的“M”指的就是MySQL。
22、PostgreSQL
最强大且最具潜力的资料库众所周知,开源免费,分析能力强,稳定可靠,支持广为。在许多方面都比MySQL强,如复杂SQL的执行、存储过程、触发器、索引。我愿称之为最强。
23、Oracle
老牌企业,最稳定的资料库众所周知。绝大部分银行、证券、电信等行业都在采用Oracle,因为其商业化某种程度高、功能强大且稳定,所以备受世界500强欢迎。
24、SQLServer
谷歌公司资料库产品,windows系统上最强王者。具有易用性、适合分布式组织的可伸缩性、用于决策支持的数据仓库功能、与许多其它服务器应用领域软件紧密关联的集成性、良好的性价比等。
25、MongoDB
一个基于分布式文件存储的资料库。由 C++ 语言编写。旨在为 WEB 应用领域提供可扩展的高性能数据存储解决方案。
MongoDB 是一个介于关系资料库和非关系资料库之间的产品,是非关系资料库当中功能最丰富,最像关系资料库的。
26、Hive
Hadoop大数据自然生态的数据查询辅助工具,一个用来合作开发SQL类型脚本来执行MapReduce操作的平台,当前在互联网公司应用领域非常广为。
具体而言,Hive是一个数据仓库此基础设施辅助工具,用于处理Hadoop中的结构化数据。它位于Hadoop的顶部,用于汇总大数据,并使查询和分析变得轻松。
程式设计辅助工具
除了上述的数据挖掘应用领域软件外,程式设计用于数据挖掘也是大趋势。越来越多的数据分析师通过Python、R等进行数据建模、可视化,而且程式设计语言快速、灵活、复用性强的特点也适合信息处理分析。
27、Python
目前最火的数据科学程式设计语言,没有众所周知。Python因为其简洁的语法、强大的生态、无所不能的应用领域基本上已经霸占了数据挖掘程式设计领域的半壁江山。
前段时间matlab被限制在中国采用,知乎上开始讨论什么辅助工具能替代matlab,python是被提及最多的程式设计语言。
且不说python能否替代matlab,就目前python在科学计算、模型构建、可视化上的能力就已经能傲视程式设计界,其拥有像numpy、scipy、statemodels、pandas、matplotlib等众多现象级的数据科学库。
不管是github、kaggle、天池,还是企业高校里的数据项目,python基本上都已成为首选支持语言众所周知。
另外在高端科技领域,同样有python的身影。自 1997 年,NASA 就大量使用 Python 进行各种复杂的科学运算。
至于AI,这也是python的看家本领了,其应用领域自然生态可谓波澜壮阔、群星云集。
不仅有tensorflow、pytorch、caffe、keras等主流人工智能学习框架,除了Gensim、NLTK、OpenCV、Mahotas等专注于nlp、cv细分领域的经典合作开发辅助工具。
28、R
程式设计统计辅助工具的鼻祖。作为一种统计分析应用领域软件,是集统计分析与图形显示于一体的。它能运行于UNIX、Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统。
R是一套由数据操作、计算和图形展示功能整合而成的套件。
包括:有效的数据存储和处理功能,一套完整的数组(特别是矩阵)计算操作符,拥有完整体系的数据挖掘辅助工具,为数据挖掘和显示提供的强大图形功能,一套(源自S语言)完善、单纯、有效的程式设计语言(包括条件、循环、自定义函数、输入输出功能)。
29、Julia
程式设计数据分析领域的新星。Julia 是一个面向科学计算的高性能动态高级程序设计语言,
首先定位是通用程式设计语言,其次是高性能计算语言。
Julia在分布式并行化、精确数值计算等方面提供了独具特色的支持,并包涵大量可扩展的数学函数库。
尤其是在线性代数、随机数生成、信号处理、字符串处理等方面,集成了众多成熟、优秀的基于C和Fortran合作开发的开源库,有着很高的性能与效率。
另外,Julia有着强大开放的合作开发者社区,贡献了大量的第三方库,并可通过内建的包(Package)管理器进行方便的安装采用。
30、Scala
Java的衍生语言,用于spark数据挖掘、大数据合作开发等。
31、Spark
一个开源集群运算框架,Spark在存储器内执行程序的运算速度能做到比Hadoop MapReduce的运算速度快上100倍,即便是执行程序于硬盘时,Spark也能快上10倍速度。
Spark允许采用者将资料加载至集群存储器,并多次对其进行查询,非常适合用于机器学习算法。
32、Java
不用多说,最流行的程式设计语言。其在数据挖掘领域的应用领域主要就是搭建大数据框架。
33、Hadoop
最流行的大数据框架,基本上绝大部分互联网公司都在用,如果你做大数据,肯定离不开它。
简答而言,Hadoop是一款支持数据密集型分布式应用领域程序,并以Apache 2.0许可协议发布的开源应用领域软件框架。它支持在商用硬件构建的大型集群上运行的应用领域程序。
Hadoop是根据谷歌公司发表的MapReduce和Google文件系统的论文自行实现而成。大部份的Hadoop模块都有一个基本假设,即硬件故障是常见情况,应该由框架自动处理。