CDA统计数据挖掘师 公司出品
译者:Benjamin Obi Tayo
校对:Mika
对统计数据挖掘有关专精技能的掌控某种程度大体能分成3个等级:此基础水准,高阶水准和高阶水准。
那时他们就来深入探讨呵呵,掌控这四个期所需的技能依次须要啥天数。
通常来说情况下,具备力学、微积分、自然科学、工程建设、财务会计或软件工程建设等学科专精大背景的人,须要的天数相较更少。具体内容所需的天数依赖于你的专精大背景和对个人能资金投入啥的心力和天数。
此基础水准(所需天数:6-12个月)
具体来说是此基础水准,期望专门从事统计数据挖掘应用领域的群体如果能处置通常以双引号隔开值(CSV)HTML呈现出的统计数据集。因此应具备统计数据基本知识、统计数据建模和非线性重回各方面的潜能。
1.1 统计数据基本知识
能对统计数据展开操作方式、清扫、形式化、扩充和产业化。因此如果娴熟采用pandas和NumPy库,应具备下列潜能:
晓得怎样引入和求出以CSVHTML储存的统计数据
能清扫、处置和组织机构统计数据,以期更进一步预测或创建微积分模型
能处置统计数据分散的缺位值
理解并能应用统计数据归因技术,如平均数或中位数归因。
能处置分类统计数据
晓得怎样将统计数据集划分成训练集和测试集
能采用缩放技术(如归一化和标准化)来缩放统计数据
能通过主成分预测(PC)等降维技术压缩统计数据
1.2. 统计数据建模
能理解统计数据建模的基本组成部分。能采用统计数据建模工具,包括Python的matplotlib和seaborn包;和R的ggplot2包。
具体内容须要掌控下列几个潜能:
统计数据组件 展开统计数据建模的第一步在于区分并了解统计数据类型,例如,分类统计数据,离散统计数据,连续统计数据,天数序列统计数据等。
几何成分决定哪种建模方式更适合统计数据,例如,散点图、线形图、条形图、直方图、Q-Q图、平滑密度图、boxplots、配对图、热图等。
映射成分 决定用什么变量作为X变量,用什么作为Y变量。这一点很重要,特别是当统计数据集是多维的、有多个特征的时候。
尺度组件 决定采用什么样的尺度,例如,非线性尺度、对数尺度等。
标签组件 了解像坐标轴标签、标题、图例、采用的字体大小等内容。
道德操守 确保建模描述的内容是真实的。在清扫、总结、处置和制作统计数据建模时,要确保没有利用建模来误导或操纵观众。
1.3 监督学习(预测连续目标变量)
熟悉非线性重回和其他高阶重回方法。能采用scikit-learn和caret等软件包来创建非线性重回微积分模型。
具体内容须要具备下列潜能:
能采用NumPy或Pylab展开简单的重回预测
能采用scikit-learn展开多元重回预测
了解正则化重回方法,如Lasso、Ridge和Elastic Net
了解其他非参数化重回方法,如KNeighbors重回(KNR)和支持向量重回(SVR)。
了解评估重回模型的各种指标,如MSE(平均平方误差)、MAE(平均绝对误差)和R2得分
能比较不同的重回微积分模型
2. 高阶水准(所需天数:7-18个月)
下面他们看到更高阶的须要掌控哪些专精技能:
2.1 监督学习(预测离散目标变量)
熟悉二元分类算法,例如:
感知器分类器
逻辑重回分类器
支持向量机(SVM)
能采用核SVM解决非非线性分类问题
决策树分类器
K-nearest分类器
Naive Bayes分类器
了解分类算法质量的几个指标,如准确率、精确度、灵敏度、特异性、召回率、F-L评分、混淆矩阵、ROC曲线。
能采用scikit-learn来创建微积分模型
2.2 微积分模型评估和超参数调整
能在管道中组合变压器和估计器
能采用k-折交叉验证(k-fold cross-validation)来评估微积分模型性能
了解怎样采用学习和验证曲线调试分类算法
能通过学习曲线诊断偏差和方差问题
能通过验证曲线解决过拟合和欠拟合问题
了解怎样通过网格搜索微调机器学习微积分模型
了解怎样通过网格搜索调整超参数
能阅读和解释混淆矩阵
能绘制和解释接收器工作特性(ROC)曲线
2.3 结合不同的微积分模型展开集合学习
能采用不同分类器的集合方法
能结合不同的算法展开分类
晓得如何评估和调整集合分类器
3. 高阶水准(所需天数:18-48个月)
接下来是更高阶的期,这须要统计数据人能处置高阶统计数据集,如文本、图像、语音和视频。除基本和高阶专精技能外,具体内容应具备下列潜能:
聚类算法(无监督学习)
K-means
深度学习
神经网络
Keras
TensorFlow
PyTorch
Theano
云系统(AWS,Azure)
结语:
综上所述,他们已经讨论了统计数据自然科学的3个等级。第一个等级的潜能能在6到12个月内实现。第2级潜能能在7到18个月内实现。第3级潜能能在18至48个月内实现。这一切都依赖于所资金投入的努力和每对个人的专精大背景。