数据科学中的“数据智慧” - 网站源码_资源分享

作者：马汉宝

翻译者：张石娥　鹿霍

在大统计数据数据时代，学界和产业界的大量科学研究都是关于怎样以一类可扩展和高效的形式对统计数据数据展开存储、交换和计算（透过统计数据形式和演算法）。这些科学研究十分重要。然而，多于对统计数据数据睿智(data wisdom)也给予等同程度的重视，大统计数据数据（或是小统计数据数据）才能转化为真正管用的科学知识和可被接纳的重要信息。换句话说，他们要充分认识到，多于保有足够数量的统计数据数据，才有可能对维数较高的难题给出较可靠的答案。“统计数据数据睿智”对他们从统计数据数据中抽取有效重要信息和确保没有误为或歪曲原始统计数据数据是非常重要的。

“统计数据数据睿智”referring是我对应用应用领域语言学核心理念部份的重新定义。那些核心理念部份在伟大的语言学家（或是说是统计数据数据社会科学家）詹姆斯·图基(John W. Tukey)的该文1和爱德华·伯斯特(Geogre Box) 的该文2中都有详细介绍。

将语言学核心理念部份重命名为“统计数据数据睿智”十分必要，即使它比“应用应用领域统计学”这个名词能起到更好的归纳作用。对这一点，最合适让语言学应用领域之外的人也能了解到。即使这样两个有重要数据量的名称能使现代人意识到应用应用领域统计数据作为统计数据数据社会科学一部份的必要性。

依照维基对“睿智”字典展开说明的第一句话，我想说：“统计数据数据睿智”是将应用领域科学知识、微积分和形式论与经验、认知、基本常识、想像力以及良好的判断能力相结合，文化性地认知统计数据数据并依照统计数据数据做决策的一类潜能。

“统计数据数据睿智”是微积分、自然社会科学和经院哲学三方面潜能的融合，是社会科学和艺术的结合。如果没有成功经验者的指导，仅透过读书很难自学到“统计数据数据睿智”。自学它的最合适形式就是和保有它的人一起并肩作战。当然，他们也能透过概要的形式来帮助你形成和培养“统计数据数据睿智”潜能。我这里有10个基本难题，我鼓励现代人在开始从事统计数据数据挖掘工程项目或是在工程项目展开操作过程上要经常试试自己那些难题。那些难题是按照一定次序的，但在不断重复的统计数据数据挖掘操作过程中，这个次序完全能打乱。

那些难题也许无法详细、彻底地说明“统计数据数据睿智”，但它们体现了“统计数据数据睿智”的一些特点。

1.要回答的难题

统计数据数据社会科学难题最初往往来自语言学或是统计数据数据社会科学以外的学科。例如，神经社会科学中的两个难题：神经系统是怎样工作的？或银行业中的两个难题：该对哪组顾客推广新服务？要解决那些难题，语言学家必须要与那些应用领域的专家展开合作。那些专家会提供有助于解决难题的应用领域科学知识、早期的科学研究成果、更广阔的视角，甚至可能对该难题展开重新定义。而与那些专家（他们往往很忙）建立联系需要很强的人际交流技巧。

探索性统计数据数据挖掘(Exploratory Data Analysis, EDA)”的游戏中。他们寻找需要回答的难题，然后不断地重复统计数据调查操作过程（就像爱德华·伯斯特的该文中所述）。由于误差的存在，他们谨慎地避免对统计数据数据中出现的模式展开过度拟合。例如，当同一份统计数据数据既被用于对难题展开建模又被用于对难题展开验证时，就会发生过度拟合。避免过度拟合的黄金准则就是将统计数据数据展开分割，在分割时考虑到统计数据数据潜在的结构（如相关性、聚类性、异质性），使分割后的每部份统计数据数据都能代表原始统计数据数据。其中一部份用来探索难题，而另一部份透过预测或是建模来回答难题。

2.统计数据数据收集

什么样的统计数据数据与第1条上要回答的难题最相关？

实验设计（语言学的两个分支）和主动自学（机器自学的两个分支）中的形式有助于解决这个难题。即使在统计数据数据收集好了以后考虑这个难题也是很有必要的。即使对理想的统计数据数据收集机制的认知能暴露出实际统计数据数据收集操作过程的缺陷，能够指导下一步分析的方向。

下面的难题会对提问有所帮助：统计数据数据是怎样收集的？在哪些地点？在什么时间段？谁收集的？用什么设备收集的？中途更换过操作人员和设备吗？总之，试着想象自己在统计数据数据收集现场。

3.统计数据数据含义

统计数据数据中的某个数值代表什么含义？它测量了什么？它是否测量了需要测量的？哪些环节可能会出差错？在哪些统计数据假设下能认为统计数据数据收集没有难题？（对统计数据数据收集操作过程的详细了解在这里会很有帮助。）

4.相关性

收集来的统计数据数据能够完全或部份回答要科学研究的难题吗？如果不能，还需要收集其他什么统计数据数据？第2条中提到的要点在此处同样适用。

5.难题转化

怎样将第1条中的难题转化成两个与统计数据数据相关的统计数据难题，使之能够很好地回答原始难题呢？有多种转换形式吗？比如，他们能把难题转换成两个与统计数据模型有关的预测难题或是统计数据推断难题吗？在选择模型前，请列出与回答实质性难题相关的每一类转化形式的优点和缺点。

6.可比性

各统计数据数据单元是否是可比的，或经过标准化处理后可视为可交换的？苹果和橘子是否被组合在一起了？统计数据数据单元是否是相互独立的？两列统计数据数据是不是同两个变量的副本？

7.可视化

观察统计数据数据（或其子集），制作一维或二维图表，并检验那些统计数据数据的统计数据量。询问统计数据数据范围是什么？统计数据数据正常吗？是否有缺失值？使用多种颜色和动态图来标明那些难题。是否有意料之外的情况？值得注意的是，他们神经系统皮层的30%是用来处理图像的，所以可视化形式在挖掘统计数据数据模式和特殊情况时十分有效。在通常情况下，为了找到大统计数据数据的模式，在某些模型建立之后使用可视化形式最管用，比如计算残差并展开可视化展示。

8. 随机性

统计数据推断的概念（比如p值和置信区间）都依赖于随机性。统计数据数据中的随机性是什么含义呢？他们要使统计数据模型的随机性尽可能地明确。哪些应用领域科学知识支持统计数据模型中的随机性描述？两个表现统计数据模型中随机性的最合适例子是因果关系分析中内曼-鲁宾(Neyman-Rubin)的随机分组原理（在AB检验中也会使用）。

9.稳定性

你会使用哪些现有的形式？不同的形式会得出同两个定性的结论吗？举个例子，如果统计数据数据单元是可交换的，能透过添加噪声或二次抽样对统计数据数据展开随机扰动（一般来说，应确定二次抽样样本遵守原样本的底层结构，如相关性、聚类特性和异质性，这样二次抽样样本能较好地代表原始统计数据数据），这样做得出的结论依然成立吗？他们只相信那些能透过稳定性检验的形式，稳定性检验简单易行，能够抗过度拟合和过多假阳性发现，具有可重复性（要了解关于稳定性重要程度的更多重要信息，请参看该文“Stability”(http://projecteuclid.org/euclid.bj/1377612862)）。

ature)特刊(http://www.nature.com/news/reproducibility-1.17552)）。《社会科学》(Science)的主编玛西亚·麦克纳特(Marcia McNutt)指出“实验再现是社会科学家用以增加结论信度的一类重要形式”。同样，商业和政府实体也应该要求从统计数据数据挖掘中得出的结论在用新的同质统计数据数据检验时是可重复的。

10.结果验证

怎样知道统计数据数据挖掘做得是不是好呢？衡量标准是什么？能考虑用其他类型的统计数据数据或是先验科学知识来验证，不过可能需要收集新的统计数据数据。

题的答案需要在语言学之外获得。要找到可靠的答案，有效的重要信息源包括“死的”（如社会科学文献、报告、书籍）和“活的”（如人）。出色的人际交流技能使寻找正确重要信息源的操作过程简单许多，即使是在寻求“死的”重要信息源的操作过程

作者：

数据科学中的“数据智慧”