译者David Venturi
电脑之心校对
参予:吴攀、侯韵楚
Class Central 的统计数据数据高级顾问(Data Consultant)David Venturi 日前撷取了其对自修统计数据数据自然科学的专业课程所推荐,责任编辑主要就所推荐了统计数据数据自然科学操作过程(data science process)的进阶专业课程。
一年前,我从澳大利亚世界顶级的计算机自然科学专业课程众所周知优先选择退出,并借助新浪网天然资源已经开始建立属于自己的统计数据数据自然科学硕士学位专业课程。我意识到,透过 edX 、Coursera 和 Udacity,我只需用生产成本的少部分便能更快速、有效地教给我所须要的所有人。
尖萼专业课程相差无几要顺利完成了。我修读过很多统计数据数据自然科学有关的专业课程,并介绍更多的专业课程。我晓得当中有甚么选择,也确切正式成为统计数据数据策略师或统计数据数据自然生物学家所须要的专业技能。我在两个月以后已经开始著手建立两个能为统计数据数据自然科学的每一主轴所推荐最差专业课程的评审委员驱动力手册。
有关系列产品的第二个手册,我为算数级的统计数据数据自然生物学家所推荐了代码类手册,接着是机率与统计数据类的手册:
代码类:https://medium.freecodecamp.com/if-you-want-to-learn-data-science-start-with-one-of-these-programming-classes-fb694ffe780c#.42hhzxopw
机率与统计数据类:https://medium.freecodecamp.com/if-you-want-to-learn-data-science-take-a-few-of-these-statistics-classes-9bbabab098b9#.p7pac546r
那时来如是说统计数据数据自然科学
对统计数据数据自然科学专业课程所如是说的一些内容若有不确定的地方也不用担心,稍后会做出解释。
为了这本手册,我花了 10 多个小时搜集截至 2017 年 1 月提供的统计数据数据自然科学专业课程的每两个新浪网如是说,从它们的教学大纲和评论中提取关键信息并编辑评分。为了顺利完成那个任务,我使用了开源的 Class Central 社区和它的具有数千专业课程评分与评论的统计数据数据库作为辅助。
Class Central 的主页:
www.class-central.com
自
我们怎样优先选择专业课程
每门专业课程必须符合三个标准:
它所教授的必须是统计数据数据自然科学操作过程(data science process),稍后会对其做出解释。
它必须按需或每两个月来提供专业课程。
它必须是两个交互式的新浪网专业课程,所以这里没有书或只读教程。虽然存在多种可行的学习方法,但本手册只专注于专业课程。
我们认为那个手册涵盖了所有符合上述标准的重要专业课程。由于 Udemy 中存在数百个专业课程,所以仅优先选择了评论最多且评分最高的专业课程。但我们总会有可能错过一些优秀的专业课程,所以如果发现我们有所遗漏,请在评论区告知。
我们怎样评估专业课程
为了计算每一专业课程的加权平均评分,我们汇集了 Class Central 和其他评论网站的平均评分和评论数。同时我们阅读文本评论,以该反馈作为数字评分的补充。
我们基于两个因素做出主观的大纲判断内容:
1. 统计数据数据自然科学操作过程的覆盖。专业课程是否略过了某些科目?它是否覆盖了某些科目过多的细节?请参阅下一部分来介绍此操作过程的具体内容。
2. 通用统计数据数据自然科学工具的使用。专业课程是使用普遍的编程语言(如 Python 和/或 R)教授的吗?这些都不是必要的,但在大多数情况下有帮助,所以对这些专业课程稍作优先考虑。
Python 和 R 是统计数据数据自然科学中使用最普遍的两种编程语言
甚么是统计数据数据自然科学操作过程(data science process)?
甚么是统计数据数据自然科学?统计数据数据自然生物学家做甚么工作?这些是统计数据数据自然科学专业课程如是说所应回答的基本问题类型。哈佛大学教授 Joe Blitzstein 和 Hanspeter Pfister 的以下信息对典型的统计数据数据自然科学操作过程进行了概述,这会帮助我们回答这些问题。
来自 Opera Solution 的可视化
我们对统计数据数据自然科学专业课程如是说的目标是熟悉统计数据数据自然科学操作过程,并不想太深入地涵盖操作过程的具体方面,因此便停留在该标题的「如是说/进阶(intro to)」部分。
对每一方面,理想专业课程应该解释操作过程框架内的关键概念、如是说常用工具并提供一些示例(动手实践更佳)。
我们只是在寻找专业课程如是说,因此本手册不包括约翰·霍普金斯大学的 Coursera 统计数据数据自然科学专业(Data Science Specialization)或 Udacity 的统计数据数据策略师纳米学位(Data Analyst Nanodegree)等专业。这些专业课程的汇编并未包含那个系列产品的目的:为每一科目找到包括统计数据数据自然科学教育在内的最差个人专业课程。本系列产品文章的最后三个手册将详细如是说统计数据数据自然科学操作过程的每一方面。
基本代码、统计数据和机率所需的经验
下面列出的专业课程须要基本的编程、统计数据和机率经验。那个要求能理解,因为有些前沿科目通常包含几门专项专业课程。
这种经验能从我们所所推荐的统计数据数据自然科学职业手册的前两篇文章(编程、统计数据)中获得。
我们优先选择的统计数据数据自然科学最差进阶专业课程是:
统计数据数据自然科学 A-Z™:包含实际统计数据数据自然科学练习(Data Science A-Z™: Real-Life Data Science Exercises Included)(Kirill Eremenko/Udemy):
https://www.udemy.com/datascience
在我们量化评估的 20 个统计数据数据自然科学专业课程中,Kirill Eremenko 在 Udemy 上的 Data Science A-Z™ 在统计数据数据自然科学操作过程的广度和深度上都是确定无疑的赢家。在其 3071 个评价中,其获得了 4.5 的加权平均评分,那个专业课程是目前评分最高且评论数最多的专业课程。
该专业课程概述了完整的统计数据数据自然科学操作过程并提供了实际的案例。而且该专业课程的长度为 21 小时,是两个非常合适的长度。评价者普遍很喜欢该导师的讲解和专业课程的内容组织。该专业课程的价格会随 Udemy 的折扣政策而发生改变,你甚至有可能只需 10 美元就能学习该专业课程。
尽管它并不检查我们的「常用统计数据数据自然科学工具使用」工具箱,但非 Python/R 工具优先选择(gretl、Tableau、Excel)在这一背景中得到了有效的应用。Eremenko 解释了优先选择 gretl 的原因(注:gretl 是两个统计数据软件包),尽管那个解释也适用于其使用的所有工具:
使用 gretl,我们能实现与使用 R 和 Python 一样的建模,但我们却不须要编写代码。这是很重要的。你们一些人可能已经对 R 非常介绍了,但另一些人却可能对 R 一无所知。我的目标是让你介绍怎样构建两个稳健的模型和给你两个你能应用你所优先选择的任何工具的框架。gretl 将能帮助我们避免陷入写代码的麻烦中。
一位著名的评论者指出:
Kirill 是我在网上找到的最好的老师。他使用实际案例并会解释常见的问题,让你能对该专业课程有更深入的理解。他也提供了很多有关作为一位统计数据数据自然生物学家意味着甚么的见解,从怎样利用不足分的统计数据数据一直到怎样将你的成果展示给高管。我强烈所推荐算数者学生到中等的统计数据数据策略师都学习尖萼专业课程。
两个非常棒的以 Python 为中心的进阶如是说
统计数据数据分析进阶(Intro to Data Analysis(Udacity)):
https://www.class-central.com/mooc/4937/udacity-intro-to-data-analysis
Udacity 的 Intro to Data Analysis 是两个相对较新的专业课程,该专业课程也是 Udacity 受欢迎的统计数据数据策略师纳米学位(Nanodegree)专业课程中的一部分。它包含了清晰的使用 Python 的统计数据数据自然科学操作过程,尽管其在建模方面还有所欠缺。该专业课程估计须要 36 个小时的时间(每周 6 小时,一共 6 周)。尽管在我的经历中它要短一些。那个专业课程有两个 5 星的评价。它是免费的。
该专业课程的视频制作精良,其导师 Caroline Buckey 的授课清晰明了。专业课程中大量的编程测验能帮助强化在视频中教给的概念。学生肯定能获得新的或提升过得 NumPy 和 Pandas 专业技能(NumPy 和 Pandas 都是流行的 Python 库)。其最后的项目(其会在纳米学位中得到评估和评价,但并不在那个免费的单独专业课程中)能作为两个很好的额外补充。
两个很不错但没有评价统计数据数据的专业课程
统计数据数据自然科学基础(Data Science Fundamentals (Big Data University)):
https://bigdatauniversity.com/learn/data-science/
Data Science Fundamentals 是由 IBM 的 Big Data University 所提供了两个 4 个专业课程的系列产品专业课程。这四门专业课程分别是:Data Science 101、Data Science Methodology、Data Science Hands-on with Open Source Tools 和 R 101。
统计数据数据自然科学 101(Data Science 101):
https://bigdatauniversity.com/courses/data-science-101/
统计数据数据自然科学方法(Data Science Methodology):
https://bigdatauniversity.com/courses/data-science-methodology-2/
使用开源工具上手统计数据数据自然科学(Data Science Hands-on with Open Source Tools):
https://bigdatauniversity.com/courses/data-science-hands-open-source-tools/
R 101:
https://bigdatauniversity.com/courses/r-101/
那个系列产品专业课程包含了使用 Python 和 R 的完整统计数据数据操作过程,此外,这里还有上手的实验环境。这些专业课程有极大的生产价值。根据你是否选修最后的 R 101 专业课程(那个专业课程对本手册的目的而言并不是必需的),那个系列产品专业课程的时间长度为 13-18 小时。不幸的是,在主要就的网站上没有有关该专业课程的评价统计数据数据可供我们分析,所以我们不能基于评价做出所推荐,不过那个专业课程是免费的。
比赛
我们的第一名优先选择的是有 3068 个评论给出了加权平均分 4.5 的专业课程。下面让我们看看其它优先选择,按降序排序。
如果你打算透过 R 语言进阶统计数据数据自然科学,你还能在下面找到一些以 R 为重点的课程。
统计数据数据自然科学进阶(Introduction to Data Science (Data Hawk Tech/Udemy)
链接:
https://www.udemy.com/learn-data-science
该专业课程覆盖了统计数据数据自然科学的全操作过程,尽管深度有限。该专业课程相当简短(仅有三小时内容)。其简要地覆盖了 R 和 Python。它有 62 个评分,获得了 4.4 的加权平均分。价格依 Udemy 的折扣而波动。
应用统计数据数据自然科学:进阶(Applied Data Science: An Introduction(Syracuse University/Open Education by Blackboard))
链接:
https://www.class-central.com/mooc/1806/open-education-by-blackboard-applied-data-science-an-introduction
到了 4.33 的加权平均分。免费。
统计数据数据自然科学进阶(Introduction To Data Science (Nina Zumel & John Mount/Udemy))
链接:
https://www.udemy.com/introduction-to-data-science
本专业课程仅覆盖了部分操作过程,但在统计数据数据准备和建模方面有很好的深度。6 小时内容的长度也还不错。使用 R 语言。它获得了 101 个评论,得到了 4.3 的加权平均分。价格依 Udemy 的折扣而波动。
使用 Python 的应用统计数据数据自然科学(Applied Data Science with Python (V2 Maestros/Udemy))
链接:
https://www.udemy.com/applied-data-science-with-python
该专业课程覆盖了统计数据数据自然科学的全操作过程,并在该操作过程的每一方面都有很好的深度覆盖。长度不错(8.5 小时内容长度)。使用 Python。它获得了 92 个评论,得到了 4.3 的加权平均分。价格依 Udemy 的折扣而波动。
V2 Maestros 有两个 Applied Data Science 专业课程版本,两个针对 Python,两个针对 R
Python 版:
https://www.udemy.com/applied-data-science-with-python
R 版:
https://www.udemy.com/applied-data-science-with-r
想正式成为统计数据数据自然生物学家(Want to be a Data Scientist?)
链接:
https://www.udemy.com/want-to-be-a-data-scientist
该专业课程覆盖了统计数据数据自然科学的全操作过程,尽管覆盖深度有限。内容相当短,仅有 3 小时。有限的工具覆盖。它获得了 790 个评论,得到了 4.3 的加权平均分。价格依 Udemy 的折扣而波动。
统计数据数据到见解:统计数据数据分析进阶(Data to Insight: an Introduction to Data Analysis (University of Auckland/FutureLearn))
链接:
https://www.class-central.com/mooc/2129/futurelearn-data-to-insight-an-introduction-to-data-analysis
覆盖的广度不确切。声称重点是统计数据数据探索、发现和可视化。并不按需提供。内容长度为 24 小时——分成 8 周,每周 3 小时。它获得了 2 个评论,得到了 4 的加权平均分。专业课程免费,也提供付费的认证。
统计数据数据自然科学方向(Data Science Orientation (Microsoft/edX))
链接:
https://www.class-central.com/mooc/6405/edx-data-science-orientation
该专业课程使用 Excel。不过鉴于该专业课程是由微软提供的,所以也能理解。专业课程长度为 12-24 小时(6 周,每周 2-4 小时)。它获得了 40 个评论,得到了 3.95 的加权平均分。专业课程免费,也提供 25 美元的付费认证。
统计数据数据自然科学基础(Data Science Essentials (Microsoft/edX))
链接:
https://www.class-central.com/mooc/3954/edx-dat203x-data-science-and-machine-learning-essentials
该专业课程覆盖了统计数据数据自然科学的全操作过程,而且在每一方面都有不错的深度。覆盖了 R、Python 和 Azure ML(这是两个微软的电脑学习平台)。有很多 1 星评价是因为该专业课程优先选择了 Azure ML 且导师教得不怎么好。该专业课程长度为 18-24 小时(为期 6 周,每周 3-4 小时)。它获得了 67 个评论,得到了 3.81 的加权平均分。专业课程免费,也提供 49 美元的付费认证。
以上两个课程来自微软在 edX 上的统计数据数据自然科学专业专业课程证书(Professional Program Certificate in Data Science):
https://www.edx.org/microsoft-professional-program-certficate-data-science
使用 R 的应用统计数据数据自然科学(Applied Data Science with R (V2 Maestros/Udemy))
链接:
https://www.udemy.com/applied-data-science-with-r
前面也提到了该专业课程的 Python 版本。该专业课程覆盖了统计数据数据自然科学的全操作过程,并在该操作过程的每一方面都有很好的深度覆盖。长度不错(11 小时内容长度)。使用 R。它获得了 212 个评论,得到了 3.8 的加权平均分。价格依 Udemy 的折扣而波动。
统计数据数据自然科学进阶(Intro to Data Science (Udacity))
链接:
https://www.class-central.com/mooc/1480/udacity-intro-to-data-science
部分操作过程覆盖,但在其优先选择的主轴上都有很好的深度。缺少探索方面,尽管 Udacity 在探索统计数据数据分析(EDA)方面有两个很好的全覆盖的专业课程:
https://www.class-central.com/mooc/1478/udacity-data-analysis-with-r
声称有 48 小时长度(为期 8 周,每周 6 小时),但我感觉要短一些。一些评论认为其缺乏高级内容。感觉组织不太好,使用 Python。它获得了 18 个评论,得到了 3.61 的加权平均分。免费。
使用 Python 的统计数据数据自然科学进阶(Introduction to Data Science in Python (University of Michigan/Coursera))
链接:
https://www.coursera.org/learn/python-data-analysis
部分操作过程覆盖。没有建模和可视化,尽管密歇根大学在 Coursera 上教授的 Applied Data Science with Python Specialization:
https://www.coursera.org/specializations/data-science-python
专业课程的 #2 和 #3 覆盖了这些方面。但那对本手册的目标的深度就太深了。使用 Python。时长 4 周。它获得了 15 个评论,得到了 3.6 的加权平均分。
统计数据数据驱动力的决策(Data-driven Decision Making (PwC/Coursera))
链接:
https://www.coursera.org/learn/decision-making
费和付费的优先选择。
统计数据数据自然科学速成专业课程(A Crash Course in Data Science (Johns Hopkins University/Coursera))
链接:
https://www.coursera.org/learn/data-science-course
两个对全操作过程的极简概览。对本手册来说实在太简单了。时长 2 小时,它获得了 19 个评论,得到了 3.4 的加权平均分。有免费和付费的优先选择。
统计数据数据自然生物学家工具箱(The Data Scientist』s Toolbox (Johns Hopkins University/Coursera))
链接:
https://www.coursera.org/learn/data-scientists-tools
两个对全操作过程的极简概览。可看作是约翰·霍普金斯大学 Data Science Specialization 专业课程:https://www.coursera.org/specializations/jhu-data-science
的基础专业课程。声称有 4-16 小时内容(4 周,每周 1 到 4 小时),但有一位评论者说那个专业课程能在 2 小时内学完。它获得了 182 个评论,得到了 3.22 的加权平均分。有免费和付费的优先选择。
统计数据数据管理和可视化(Data Management and Visualization (Wesleyan University/Coursera))
链接:
https://www.coursera.org/learn/data-visualization
部分覆盖(缺乏建模),长度 4 周。有很好的生产价值。使用 Python 和 SAS。它获得了 6 个评论,得到了 2.67 的加权平均分。有免费和付费的优先选择。
下面的专业课程截至 2017 年 1 月还没有评价。
CS 109 统计数据数据自然科学(CS109 Data Science (Harvard University))
链接:
http://cs109.github.io/2015/
全操作过程覆盖,深度也很棒(对本系列产品来说也许太过深度了)。两个 12 周全时长的研究生专业课程。专业课程方向很难,因为其并不是为新浪网使用而设计的。这是哈佛大学专业课程的实际录像。上面的统计数据数据自然科学操作过程信息图就来自那个专业课程。使用 Python。免费。
用于商业的统计数据数据分析进阶(Introduction to Data Analytics for Business (University of Colorado Boulder/Coursera))
链接:
https://www.coursera.org/learn/data-analytics-business
ction Value chain)」。时长 4 周。描述了多种工具,尽管仅深度覆盖了 SQL。有免费和付费的优先选择。
统计数据数据自然科学进阶(Introduction to Data Science (Lynda))
链接:
https://www.lynda.com/Big-Data-tutorials/Introduction-Data-Science/420305-2.html
完全操作过程覆盖,尽管覆盖深度有限。相当短,仅有 3 小时内容。如是说了 R 和 Python。费用由 Lynda 订阅确定。
原文链接:https://medium.freecodecamp.com/i-ranked-all-the-best-data-science-intro-courses-based-on-thousands-of-data-points-db5dc7e3eb8e#.4xypnelbl
©责任编辑为电脑之心校对,转。
✄————————————————
加入电脑之心(全职记者/实习生):[email protected]
投稿或寻求报道:[email protected]
广告&商务合作:[email protected]