业界 | 为什么你不应该成为一名数据科学通才

大统计数据季刊子公司出品

校对：张家乐、狗阿宝、蒋宝尚

统计数据自然生物学家或许但凡都是圣埃蒂安德，她们写作基本功很广，即写的了标识符，又预测的了销售业务，没事儿还能整座数学方法盛气凌人模块。

或许，统计数据自然生物学家牵涉的应用领域越广，越能注重统计数据自然科学这本职业的商业价值。

但，情形与此相反！

有著多样的统计数据自然科学实战经验的SharpestMinds联手创办人Jeremie Harris说你，一千万千万别正式成为两个统计数据自然科学教育者！

下列是他以第三人称的阐释，enjoy

我在子公司帮初学者总体规划统计数据自然科学业余产业发展的这时候，一般来说具体来说提议她们先去谈谈他们想正式成为怎样的统计数据自然生物学家，而并非间接所推荐两个捷伊库或辅助工具，或是许多写个人简历的基本功给她们。

业界 | 为什么你不应该成为一名数据科学通才

这个问题之所以如此重要，是因为统计数据自然科学牵涉太多方面，以至于很难被两个人完全掌握。所以，对子公司而言，与其雇两个什么都懂一点却不精通的人，不如雇佣那些专才。

你可以试想一下你是一家计划雇用统计数据自然生物学家的子公司。在你的脑海中几乎存在两个需要寻求帮助才能解决的具体的问题，该问题需要许多相当专业的技术知识和项目实战经验。例如，许多子公司将简单模型应用于大型统计数据集，许多子公司将复杂模型应用于小型统计数据集，许多子公司需要动态地训练她们的模型，还有许多子公司根本不使用传统的模型。

解决上面例子中的每两个问题所需要的技能组合完全不同，而让人感到特别奇怪的是，每两个有志于统计数据自然科学的人得到的提议往往是一样的：“学习如何使用Python，构建许多分类/回归/聚类的项目。”

其实，出现这一现象的原因是包括我在内的圈内人造成的。因为在闲聊、博客帖子中，我们把过多的东西放到“统计数据自然科学”中。

为生产建两个强健的统计数据通道？这是两个“统计数据自然科学问题”。创造一种新型的神经网络？这是两个“统计数据自然科学问题”。

这往往导致有志于统计数据自然科学的人们失去对特定问题的深入研究，从而正式成为泛泛之辈。要知道，人才市场上已经满是所谓的教育者，她们很难再得到市场的青睐或取得突破。

但，如果你他们不清楚都有哪类常见问题需要你去深入研究，那你就很难避免流于平庸。

我们把圈内出现的问题归结为下列五类：

统计数据工程师

业界 | 为什么你不应该成为一名数据科学通才

职位描述：处理大量统计数据的子公司，并管理统计数据通道。这意味着，当需要时，你要能确保有效地从统计数据源收集和检索统计数据，并进行清理和预处理。

为何它很重要：如果你只处理过相对小的（<5Gb）保存为.csv或.txt文件的统计数据集，那么你可能很难理解为何会有许多人的全职工作是构建和维护统计数据管道。

这里有几个原因：1、两个50Gb的统计数据集对计算机的RAM来说太大了，所以你一般来说需要其他方法将其输入到你的模型中。2、处理这么大规模的统计数据需要花费大量时间，并且经常需要冗余存储。管理统计数据的存储也需要专门的技术诀窍。

要求：你将使用的技术包括Apache Spark、Hadoop和/或Hive，以及Kafka。你很可能还需要有两个扎实的SQL基础。

你要处理的问题听起来像：

“我如何构建两个能够每分钟处理10000个请求的统计数据管道？”

“如何清理统计数据集而不用将其全部加载到RAM中？”

统计数据预测员

业界 | 为什么你不应该成为一名数据科学通才

职位描述：将统计数据转换成可指导销售业务产业发展的商业洞察力。你会是技术团队和商业战略、销售或营销团队的桥梁。统计数据可视化将正式成为你日常工作的重要组成部分。

为何它很重要：纯技术人员一般来说很难理解为何统计数据预测员如此重要，但事实是她们就是很重要。这些人需要将经过训练和测试的模型和大量用户统计数据转换为让人易于理解的形式，以便根据统计数据预测结论设计销售业务策略。统计数据预测员帮助确保统计数据科学团队不会浪费时间在不能提供销售业务商业价值的问题上面。

要求：你将使用的技术包括Python、SQL、Tableau和Excel。你还需要正式成为两个好的沟通者。

你要处理的问题听起来像：

“什么驱动了用户的增长？”

“我们如何向管理层解释，最近用户费用的增加会减少客户？”

3. 统计数据自然生物学家

业界 | 为什么你不应该成为一名数据科学通才

职位描述：清理和探索统计数据集，并做出有商业商业价值的预测。日常工作包括训练和优化模型，并将它们部署到生产中。

为何它很重要：当你有一大堆统计数据，以至于人类无法解析，同时这些统计数据也很珍贵以至于不能忽略它们时，你需要通过许多办法从中提取许多可被接受的见解。这是统计数据自然生物学家的基本工作：将统计数据转换成可被理解的结论。

要求：你将使用的技术包括Python、scikit-learn、Pandas、SQL，可能还有Flask、Spark和/或TensorFlow/PyTorch。许多统计数据自然科学职位纯粹是技术性的，但大多数职位还需要你具有商业头脑，这样你就不会老想着去解决没有人需要解决的问题。

你要处理的问题听起来像：

“我们到底有多少种不同类型的用户？”

“我们能建立两个模型来预测哪些产品能卖给哪些用户吗？”

机器学习工程师

业界 | 为什么你不应该成为一名数据科学通才

职位描述：建立、优化和部署机器学习模型到生产中。一般来说需要把机器学习模型当作API或组件来处理，把它们嵌入到全栈应用程序或硬件中，但你也可能会被要求自行设计模型。

要求：使用的技术包括Python、JavaScript、scikit-learn、TensorFlow / PyTorch（和/或企业级深度学习框架）和SQL或MongoDB（一般来说用作app统计数据库）。

你要处理的问题听起来像：

“如何将这种Keras模型集成到我们的Javascript应用程序中？”

“如何减少所推荐系统的预测时间和预测成本？”

5．机器学习研究员

职位描述：寻找捷伊方法来解决统计数据自然科学和深度学习中的挑战性问题。没有现成的解决方案给你，需要他们去制定。

要求：你将使用的技术包括Python、TensorFlow/PyTorch和SQL。

你要处理的问题听起来像：

“我如何才能提高我们模型的准确性，使之更接近最新水平？”

“自定义优化程序有助于减少训练时间吗？”

这里列出的五种工作描述并并非在所有情形下都是独立的。例如，在初创子公司的早期，统计数据自然生物学家可能还必须是统计数据工程师和统计数据预测师。但，大多数工作都可以被划分为这几类工作中的一种，而且子公司规模越大，统计数据自然科学工作的划分越贴近这里所列出的类别。

总而言之，要记住的是，为了得到聘用，你最好能培养两个更加专注的技能集：如果你只是想正式成为一位统计数据预测员，千万别着急去学习TensorFlow；如果你是想正式成为一位机器学习研究人员，没必要先去学习Pyspark。

相反，你需要考虑你想帮助子公司创造怎样的商业价值，并且让他们善于创造这种商业价值。相对于任何其它方式，这是得到offer最好的方式。

相关文章

微信