一个数据科学负责人眼中的数据科学:太无聊了

2023-05-26 0 960

学雷锋网 AI 开发人员按,统计数据自然生物学家的组织工作是否如你想像一般,每天建数学模型,调整模块,充满著了快感和考验?在 Dessa 的统计数据自然科学相关人士 Ian Xiao 看来,也许大相径庭。他指出,统计数据自然生物学家的组织工作常常是非常「无趣的」,在下定决心走上这条高架道路之前,他们要对此搞好充分准备,建立他们的应付监督机制。以下是他的概要。

一个数据科学负责人眼中的数据科学:太无聊了

Julian Howard 在 Unsplash 上的相片

TLDR:很多人优先选择统计数据自然科学(或机器学习)中更让人兴奋的小东西来鞭策他们和别人。但他们要直面两个现实生活:或者说的组织工作常常是「无趣的」——与人们指出唯美的小东西相比是无趣的。感到无趣会造成亢奋,它最终会导致统计数据自然科学领域技师的高资金面。我想和大家撷取我的实际组织工作以及如何应付「统计数据自然科学的乏味」。我希望能帮助你——两个有志向的统计数据自然生物学家,去预设恰当的期许。所以,一旦你下定决心专门从事统计数据自然科学的业余,你就要长期专门从事此项组织工作。享用它吧!

撷取你的方法?我想强调的是,每个人都需要有两个应付监督机制。花 2 两分钟说我你的故事情节,也许接下去他们可以撷取他们各别的应付方式,应该很有意思。

1.故事情节时间

我年青俊美的舅舅 Shawn 最近来到了澳大利亚,他来这里修读计算机自然科学硕士学位。和许多学生那样,Shawn 对机器学习很有热忱,他想在两年后大学毕业时成为一位统计数据自然生物学家(或专门从事任何与 ML 有关的作)。

一个数据科学负责人眼中的数据科学:太无聊了

作为两个或者说重视 Shawn 前程的弟弟,我下定决心撷取从我的统计数据自然科学职业生涯小学到的最慎重的科学知识——这不是《耶鲁大学商业文章》所叙述的「21 世纪最火辣的组织工作」,它乏味,更让人精疲力竭,更让人懊恼——就像其他业余那样。

我有权利说 Shawn 事实真相,即使事实真相更让人沮丧。这将有利于他对他们的业余优先选择作出合情合理的下定决心(更重要的是,我将防止下午 3 点收到我母亲和舅舅的电话,他们肯定会给我上关于家庭、职责和正直的课)。

一个数据科学负责人眼中的数据科学:太无聊了

作为两个聪明、自驱、充满著好奇的年青人,Shawn 想让我详细说明「无趣」具体指的是什么,于是我写下了这篇文章。

此外,他们还讨论了 ML 的主要趋势,以及如何在这个领域脱颖而出。我将在一些后续文章中撷取这一点。如果你感兴趣,请接着往下看。

2.设置一些上下文

作为一位统计数据自然科学经理,我正在财富 100 强企业带领团队部署 ML 系统,管理客户关系,并做一些技术组织工作。

这里先谈谈一些更重要的定义。ML 系统是一种解决业务领域问题的解决方案,它有两个 ML 组件,并且具有与人类或机器一起组织工作所需要的所有其他非 ML 系统内容。

部署意味着获得驱动实际业务操作的解决方案。例如,设置用于训练和验证 ML 数学模型的实验不是部署;设置通过电子邮件发送每月产品报价的推荐引擎是部署。部署 ML 系统面临的问题与构建两个好的 ML 数学模型截然不同。如果你感兴趣的话,可以在这里阅读更多内容。

也就是说,我指的不是那些加入谷歌(google)或其他高科技公司,成为初级开发人员和技术经理的人。这些公司确实做得很好,但我指出它们只代表「前 1%」。其他财富 100 强企业常常在技术成熟度、应用速度以及对工具和工程人才的投资方面落后。

3.让他们开始吧

简而言之,当我说统计数据自然科学很无趣时,我指的是当人们意识到浪漫的期许和现实生活之间的差距时的那种压抑感。

一个数据科学负责人眼中的数据科学:太无聊了

大多数年青的统计数据自然生物学家希望把大部分时间花在构建和改进神秘的 ML 数学模型上,或者将时间花在用绚丽的可视化技术展示开创性的商业见解上。当然,这些确实是你组织工作的一部分。

但是,随着企业成熟度的提高,他们更加注重实际的经营价值。这意味着企业希望部署更多的 ML 系统;他们不太重视他们有多少新数学模型或漂亮的报表。因此,统计数据自然生物学家被要求做非 ML 组织工作。这让他们感到很无趣。

让他们进一步具体化统计数据自然科学中的「无趣」是什么样子,如果我给你展示我从周一到周五的典型一天,你将发现那是非常无趣的。因此,我将把我的组织工作分类,突出展示预期与现实生活的对比,并撷取我的应付监督机制。

我将使用「他们」为主语,因为这些例子是从和团队的经验集合中提取的。这些例子可能并不详尽,但我指出它们会说明问题。

3.1设计(占据 5-10% 的时间)

这指的是他们整个集体一起努力获得「高」智力来解决问题和提出高明的想法。这些想法可以包括新的数学模型架构、统计数据特性和系统设计等。很快,他们就会陷入低谷,因为由于时间限制和优先级的原因,他们需要采用最简单(通常也是最无趣)的解决方案。

期许:他们实现的想法,可以在著名的 ML 期刊,如 NIPS,谷歌的人工智能研究博客等上面刊登,甚至可能赢得下两个诺贝尔奖。

现实生活:他们执行的事情能很好地完成组织工作。他们为一些值得装帧的漂亮白板画拍照。

一个数据科学负责人眼中的数据科学:太无聊了

应付监督机制:1)和我领域外的朋友一起喝酒时继续谈论疯狂的想法;他们可以残忍地让我停止这些疯狂、愚蠢的想法;2)把疯狂和聪明的想法作为辅助项目来做;3)结果是,大多数疯狂的想法并没有或者说起作用或者只是比简单的想法稍微好一点。所以 KISS 原则(保持简单愚蠢,Keep-It-Simple-Stupid)总是给我安慰和结束。

3.2 编码(会花费 20-70% 的时间,具体取决于角色)

这里没什么好说的。在这个阶段,他们戴上耳机,喝点咖啡,伸展手指,锁定屏幕,打出漂亮的代码行,让魔术发生。

一个数据科学负责人眼中的数据科学:太无聊了

他们的代码通常分为五类,各个代码行数占总代码行数的百分比为:统计数据管道(50-70%)、系统和集成(10-20%)、ML 数学模型(5-10%)、支持调试和演示的分析(5-10%)。这与其别人的观察结果大致一致。

一个数据科学负责人眼中的数据科学:太无聊了

Sergey Karayev 的数学模型代码在其全套深度学习课程中所占的比例

如你所见,他们大部分时间都在处理无趣的非 ML 内容。尽管 ML 组件非常关键,但现代的框架和编码语言(例如 Keras, XGBoost, Python 的 sklearn 等)已经将许多复杂的小东西抽象出来了。这意味着实现他们需要的结果不需要沉重的代码库;组织工作流已经很好地标准化和优化了(做低级优化是不同的,但它可能只是 1% 的情况)。

预期:你将花费大部分时间开发和优化 ML 组件,其别人将负责其余部分。

现实生活:没有人希望 1)做你不想做的事情,2)你把所有的好小东西都留给自己,3)你在两个已经很好优化的组织工作流程上花费了不相称的时间。

应付监督机制:他们都会根据他们领域的专业科学知识作出决策,并在对别人发挥支持作用的同时成为他们领域的主要开发人员(例如,贡献想法、进行实际开发或 QA)。这样做可以让他们在向别人学习的同时发挥他们的优势。更重要的是,它有利于防止为了做「火辣的组织工作」而产生矛盾。

3.3 QA、Debug 和修复 Sh*t(至少 65% 的时间)

在我看来,这是任何技术开发组织工作中最无趣、最痛苦的部分,开发 ML 系统也不例外。

在 ML 中,有两种类型的「bug」:糟糕的结果和传统的软件问题。糟糕的结果是指低分数数学模型(例如,准确性或精确性)或不敏感的预测(例如,基于商业经验的概率非常不准确)。代码没什么问题,只是结果不合理或不够好。传统的软件问题包括诸如代码损坏或系统配置等问题。

预期:他们只需要处理糟糕的结果,并想出更聪明的方法来建立更好的数学模型。这件事情还是有点吸引人的,看到由于一些好的想法而提高表现是非常值得的。

实际情况:在他们花在 QA /debug/apply 修复上的时间中,大约 70-90% 是在传统的软件问题上。通常,在建立端到端的数学模型训练和验证流

应付监督机制:我使用 github 的 Issue 特性将其游戏化并保留两个「奖杯板」。当我关闭 issue 时,我会立刻分泌多巴胺。看到他们「征服」的问题,我感到更加自豪。当然,我更自豪的是,当我点击「go」时,一切都神奇地运行起来——这在大学里的编程作业中只发生过一次。我将终生记住这种感觉。如果它在现实生活生活中再次发生,很可能是出了问题。

一个数据科学负责人眼中的数据科学:太无聊了

3.4 应付突发事件(10-50% 的时间)

一个数据科学负责人眼中的数据科学:太无聊了

对于任何交付团队的经理来说,这都是一场噩梦,而不是统计数据自然科学。不管时间线是怎么安排的,总会有事情发生,让你偏离正轨。具体来说,这些突发事件可以分为三类:a)外部问题,如范围更改、上游系统依赖性和客户投诉;b)内部团队问题,如恼人的 bug 需要比预期长得多的时间才能解决;人们需要过渡来适应新的组织工作内容得到新的组织工作;人员配备,性格冲突等,C)我他们的无知等等其它问题。

期许:从头到尾按部就班;来自客户、老板和团队的热烈掌声和拥抱。

现实生活:意想不到的事情通常发生在最不方便的时候。没有什么万全的办法来防止这些问题,这更让人懊恼。

应付机制:1)将项目的时间线乘以 2-2.5 倍,以便在涉及到深层次的技术问题或跨团队活动时留出足够的缓冲空间;2)在内部预设进度时要有紧迫感;3)我在脑海中大声发誓,好吧,在适当的情况下,有时会口头发誓;4)呼吸、微笑和倾听,5)与团队一起探索所有可能的优先选择,并根据可行性、需要的努力和阻力确定优先顺序,6)如果这些都不起作用,不要等待,寻求帮助!7)执行。其中许多监督机制本身并不是应付监督机制,但它们是良好的做法,且一直运作良好。

4.总结

一个数据科学负责人眼中的数据科学:太无聊了

我想强调的是,每个人都需要有两个应付监督机制。

所有这些都是想说你,现实生活世界的统计数据自然科学是困难的。有志于专门从事 ML 业余的人应该认识到,除了建立数学模型之外还有很多事情要做。你最终会感到无趣和懊恼,就像你对任何业余那样。这是正常的。但最重要的是,你应该建立两个应付监督机制,这样你就可以长期留在这个游戏中,享用一路上的小奖励和最后的胜利。

via:https://towardsdatascience.com/data-science-is-boring-1d43473e353e?gi=bc4e3668bb57

学雷锋网学雷锋网学雷锋网

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务