原副标题:统计数据自然科学高阶之路:如是说统计数据自然科学组织工作,管理组织工作统计数据自然生物学家项目组(上)
学雷锋网 AI 研修社按:第三集是来自 Schibsted 影音组的统计数据自然科学副经理 Alex 正式发布于 Medium 上的一首诗,译者紧密结合另一方面六年的金融行业实战经验,详尽如是说了前述的统计数据自然科学组织工作,以及什么样管理组织工作好统计数据自然科学项目组,学雷锋网 AI 研修社对书名进行了校对重新整理。
责任编辑为上篇,主要就讲了前述的统计数据自然科学组织工作。第三卷讲了什么样管理组织工作好统计数据自然科学项目组。
2014 年我重新加入 Schibsted 新闻媒体集团公司的一个小项目组,彼时是第四位统计数据自然生物学家。这些年,我在另一间子公司科学研究了很多统计数据自然科学方式,目前该子公司早已有 40 数名统计数据自然生物学家了。在这首诗中,我将往后六年学以致用到的实战经验-——具体而言是做为统计数据自然生物学家的实战经验,接着是做为统计数据自然管理手段组织工译者的实战经验。
这首诗效仿 Robert Chang「在twitter搞统计数据自然科学」该文,他的那首诗十分有用。我期望可为全世界的统计数据自然生物学家和统计数据自然管理手段组织工作相关人员提供更多反之亦然有用的思索。
这首诗分成两部份:
第三部份:统计数据自然生物学家的前述组织工作
第三部份:什么样管理组织工作统计数据自然生物学家项目组
第三部份侧重于叙述统计数据自然生物学家要做的前述组织工作,而第三部份则探讨什么样管理组织工作统计数据自然科学项目组以赢得最小的声望。我认为这两个部份对自然生物学家和管理组织工译者而言是互相联络的。
我不能花很多时间来区分什么样才算或算不上统计数据自然生物学家 ,网路上早已有很多该文来探讨这一点儿了。
有关 Schibsted:这是一间在亚洲地区 20 数个国家保有使用者和消费市场的新闻媒体子公司,我主要就负责管理消费市场销售业务。如果你想看两个 Schibsted 统计数据自然科学组织工作的一些具体案例,这里有 3 个选择:
说完这些,让我们进入正题吧!
第三部份:现实世界中的统计数据自然科学
充满雄心壮志,在一间子公司当统计数据自然生物学家,这真的很让人兴奋,但也会让人望而生畏。比如:周围人对自己的期望是什么?同龄人有什么技能?应该什么样组织工作才能对子公司有用?
做为一位被吹得天花乱坠的统计数据自然生物学家,有时很难觉得自己不是骗子。
由于担心被认为是在做一些容易的事情,统计数据自然生物学家常常被
1. 太复杂会增加成本——从简单的开始
他们聘请了一名统计数据自然生物学家,所以这个问题肯定很复杂,对吧?
不要被复杂的事物所诱惑
这种假设常常会使你误入歧途,从而不能成为一名真正的统计数据自然生物学家。
具体而言,你在金融行业中遇到的问题通常可以用相当简单的方式来解决。
其次,重要的是要记住太复杂会增加成本。一个复杂的模型可能需要更多的组织工作,具有更高的错误风险,更难向股东解释清楚。因此,你具体而言应该采取最简单的方式。
那么,怎么知道最简单的方式是否足够好呢?
2. 总有基准
如果没有比较模型性能的基准,那么你的评估指标可能毫无意义。
我们建立了一个模型(保留模型,retention model)来预测使用者回到我们网站的概率。基于使用者的行为,我们的模型大约有15个特征,ROC-AUC 在 0.8 左右。与随机性能的 0.5 相比,我们对这个结果相当满意。
但当我们把模型分解为两个最有预测能力的特征:recency(最近访问的那一天)和 frequency(过去访问的天数),通过这两个变量的 logistic 回归,ROC-AUC 达到了 78% 。换句话说,我们可以扔掉多余 85% 的特征来达到超过 97% 的性能。
我有很多次看到统计数据自然生物学家基于复杂的模型报告离线实验结果,没有任何比较基准。每当你看到这种情况,你都应该问:我们能用一个更简单的模型取得反之亦然的结果吗?
3. 使用你所保有的统计数据
到的统计数据时能做什么。那么就你所保有的统计数据你能做些什么呢?!”
这听起来很刺耳,但工程师表达了一个重要的真理:永远也不能有完美的统计数据集,而且总会有你可以使用的统计数据。在大多数情况下,你可以用你的统计数据做点什么。
4. 保有统计数据
我不是在探讨统计数据治理模型中的真正所有权。我的意思是扩展你的角色,帮助你找到自己需要的统计数据。
这可能有助于统计数据收集的模式和格式,这可能意味着查看 Web 应用程序前端执行的 JavaScript 代码,以确保在合适的时候才触发事件。或者这可能意味着建立统计数据管道——不要期望统计数据工程师来为你做好一切。
5. 忘记统计数据
这似乎与我上面说的一切相矛盾,十分重要的一点儿是不要太受束缚于手头的统计数据。
空白的黑板
当出现一个新问题时,具体而言应该尝试忘记统计数据。为什么?现有的统计数据会限制你想出更多的解决办法,它会分散你寻找最佳方式的注意力。你会陷入局部最优,只在手头已有统计数据的基础上思索问题(开发胜于科学研究)。
6. 形成一种微妙的因果性
我们都知道相关性并不意味着存在因果关系。问题在于,很多统计数据自然生物学家都止步于此,并回避做出因果声明。
懦夫对因果关系的探讨
为什么那是个问题?因为产品副经理、营销项目组、CEO,或者和你一起组织工作的人都不在乎相关性。他们更关心因果关系。
产品副经理期望当她决定推出这个新功能时,有信心将订单量提高 10%。营销项目组期望知道,电子邮件数量从每周 2 封增加到 4 封不能导致人们退出邮件列表。CEO 想知道,投资于更精准的功能可以带来广告收入的增加。
那么有折中办法吗?似乎有两个。
最著名的是在线实验。基本上你会进行随机试验 —— A/B 测试是最常见的。想法很简单,随机选择目标群体和对照组,如果发现两组之间有统计学上的显著差异,我们所采用的办法就被认为是因果参数。
另一个不太有名的因果关系推断方式是因果模型。这里的想法是,你假设世界的因果结构,接着你使用观察(非实验)统计数据来检验这些假设是否与预测统计数据一致,或者估计不同因果效应的强度。Adam Kelleher写了一系列很好的因果数据自然科学该文,我推荐阅读下。除此之外,因果关系分析的圣经统计数据是 Judea Pearl 的因果关系(Causality)。
根据我的实战经验,大多数统计数据自然生物学家在构建机器学习模型和离线评估方面有丰富的实战经验。而在在线评估和实验方面有实战经验的统计数据自然生物学家要少得多。原因很简单:你可以从 Kaggle 上下载一个统计数据集,训练一个模型,并在几分钟内对它进行线下评估。另一方面,对该模型进行在线评估,需要访问真实世界。即使你在一间保有数百万使用者的互联网子公司组织工作,你也常常需要越过层层关卡找到一个针对当前使用者的机器学习模型。
现在,很少有统计数据自然生物学家有广泛的在线评估以及因果模型推断的实战经验,出现这一现象的原因有很多。其中一个原因是大多数因果关系的文献都是相当理论性的,对于什么样在现实世界中构建因果模型并没有前述的指导意义。我预测在未来几年我们会看到更多有关因果建模的实用指南。
形成微妙的因果关系观意味着你可以给股东提供更多可行的建议,同时也能保证自然科学性。
via:4 Years of Data Science at Schibsted Media Group,学雷锋网 AI 研修社校对重新整理。