CDA统计数据预测师 公司出品
译者: Jeff Hale
校对: Mika
市场上对统计数据教育组织工译者的明确要求不光多:须要掌控机器自学、软件工程、语言学、微积分、统计数据建模,广度自学等科学知识。要想全数掌控那些各方面的科学知识,最起码需要自学数百种词汇、架构和控制技术,这或许是有控制技术难度的。
所以,有鉴于此统计数据教育组织工译者如果怎样科学合理地重新分配天数,该掌控什么样专业技能呢?
在责任编辑中,他们对求职者中文网站进行搜寻,找寻不光针对统计数据生物学家等统计数据有关组织工作的专业技能明确要求。我依次预测了一般来说的统计数据有关专业技能和某一词汇和辅助工具。
他们具体内容搜寻了LinkedIn、Indeed、SimplyHired、Monster、和AngelList那些求职者中文网站。
下列图象表明了在每一中文网站中正式发布了啥有关组织工作。
我预测了很多组织工作条目和进行调查,想列举之中最常用的专业技能明确要求。“管理工作”此类词没有包涵其中,即使很多求职者正式发布中单厢包涵这个词。
全数搜寻都是不光针对英国沿海地区,关键字中暗含“统计数据生物学家”的职务正式发布,并采用准确匹配搜寻增加了结论数目。但,此种方式保证结论与统计数据生物学家职务有关,因此负面影响大部份搜寻项。
AngelList中提供更多的是招工统计数据生物学家的公司数目,而并非职务数目。我将AngelList须建在这三种预测以外,即使它的搜寻算法是OR的逻辑搜寻,而且无法将其修改为AND。如果你搜寻”统计数据生物学家””TensorFlow”此类关键字,AngelList表现还不错,但如果你搜寻”统计数据生物学家””react.js”也会返回不招工统计数据生物学家的公司。
Glassdoor也被我须建在外。中文网站上表示英国目前正式发布了26,263个”统计数据生物学家”的职务,然而实际只表明了不到900个的职务。此外,Glassdoor正式发布的统计数据生物学家职位也不可能比起其他主流平台的三倍要多。
最终预测采用了在LinkedIn上400多个职务信息预测通用专业技能,不光针对200多个职务信息预测某一专业技能。之中有一些重复,结论记录在Google Sheet中。
https://docs.google.com/spreadsheets/d/1df7QTgdAOItQJadLoMHlIZH3AsQ2j2_yoyvHOpsy9qU/edit?usp=sharing
我下载了.csv文件并将其导入JupyterLab。然后,我计算出每一百分比,并对招工中文网站上的数目进行平均。
此外,我将结论与Glassdoor 在上半年正式发布的统计数据生物学家职务研究进行比较,因此结合KDNuggets的进行调查信息。从中可以发现,对于统计数据生物学家而言,有些专业技能变得越来越重要,而其他专业技能则逐渐不再重要。之后他们将具体内容看到。
Glassdoor
https://www.glassdoor.com/research/data-scientist-personas/
KDNuggets
https://www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html/2
可以在我的Kaggle Kernel 中看到交互式图象和预测。我采用Plotly进行建模,在写责任编辑时,采用Plotly和JupyterLab有一些难点,具体内容说明在 Kaggle Kernel 最后的Plotly文档中
Kaggle
Plotly 文档
https://github.com/plotly/plotly.py
1. 通用专业技能
下列是雇主最希望统计数据生物学家具备的通用专业技能。
结论表明,通用专业技能中统计数据预测和机器自学是统计数据生物学家组织工作的核心。从统计数据中收集预测见解是统计数据科学的主要功能。机器自学是关于开发创建预测性能的系统,这也是十分受欢迎的专业技能。
统计数据生物学家须要语言学和计算机科学专业技能,这并不惊讶。语言学、软件工程和微积分也是大学专业,这也可能提高了那些专业技能出现的频率。
有趣的是,近一半的职务明确要求中都提到了沟通能力。统计数据生物学家须要能够传达自己的见解,并与他人合作。
人工智能和深度自学并不像其他术语那样经常出现。它们是机器自学的子集,广度自学被用于越来越多的机器自学任务中,之前主要是采用其他算法。如今,大多数用于自然词汇处理问题的最佳机器自学算法是广度自学算法。我预计将来在职位信息中,广度自学专业技能将被越来越明确,而且机器自学将与广度自学越来越类似。
所以雇主希望统计数据生物学家采用什么样某一软件辅助工具?接下来,让他们看到这个问题。
2. 控制技术专业技能
下列是雇主最希望统计数据生物学家掌控的前20种某一词汇,库和科技辅助工具。
让他们简要介绍一下最常用的控制技术专业技能。
Python是最受欢迎的词汇。此种开源词汇已经非常普及。对初学者而言,此种词汇很好上手,有很多支持的资源。绝大多数统计数据科学辅助工具都与之兼容。Python是统计数据生物学家主要的采用词汇。
R词汇与Python相差不远。它曾经是统计数据科学的主要词汇,R词汇的需求仍然很大。此种开源词汇的根源在于统计统计数据,它非常受语言学家的欢迎。
Python或R词汇是从事统计数据科学组织工作的必备条件。
SQL的需求也很高。SQL指的是Structured Query Language(结构化查询词汇),是与统计数据库交互的主要方式。在统计数据科学领域,SQL有时会被忽视,但如果想找数据科学各方面的组织工作,这项专业技能是很重要的。
接下来是Hadoop和Spark,它们都是Apache的大统计数据开源辅助工具。
Apache Hadoop是一个开源软件平台,用于分布式存储和分布式处理大型统计数据集,那些数据集是由商用硬件构建的计算机集群。
Apache Spark是快速的内存统计数据处理引擎,具有强大且富有表现力的开发API,能够让统计数据教育组织工译者有效地执行流、机器自学或SQL,那些情况须要对统计数据集进行快速迭代访问。
与Python,R和SQL相比,很少有求职者者具备那些专业技能。如果你会Hadoop和Spark的经验,所以你更有可能在求职者中成功。
接下来是Java和SAS。我惊讶地发现在职务描述中,这三种词汇出现的频率也很高。一般来说,Java和SAS在统计数据科学界的关注度都不高。
接下来是Tableau。这个预测平台和建模辅助工具功能强大,易于采用且越来越受欢迎。它有一个免费的公共版本,但如果你想保持统计数据私密就须要花钱。如果你不熟悉Tableau,所以强烈推荐Udemy的 Tableau 10 A-Z 。
下图专业技能条目表明的词汇、架构和其他统计数据科学软件辅助工具更多。
根据他们的预测和GlassDoor的进行调查,Python、R和SQL都是是最受欢迎的专业技能。根据局KDnuggets开发人员进行调查等预测表明,R词汇、Hadoop、Java和SAS在近年来采用量呈下降趋势,Tableau呈明显的上升趋势。
3. 建议
根据那些预测的结果,下列是对统计数据生物学家的一些建议。
证明自己的统计数据预测能力,并专注熟练掌控机器自学。
提高你的沟通技巧。推荐阅读《Made to Stick》这本书,帮助你提升自己观点的负面影响力。还可以试试Hemmingway Editor这款app,提高写作的逻辑性。
掌控广度自学架构。精通广度自学架构在机器自学各方面越来越重要。
如果你在犹豫选择Python还是R词汇之间做出选择,请选择Python。如果你数目掌控Python,所以可以也考虑自学R词汇,这会让你在行业中更占优势。
当雇主在寻找具有Python专业技能的统计数据生物学家时,他们也期望求职者者掌控常用的Python统计数据科学库:numpy、pandas、scikit-learn和matplotlib。如果你在自学那些辅助工具,建议你采用下列资源:
DataCamp,DataQuest
两者都是价格科学合理的在线SaaS统计数据科学教育产品,你可以在编程时自学,之中都教授了很多控制技术工具。
Data School
拥有各种资源,还包括一系列很赞的YouTube视频,解释各种统计数据科学概念。
McKinney,《Python for Data Analysis 》
本书注重pandas,还讨论了基础的numpy和scikit-learn等科学知识。
Müller,Guido《Introduction to Machine Leaning with Python》
Müller是scikit-learn的主要维护者。这是一本关于用scikit-learn自学机器自学的好书。
如果你想自学广度自学,我建议先自学Keras或FastAI,然后在自学TensorFlow或PyTorch。Chollet的《Deep Learning with Python》这本书是自学Keras的绝佳资源。
除此以外,我建议你了解你感兴趣的内容,尽管这里须要考虑到天数重新分配等因素。
如果你想通过招工中文网站找统计数据生物学家组织工作,我建议试试LinkedIn,这上面可找到的组织工作信息是最多的。
同时,我建议你制作一个在线作品集,能够很好地展示你的统计数据科学专业技能。还建议在你的LinkedIn个人资料中注明自己的专业技能。
如果你想查看责任编辑中交互式图象及之中采用的代码,请查看我的Kaggle Kernel。
原文链接:
https://towardsdatascience.com/the-most-in-demand-skills-for-data-scientists-4a4a8db896db