译者——Pranav Dar
“我如果在我的工程项目中使用GitHub吗?”——有志向的统计数据生物学家时常问我这个问题。只有两个标准答案——”当然!”
GitHub对于那些想脱颖而出的统计数据生物学家而言是两个十分有用的网络平台。你能把它当作这份新浪网对个人简历,用以向招工相关人员和其他从业者展现你的标识符。GitHub上有源自Google、Facebook、IBM、英伟达等世界顶级信息技术巨擘的开放源码工程项目,这
如果你是统计数据自然科学的新手,或是是从业者,你如果有两个GitHub帐户。为了节约你找寻高参与度库的时间(虽然这样的库有许多),我很开心在这首诗中详列出它并将它间接提供给你。
这首诗子集了各种示例——计算机系统听觉(最终目标检验和拆分),PyTorch实现的Google人工智慧冲破了用作NLP的BERT数学模型,抽取新一代的研究学术论文或其全文等。
为何他们要在这首诗中重新加入有关Reddit的探讨呢?我对个人觉得Reddit是两个极为有益于的网络平台——因为它有著多样的文本,为数众多机器自学/广度自学研究者提出的设想,一些”令人震惊”的热门话题,以及开放源码天然资源,之类。我能继续说下来我讨厌它的原因,这不足以说明我是有何等的尊崇Reddit——它是那般的独有而有用。
你能看一看我有关GitHub上的世界顶级存储库和Reddit探讨(从4月末开始),他们每一月都在探讨:
六月:
https://www.analyticsvidhya.com/blog/2018/02/top-5-github-repositories-january-2018/二月:
https://www.analyticsvidhya.com/blog/2018/03/top-5-github-repositories-february-2018/三月:
https://www.analyticsvidhya.com/blog/2018/04/top-7-github-repositories-march-2018/四月:
https://www.analyticsvidhya.com/blog/2018/05/top-5-github-reddit-data-science-machine-learning-april-2018/五月:
https://www.analyticsvidhya.com/blog/2018/06/top-5-github-reddit-data-science-machine-learning-may-2018/六月:
https://www.analyticsvidhya.com/blog/2018/07/top-github-reddit-data-science-machine-learning-june-2018/七月:
https://www.analyticsvidhya.com/blog/2018/08/best-machine-learning-github-repositories-reddit-threads-july-2018/八月:
https://www.analyticsvidhya.com/blog/2018/09/best-machine-learning-github-repositories-reddit-threads-august-2018/九月:
https://www.analyticsvidhya.com/blog/2018/10/best-machine-learning-github-repositories-reddit-threads-september-2018/PyTorch 1.0中的
https://github.com/facebookresearch/maskrcnn-benchmark)如今,计算机系统听觉已经变得非常流行,以至于各个组织都在争先恐后地在他们的产品中实现和集成新一代的算法。
当然,最终目标检验是这个领域中最受欢迎的技能。这是Facebook所提供的两个很酷的工程项目,它的最终目标是通过使用PyTorch 1.0框架创建拆分和检验数学模型的构建模块。Facebook宣称,这比它的Detectron数学模型快两倍,而且还配有预先训练好的数学模型,以及足够的天然资源和细节。
如果你需要快速复习一下,我鼓励你点击这个链接:
https://www.analyticsvidhya.com/blog/2018/10/a-step-by-step-introduction-to-the-basic-object-detection-algorithms-part-1/。如果你熟悉PyTorch的基础知识,点击这个教程你会有所收获:
https://www.analyticsvidhya.com/blog/2018/02/pytorch-tutorial/。腾讯ML图片(最大的开放源码多标签图像统计数据库)(
https://github.com/Tencent/tencent-ml-images)这个仓库是所有广度自学爱好者的”金矿”。你是不是觉得称它为”最大的开放源码多标签图像统计数据库”有些言过其实。但如果你查看有关此统计数据集的一些数字:如有17,609,752条训练和88,739条验证图像url。而且这些url最多由11,166个类别注释。简直难以置信!
这个工程项目还包括两个预先训练的Resnet-101数学模型,该数学模型到目前为止已经通过迁移自学在ImageNet上达到了80.73%的准确率。该存储库包含了详尽的细节和所必须的一切标识符。这是向社区提供高质量统计数据所迈出的重要一步。
哦,我有提到过这些图片都有注释吗?你在等什么,现在就下载吧!
GoogleAI的BERT (NLP)的PyTorch实现(
https://github.com/codertimo/BERT-pytorch)你不知道BERT这个数学模型已经变得何等流行。对于那些没有听说过BERT的人而言,这是两个语言表示数学模型,它代表了转换器的双向编码器表示。这听起来有点拗口,但它在机器自学领域以引起了极大的轰动。
BERT在11个自然语言处理(NLP)任务中设置了各种各样的新基准。在广泛的NLP任务中,使用预先训练好的语言数学模型可能听起来有些古怪,但是BERT数学模型已经将它变成了现实。
这个存储库包含在你自己的机器上实现BERT的PyTorch标识符。正如Google大脑研究生物学家Thang Luong在推特上说的那般,这很可能是NLP新时代的开始。
如果你有兴趣阅读相关研究学术论文,请点击这里。如果你(像我一样)想查看官方的Google标识符,请将此存储库放入收藏夹。
新一代Arxiv研究学术论文或其全文的抽取(
https://github.com/chiphuyen/sotawhat)他们如何才能掌握机器自学方面的新一代研究成果?似乎他们几乎每周都会看到新研究,跟上它的科研进度是一项艰巨的挑战。总的而言,大多数世界顶级研究相关人员在是在arxiv.org上发表了他们的全部学术论文的,那么有没有办法对新一代的文章进行排序呢?
是的,有!这个存储库使用Python (v3.x)通过抓取arxiv学术论文并汇总它的全文来返回新一代的结果。这是两个十分有用的工具,因为它能帮助他们与新一代的学术论文保持联系,让他们选择他们想读的。正如存储库中提到的,你能运行以下命令来搜索关键字:
如果没有指定需要多少篇学术论文,脚本默认返回五个结果。
DeepMimic(https://github.com/xbpeng/DeepMimic)
我总是试图在每回的文章中重新加入至少两个强化自学库——主要是因为我觉得这个领域的每一人都如果知道这个领域的新一代进展。这个月我选择的是动作模仿与广度强化自学。
这个存储库是在SIGGRAPH 2018年版上发表的一篇学术论文《广度模拟:基于物理的角色技能的示例引导的广度强化自学》中实现的(
https://xbpeng.github.io/projects/DeepMimic/index.html)。从库中引用,”使用强化自学来训练两个模拟的人形机器人来模仿各种运动技能”。请查看上面的工程项目链接,其中包括有关如何实现自己数学模型的视频和标识符。AdaNet(由GoogleAI提供)(
https://github.com/tensorflow/adanet)我不能漏掉这个十分有用的库。AdaNet是两个轻量级的、基于tensorflow的框架,用作自动自学高质量的数学模型。最好的部分是你不需要过多的干预——框架足够聪明和灵活,能构建更好的数学模型。
你能在这里阅读有关AdaNet的更多信息:
https://ai.googleblog.com/2018/10/introducing-adanet-fast-and-flexible.html。像往常一样,Google在解释复杂概念方面做得很好。Reddit探讨
在未来5年里,他们能期待机器自学方面的哪些发展?(
https://www.reddit.com/r/MachineLearning/comments/9rtc7q/d_what_developments_do_you_expect_to_see_in/)这是每一人都在想的问题。机器会统治世界吗?硬件将如何发展?最终会有有关道德领域的官方规则和政策吗?机器自学是否已经融入了社会结构?强化自学最终会在这个行业找到一席之地吗?
这些只是探讨中所提出设想中的一部分。每一人对自己的期望和想看到的都有自己的推测,这个探讨很好地结合了这两者。在技术话题和非技术热门话题之间的对话各不相同,所以你能选择你更讨厌阅读的热门话题。
对管理机器自学研究相关人员的非ML工程师的建议(
https://www.reddit.com/r/MachineLearning/comments/9mbo2g/d_whats_your_advice_to_an_engineer_that_manages/)这是两个有趣的热门话题。他们以前见过这种现象,即两个非ML从业者被指派领导两个ML研究者团队,这通常会给双方带来挫折。由于各种其原因(时间限制排在第一位),人们常常觉得事情陷入了僵局。
我恳求所有的工程项目经理,领导,首席执行官等,花点时间看一下这个探讨主题。有一些十分有用的设想,你能尽快在你自己的工程项目中实现。让所有的技术相关人员和非技术相关人员齐头并进是整个工程项目成功的关键所在,所以领导者树立这样的榜样是很重要的。
机器自学工程项目的主题思想(
https://www.reddit.com/r/MachineLearning/comments/9nu9hs/d_grad_students_of_rml_whats_your_topic_why_is_it/)在找寻两个新的实验工程项目?或是你的学术论文需要创意?你在正确的地方”着陆”了。现如今,研究生正在努力磨练和微调他们的机器自学技能。对我而言最突出的是:
预测行人轨迹
通过声学估计天气现象(利用信号处理和机器自学)
利用广度自学改进助听器语音处理
这就是Reddit十分有用的地方,你能在探讨中提出你的问题,并且你将收到(源自社区的)有关如何应对你所面对的种种挑战的建议。
为何大部分机器自学学术论文中的数学研究结果都很糟糕?(
https://www.reddit.com/r/MachineLearning/comments/9l7j46/d_why_do_machine_learning_papers_have_such/)这是两个完全技术性的探讨,你可能已经从标题中认识到。这是两个完全主观的问题和标准答案,取决于读者的经验水平和研究相关人员对他/她的设想的了解程度。我讨厌这个探讨,因为有十分具体的例子,相关的研究学术论文,让你能探索和形成你自己的意见。
这是两个众所周知(并被接受)的事实,许多学术论文的数学和研究结果都是拼凑在一起的,并不是每一人都有耐心、意愿甚至有能力以清晰的方式展现他们的研究成果。在你能的时候练习你的演讲技巧总是个好主意。
机器自学大肆宣传的弊端(
https://www.reddit.com/r/MachineLearning/comments/9p9ccz/d_ml_is_losing_some_of_its_luster_for_me_how_do/)这本身并不是两个技术性的探讨,但值得注意的是,世界顶级的统计数据自然科学家和应用机器自学专业相关人员对于最近对这一领域的兴趣激增有何看法。这次探讨有120多条评论,这些探讨中有一些十分富有建设性。当从业者和非从业者打交道时,会有无数的奇思妙想”蹦”出来。
尾注
最近真的看到了一些令人惊奇的研究被开放源码。不管微软正式收购GitHub之后会发生什么,它仍然是程序员、开发相关人员和统计数据生物学家之间协作的主要网络平台。我恳请大家时常使用GitHub,即使它只是用作浏览新一代的存储库。