LizierInfoworld译者:Serdar Yegulalp参予:黄小天、李亚洲地区、娇小
这些 Python 库协助你快速数据传输,通过 AWS Lambda 对小型排序组织工作做碎片化处置,并采用略高于 TensorFlow 的数学模型组织工作。
机器学习令人激动,但具体内容组织工作繁杂而十分困难。一般来说它牵涉许多全自动提高——汇整组织工作Paragua数据传输平台,增设管理辅助工具,以及在外部布署和云布署的天然资源之间往复阻塞。
用以提高组织管理效率的手头上辅助工具越多越好。遗憾的是,Python 是两个杀伤力非常大的辅助工具词汇,在大数据和机器学习当中被广为采用。上面是 5 个 Python 库,协助你减轻源自买卖提高的惨况。
PyWren
门牌号:https://github.com/ericmjonas/pywren
PyWren,两个暗含强悍大前提的单纯包,能使你运转如前所述 Python 的控制系统分析组织管理效率,以作为 AWS Lambda 表达式的数个范例。工程项目 At The New Stack 的概要这样叙述 PyWren: 把 AWS Lambda 用于两个非常大的相连接处置控制系统,以处置这些可被拆成众多小各项任务的工程项目,这些小各项任务的运转不须要挤占许多缓存或硬碟。
Lambda 表达式的两个优点是运转时间最久不能超过 300 秒。但是,如果你须要两个只耗费几秒钟就能顺利完成的组织工作,并在数据分散须要运转数十次,那么 PyWren 或许是两个好优先选择,它可以一种使用者硬体上不容用的体量相连接化云端的组织工作。
谷歌的 TensorFlow 框架正迈入伟大时刻,因为刚发布了 1.0。人们一般来说会问两个问题:如何利用在上面训练的数学模型而无需采用 TensorFlow 本身?
Tfdeploy
门牌号:https://github.com/riga/tfdeploy
Tfdeploy 可以部分解决这个问题。将训练过的 TensorFlow 数学模型输出「两个单纯的如前所述 Numpy 的可调用对象(callable)」,也就是说,借由 Tfdeploy,可以在 Python 中采用数学模型,而且 Numpy 的数学和统计库被作为唯一的依靠。几乎所有能在 TensorFlow 上跑的运转也能在 Tfdeploy 上跑,而且你可以通过标准 Python 隐喻方式来延伸库的行为(比如,超载两个类别)。
现在,坏的消息是:Tf 布署并不支持 GPU 快速,要是 Numpy 能克服那一点该多好。Tfdeploy 的创造者建议 gNumPy 工程项目是两个可行的替代。
Luigi
门牌号:https://github.com/spotify/luigi
编写成批作业一般来说只是处置海量数据的其中一步:你也不得不将所有这些组织工作串联起来,做成类似组织工作流程的东西。Luigi 是 Spotify 打造的,用于「解决所有一般来说与长期运转成批处置作业有关的管道问题。」
有了 Luigi,研发人员就可以从事几个很难、与数据无关的各项任务处置——「两个 Hive 询问,两个在 Jave 上顺利完成的 Hadoop 各项任务,两个 Scala 上的 Spark 各项任务,两个从数据库中导出表格」——创造两个端到端运转它们的组织工作流。对各项任务的整个叙述以及依存性被打造为 Python 模块,和 XML 配置文档或其他数据形式不同,因此,可以被组合到其他以 Python 为中心的工程项目中去。
Kubelib
门牌号:https://github.com/safarijv/kubelib
如果你采用 Kubernetes 作为顺利完成机器学习组织工作的编排控制系统(orchestration system),你最不想要的就是它产生的问题比能解决的问题都多。Kubelib 为 Kubernetes 提供了一系列的 Python 接口,本来是用 Jekins scripting 作为协助。但没有 Jenkins 的情况下也能够采用,它能够顺利完成 暴露在 kubectl CLI 或者 Kubernetes API 中的所有事。
PyTorch
门牌号:https://github.com/pytorch/pytorch
不要忘记了最近发布的、引人注目的 Python 库新成员 Pytorch,这是 Torch 机器学习框架的两个辅助工具。PyTorch 不仅为 Torch 添加了 Python 端口,也增加了许多其他的便利,比如 GPU 快速,共享缓存顺利完成多重处置(multiprocessing,特别是多核上隔离开的组织工作。) 最好的是,它们能为 Numpy 中的无快速功能提供 GPU 驱动的替代优先选择。