Github上的10大机器学习项目 - 网站源码_资源分享

有关转贴许可

大统计数据季刊经典作品，热烈欢迎对个人转贴贴文，自新闻媒体、新闻媒体、政府机构转贴亦须提出申请许可，前台回帖“企业名称+该文副标题+转贴”，提出申请过许可的无须再度提出申请，如果按签订合同转贴方可，

选文：卢戈韦

重新整理译者：卢戈韦，HeHe， Dr Guo, Mano

书名镜像：http://www.kdnuggets.com/2015/12/top-10-machine-learning-github.html/2

全文：GitHub上名列前10的机器自学工程项目，主要包括许多库、架构和教学天然资源。让我们一同自学呵呵这些基本操作和天然资源。

10个工程项目被雅雷和ForK的数目代表者了它畅销的某种程度(该文★则表示雅雷，Y则表示Fork)

正式成为大部份开放源码应用软件的重要信息展览馆，主要包括这些用作在统计数据物理学界的基本操作。机器自学对统计数据自然科学来说，其必要性和服务中心话语权，显而易见。下列表列，是Github上名列前10位的机器自学工程项目的概述。

ScikitLearn

★ 8641, Y 5125

如前所述Python的机器自学

不无谜团地，列入五大工程项目名符其实的，是服务于遍及在世界上从轻工业到学界的Python普通用型户们的机器自学库。如前所述NumPy, SciPy和matplotlib，ScikitLearn最小化了Python的系统分析潜能。做为通用型的辅助应用软件包，ScikitLearn包涵了进行分类、重回和控制点演算法，和统计数据预备和数学模型评估结果等辅助基本操作。

镜像：https://github.com/scikit-learn/scikit-learn

Awesome机器自学

★ 8404, Y 1885

一系列Awsome机器自学的架构、库和应用软件的整合列表。

该列表首先根据语言进行进行分类，然后由机器自学类别（如通用型，计算机视觉，自然语言处理等等）进一步细分。它还主要包括了统计数据可视化基本操作，从某种意义上说，这使得它更多被视为一个通用型的机器自学方法。这不失为一件好事。

镜像：https://github.com/josephmisiti/awesome-machine-learning

PredictionIO

★ 8145, Y 1002

PredictionIO 是开发人员和ML工程师的机器自学服务器，构建于Apache Spark, HBase 和 Spray之上。

PredictionIO是一个通用型的架构。它主要包括多个服务于几个常见任务的模块，如可定制的进行分类和建议，并通过REST API或SDK与现有应用程序相连接，还主要包括对Spark MLib的支持。因为它是建立在Spark之上，并利用Spark的生态系统，不无谜团地，PredictionIO主要是由Scala开发而来。

镜像：https://github.com/PredictionIO/PredictionIO

Dive Into Machine Learning （潜入式机器自学）

★ 4326, Y 342

如前所述Jupyter notebook和ScikitLearn的交互式机器自学天然资源

该工程项目集合了服务于ScikitLearn的IPython的笔记本电脑教程和大量镜像，指向特定的Python相关的和一般的机器自学主题，和更为广泛的统计数据自然科学重要信息。开发者很大度，指出如果该工程项目不适合你，他们还主要包括了许多其他类似的教程。如果你是Python机器自学的新手，千万别错过该工程项目。

镜像：https://github.com/hangtwenty/dive-into-machine-learning

Pattern

★ 3799, Y 598

Python网络挖掘模块，主要包括抓取基本操作、自然语言处理、机器自学、网络分析及可视化。

Pattern是一个基于Python的网络挖掘辅助应用软件包，来自于安特卫普大学的计算语言学和心理语言学研究服务中心。它的主要作用是统计数据抓取、机器自学、自然语言处理、网络分析和可视化。Pattern能从几个知名的网络服务器中较易地挖掘统计数据。该工程项目有很成熟的开发记录，还主要包括了大量的例子和单元测试。

镜像：https://github.com/clips/pattern

NuPIC (Numenta智能处理平台)

★ 3647, Y 987

是一种脑力激发机器智能平台，具有如前所述脑皮质性自学演算法的生物学准确性神经网络。

NuPIC实现了分层时间内存( Hierarchical Temporal Memory, 简称HTM)机器自学演算法。HTM尝试模拟大脑皮层演算法，旨在专注于存储和记忆时空模式。NuPIC适合于模式相关的异常检测。

镜像：https://github.com/numenta/nupic

Vowpal Wabbit

★ 2949, Y 827

Vowpal Wabbit是一个机器自学系统，旨在推动机器自学技术的发展，如联网、散列法、归约、搜索自学2、主动和相互自学。

Vowpal Wabbit的用途是迅速处理大规模统计数据库集并支持并行自学。该工程项目开始于雅虎，目前在微软研发。Vowpal Wabbit利用核外 (out-of-core) 分布式自学，曾经在一个小时内用1000个计算节点处理terabyte级别的特征的统计数据集。

镜像：https://github.com/JohnLangford/vowpal_wabbit

Aerosolve

★2538，Y 245

专为人类设计的机器自学应用软件包。

aerosolve评论

试图与其他库管理程序不同，Aerosolve注重人性化的调试基本操作，运用Scala代码进行训练，利用图像内容分析引擎，达到便于图像名列的目的，并通过功能转换语言为用户提供灵活性和控制功能。 Aerosolve实现了如前所述Thrift（译者注：Thrift 是Apache开发的多语言协作平台）特征呈现，在Aerosolve中，特征会按照逻辑分组，可以一次性地对整个特征组进行转换，或者将两个不同的特征簇组合到一同创建新的特征簇。

镜像：http://airbnb.github.io/aerosolve/

GoLearn: 如前所述谷歌Go预言的机器自学工程项目

★2334，Y 215

GoLearn是一个为谷歌Go 语言开发的程序库。

其目标是为开发者提供一个功能全面、简单易用、可定制的应用软件包。 GoLearn实现了ScikitLearn的许多熟悉的拟合/预测演算法，可以很容易调换机器自学演算法，并实现了交叉验证和训练/测试分组之类的“辅助功能”。

镜像：https://github.com/sjwhitworth/golearn

黑客的机器自学代码 (Machine Learning for Hackers)

★ 2003, Y 1446

“黑客的机器自学(Machine Learning for Hackers)“一书的伴随代码。

此工程项目包涵来自OReilly的书《黑客的机器自学》的大部份代码。大部份代码均为R语言，依靠众多的R程序包，涉及主题主要包括进行分类(Classification)，排行(Ranking)，和重回(Regression)的大部份常见的任务，和统计方法，如主成分分析(PCA)和多维尺度(Multi-dimenstional Scaling)等。

镜像：https://github.com/johnmyleswhite/ML_for_Hackers

编译者简介

志愿者”，了解我们及如何加入我们

Github上的10大机器学习项目