有关转贴许可
大统计数据季刊经典作品,热烈欢迎对个人转贴贴文,自新闻媒体、新闻媒体、政府机构转贴亦须提出申请许可,前台回帖“企业名称+该文副标题+转贴”,提出申请过许可的无须再度提出申请,如果按签订合同转贴方可,
选文:卢戈韦
重新整理译者:卢戈韦,HeHe, Dr Guo, Mano
书名镜像:http://www.kdnuggets.com/2015/12/top-10-machine-learning-github.html/2
全文:GitHub上名列前10的机器自学工程项目,主要包括许多库、架构和教学天然资源。让我们一同自学呵呵这些基本操作和天然资源。
10个工程项目被雅雷和ForK的数目代表者了它畅销的某种程度(该文★则表示雅雷,Y则表示Fork)
正式成为大部份开放源码应用软件的重要信息展览馆,主要包括这些用作在统计数据物理学界的基本操作。机器自学对统计数据自然科学来说,其必要性和服务中心话语权,显而易见。下列表列,是Github上名列前10位的机器自学工程项目的概述。
ScikitLearn
★ 8641, Y 5125
如前所述Python的机器自学
不无谜团地,列入五大工程项目名符其实的,是服务于遍及在世界上从轻工业到学界的Python普通用型户们的机器自学库。如前所述NumPy, SciPy和matplotlib,ScikitLearn最小化了Python的系统分析潜能。做为通用型的辅助应用软件包,ScikitLearn包涵了进行分类、重回和控制点演算法,和统计数据预备和数学模型评估结果等辅助基本操作。
镜像:https://github.com/scikit-learn/scikit-learn
Awesome机器自学
★ 8404, Y 1885一系列Awsome机器自学的架构、库和应用软件的整合列表。
该列表首先根据语言进行进行分类,然后由机器自学类别(如通用型,计算机视觉,自然语言处理等等)进一步细分。它还主要包括了统计数据可视化基本操作,从某种意义上说,这使得它更多被视为一个通用型的机器自学方法。这不失为一件好事。
镜像:https://github.com/josephmisiti/awesome-machine-learning
PredictionIO
★ 8145, Y 1002
PredictionIO 是开发人员和ML工程师的机器自学服务器, 构建于Apache Spark, HBase 和 Spray之上。
PredictionIO是一个通用型的架构。它主要包括多个服务于几个常见任务的模块,如可定制的进行分类和建议,并通过REST API或SDK与现有应用程序相连接,还主要包括对Spark MLib的支持。因为它是建立在Spark之上,并利用Spark的生态系统,不无谜团地,PredictionIO主要是由Scala开发而来。
镜像:https://github.com/PredictionIO/PredictionIODive Into Machine Learning (潜入式机器自学)
★ 4326, Y 342
如前所述Jupyter notebook和ScikitLearn的交互式机器自学天然资源
该工程项目集合了服务于ScikitLearn的IPython的笔记本电脑教程和大量镜像,指向特定的Python相关的和一般的机器自学主题,和更为广泛的统计数据自然科学重要信息。开发者很大度,指出如果该工程项目不适合你,他们还主要包括了许多其他类似的教程。如果你是Python机器自学的新手,千万别错过该工程项目。
镜像:https://github.com/hangtwenty/dive-into-machine-learning
Pattern
★ 3799, Y 598Python网络挖掘模块,主要包括抓取基本操作、自然语言处理、机器自学、网络分析及可视化。
Pattern是一个基于Python的网络挖掘辅助应用软件包,来自于安特卫普大学的计算语言学和心理语言学研究服务中心。它的主要作用是统计数据抓取、机器自学、自然语言处理、网络分析和可视化。Pattern能从几个知名的网络服务器中较易地挖掘统计数据。该工程项目有很成熟的开发记录,还主要包括了大量的例子和单元测试。
镜像:https://github.com/clips/pattern
NuPIC (Numenta智能处理平台)
★ 3647, Y 987
是一种脑力激发机器智能平台,具有如前所述脑皮质性自学演算法的生物学准确性神经网络。
NuPIC实现了分层时间内存( Hierarchical Temporal Memory, 简称HTM)机器自学演算法。HTM尝试模拟大脑皮层演算法,旨在专注于存储和记忆时空模式。NuPIC适合于模式相关的异常检测。
镜像:https://github.com/numenta/nupic
Vowpal Wabbit
★ 2949, Y 827
Vowpal Wabbit是一个机器自学系统,旨在推动机器自学技术的发展,如联网、散列法、归约、搜索自学2、主动和相互自学。
Vowpal Wabbit的用途是迅速处理大规模统计数据库集并支持并行自学。该工程项目开始于雅虎,目前在微软研发。Vowpal Wabbit利用核外 (out-of-core) 分布式自学,曾经在一个小时内用1000个计算节点处理terabyte级别的 特征的统计数据集。
镜像:https://github.com/JohnLangford/vowpal_wabbit
Aerosolve
★2538,Y 245
专为人类设计的机器自学应用软件包。
aerosolve评论
试图与其他库管理程序不同,Aerosolve注重人性化的调试基本操作,运用Scala代码进行训练,利用图像内容分析引擎,达到便于图像名列的目的,并通过功能转换语言为用户提供灵活性和控制功能。 Aerosolve实现了如前所述Thrift(译者注:Thrift 是Apache开发的多语言协作平台)特征呈现,在Aerosolve中,特征会按照逻辑分组,可以一次性地对整个特征组进行转换,或者将两个不同的特征簇组合到一同创建新的特征簇。
镜像:http://airbnb.github.io/aerosolve/
GoLearn: 如前所述谷歌Go预言的机器自学工程项目
★2334,Y 215GoLearn是一个为谷歌Go 语言开发的程序库。
其目标是为开发者提供一个功能全面、简单易用、可定制的应用软件包。 GoLearn实现了ScikitLearn的许多熟悉的拟合/预测演算法,可以很容易调换机器自学演算法,并实现了交叉验证和训练/测试分组之类的“辅助功能”。
镜像:https://github.com/sjwhitworth/golearn
黑客的机器自学代码 (Machine Learning for Hackers)
★ 2003, Y 1446
“黑客的机器自学(Machine Learning for Hackers)“一书的伴随代码。
此工程项目包涵来自OReilly的书《黑客的机器自学》的大部份代码。大部份代码均为R语言,依靠众多的R程序包,涉及主题主要包括进行分类(Classification),排行(Ranking),和重回(Regression)的大部份常见的任务,和统计方法,如主成分分析(PCA)和多维尺度(Multi-dimenstional Scaling)等。
镜像:https://github.com/johnmyleswhite/ML_for_Hackers
编译者简介
志愿者”,了解我们及如何加入我们
往期精彩该文推荐,点击图片可阅读
机器自学演算法一览
大统计数据领域33个预测,开启未知的2016
【限时干货下载】
点击下图,阅读“2016大统计数据发展7大趋势”
2016/1/31前
2015年12月干货文件打包下载,请点击大统计数据季刊底部菜单:下载等–12月下载
大统计数据季刊精彩该文:
金融】 看【金融与商业】专栏历史期刊该文
可视化】感受技术与艺术的完美结合
安全】 有关泄密、黑客、攻防的新鲜案例
演算法】 既涨知识又有趣的人和事
谷歌】 看其在大统计数据领域的举措
院士】 看众多院士如何讲大统计数据
隐私
】 看看在大统计数据时代还有多少隐私
医疗】 查看医疗领域该文6篇
征信】 大统计数据征信专题四篇
大国】 “大统计数据国家档案”之美国等12国
体育】 大统计数据在网球、NBA等应用案例
志愿者】了解如何加入大统计数据季刊
长按指纹,方可关注“大统计数据季刊”
专注大统计数据,每日有分享