【推荐】7个强大实用的Python机器学习库!

2023-05-28 0 410

序言

【推荐】7个强大实用的Python机器学习库!

他们晶灵“千万别多次重复发明者车轮”,python中的第3方辅助工具库是最合适的范例。借助于它,他们能用单纯的形式撰写繁杂且费时的标识符。在第一集文本中给他们重新整理了 7 个管用的 Python 库,假如他们专门从事机器学习组织工作,很大要来一同介绍呵呵。

辅助工具库如是说

1.Prophet

Prophet是 Facebook 开放源码的天数字符串预估辅助工具库,如前所述 Stan 架构,能自动识别天数字符串中的态势、持续性和假日负面效应,并依照那些重要信息展开预估。那个库在 GitHub 上有少于 15k 星。

【推荐】7个强大实用的Python机器学习库!

Prophet 一般来说用作预估今后三个月、一两年或数十年的天数字符串统计数据,比如营业额、市场占有率等。它提供更多了 Python 和 R 三个版,能虚拟化采用,全力支持 CPU 和 GPU 的博戈达演算。Prophet 的输出统计数据库系统明确要求是两个包涵天数戳和平均速度的统计数据框,并全力支持取值天数覆盖范围、预估时限和过渡期等模块展开预估。Prophet 对缺位数据和态势变动很平稳,一般来说能较好地处置极度值。

# Pythonforecast = m.predict(future)forecast[[ds, yhat, yhat_lower, yhat_upper]].tail()
【推荐】7个强大实用的Python机器学习库!

2.Deep Lake

Deep Lake 是一种统计数据集格式,提供更多单纯的 API 以用作创建、存储和协作处置任何规模的 AI 统计数据集。那个库在 GitHub 上有少于 5k 星。

【推荐】7个强大实用的Python机器学习库!

Deep Lake 的统计数据布局能在大规模训练模型的同时,实现统计数据的快速转换和流式传输。谷歌、Waymo、红十字会、牛津大学等都在采用 Deep Lake。

for epoch in range(2): running_loss =0.0 for i, data in enumerate(deeplake_loader): images, labels = data[images], data[labels] # zero the parameter gradients optimizer.zero_grad() # forward + backward + optimize outputs = net(images) loss = criterion(outputs, labels.reshape(-1)) loss.backward() optimizer.step() # printstatistics running_loss += loss.item()if i % 100 == 99: #print every 100 mini-batches print([%d, %5d] loss: %.3f% (epoch +1, i + 1, running_loss / 100)) running_loss = 0.0

3.Optuna

Optuna是两个自动机器学习超模块调优辅助工具,能帮助用户通过采用各种规则自动调整机器学习模型的超模块,以提高模型的性能。那个库在 GitHub 上拥有少于 7k 颗星。

【推荐】7个强大实用的Python机器学习库!

Optuna 采用了贝叶斯优化算法来自动调整超模块,并采用如前所述树的方法来探索模块空间。这使得 Optuna 能够在训练机器学习模型时自动展开超模块调整,从而提高模型的性能。Optuna 能与各种机器学习架构集成采用,包括 TensorFlow、PyTorch、XGBoost 等。它还全力支持多种优化目标,包括最小化损失函数、最大化准确率等。

总的来说,Optuna是两个强悍的辅助工具,能帮助用户提高机器学习模型的性能,提高模型的准确率。它的易用性和可扩展性使它成为机器学习组织工作流中的两个重要辅助工具。

import… # Define an objectivefunction to be minimized.def objective(trial): # Invoke suggest methods of a Trial object to generate hyperparameters regressor_name = trial.suggest_categorical(regressor,[SVR, RandomForest]) if regressor_name = SVR: svr_c = trial.suggest_float(svr_c, 1e-10, 1e10, log=True) regressor_obj = sklearn.svm.SVR(C=svr_c) else: rf_max_depth = trial.suggest_int(rf_max_depth, 2, 332) regressor_obj = sklearn.ensemble.RandomForestRegressor(max_depth=rf_max_depth) X, y = sklearn.datasets.fetch_california_housing(return_X_y=True) X_train, X_val, y_train, y_val = sklearn.model_selection.train_test_split(X, y, random_state=0) regressor_obj.fit(X_train, y_train) y_pred = regressor_obj.predict(X_val) error = sklearn.metrics.mean_squared_error(y_val, y_pred) return error # An objective value linked with the Trial object. study = optuna.create_study() #Create a neW studystudy.optimize(objective, n_trials=100) # Invoke opotimization of the objective function

4.pycm

pycm 是两个用作计算二分类和多分类指标的 Python 库。那个库在 GitHub 上有少于 1k 星。

【推荐】7个强大实用的Python机器学习库!

它能计算多种常用的指标,包括准确率、召回率、F1值、混淆矩阵等。此外,pycm 还

from pycm import *y_actu = [2, 0, 2, 2, 0, 1, 1, 2, 2, 0, 1, 2] y_pred = [0, 0, 2, 1, 0, 2, 1, 0, 2, 2, 2, 2] cm = ConfusionMatrix(actual_vector=y_actu, predict_vector=y_pred) cm.classes cm.print_matrix() cm.print_normalized_matrix()

5.NannyML

NannyML是两个开放源码的 Python 库,允许估算部署后的模型性能(而无需访问目标),检测统计数据漂移,并智能地将统计数据漂移警报链接回模型性能的变动。那个库在 GitHub 上有少于 1k 星。

【推荐】7个强大实用的Python机器学习库!

为统计数据科学家设计的 NannyML 具有易于采用的交互式可视化界面,目前全力支持所有表格式的用例(tabular use cases)、分类(classification)和回归(regression)。NannyML 的核心贡献者研发了多种用作估算模型性能的新算法:如前所述信心的性能估算(CBPE)与直接损失估算(DLE)等。NannyML 通过构建“性能监控+部署后统计数据科学”的闭环,使统计数据科学家能够快速理解并自动识别静默模型故障。通过采用 NannyML,统计数据科学家最终能保持对他们部署的机器学习模型的完全可见性和信任。

import nannyml as nmlfrom IPython.display import display # Load synthetic datareference, analysis, analysis_target = nml.load_synthnetic_binary_classification_dataset()display(reference.head())display(analysis.head()) # Choose a chunker orset a chunk sizechunk size = 5000# initialize, specify requireddata columns,, fit estimator and estimateestimator = nml.CBPE( y_pred_proba=y_pred_proba, y_pred=y_pred, y_true=work_home_actual, metrics=[roc_auc], chunk_size=chunk_size, problem_type=classification_binary,)estimator = estimator.fit(reference)estimated_performance = estimator.estimate(analysis) # Show resultsfigure = estimated_performance.plot(kind=performance, metric=roc_auc, plot_reference=True)figure.show()

6.ColossalAI

ColossalAI是两个开放源码机器学习辅助工具库,用作构建和部署高质量的深度学习模型。那个库在 GitHub 上有少于 6.5k 星。

【推荐】7个强大实用的Python机器学习库!

ColossalAI 提供更多了一系列预定义的模型和模型基础架构,可用作快速构建和训练模型。它还提供更多了一系列辅助工具,用作模型评估,调优和可视化,以确保模型的高质量和准确性。此外,ColossalAI 还全力支持部署模型,使其能够通过各种不同的接口与其他系统集成。ColossalAI 的优势在于它易于采用,能为统计数据科学家和机器学习工程师提供更多快速和有效的方法来构建和部署高质量的大型模型。

from colossalai.logging import get_dist_loggerfrom colossalai.trainer import Trainer, hooks # build components and initialize with colossaalai.initialize… # create a logger so that trainer can log on thhe consolelogger = get_dist_logger() # create a trainer objecttrainer = Trainer( engine=engine, logger=logger)

7.emcee

emcee是两个开放源码的 Python 库,用作采用 Markov chain Monte Carlo(MCMC)方法展开模型拟合和模块估计。那个库在 GitHub 上有少于 1k 星。

【推荐】7个强大实用的Python机器学习库!

emcee是面向对象的,并且具管用作诊断和调试拟合过程的许多辅助工具。它采用了一种叫做”决策树结构链”的方法,能博戈达化拟合过程,提高拟合效率。emcee 非常适合处置繁杂的非线性模型,并且可以轻松扩展到大型统计数据集。它也能轻松与其他 Python 库集成,如 NumPy、SciPy和Matplotlib。

import numpy as npimport emcee def log_prob(x, ivar): return -0.5 * np.sum(ivar * x ** 2) ndim, nwalkers = 5, 100 ivar = 1./np.random.rand(ndim)p0 = np.random.randn(nwalkers, ndim) sampler = emcee.EnsembleSampler(nwalkers, ndim, log_prob, args=[ivar])sampler.run_mcmc(p0,10000)

总结

以上是给他们做的辅助工具库如是说,这7个辅助工具库都是非常管用的,对于机器学习组织工作者来说,它能大大提高组织工作效率,让你能够在单纯的形式下撰写繁杂的标识符。所以,假如你还没有介绍那些辅助工具库的话,不妨花一点天数来介绍呵呵。

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务