简单好用,分享 4 款 Pandas 自动数据分析神器!

2023-06-05 0 333

撰稿Python与统计数字分析,源自 4 款统计数字分析辅助工具

,著眼 Python、统计数字分析、统计数字分析、有趣辅助工具!

他们做统计数字分析,在第二次领到统计数字集的这时候,通常会用语言学或建模方法来如是说原始统计数字。

如是说科舞、个字符、值域原产、缺位值、列间的有关亲密关系之类,那个操作过程叫作 EDA(Exploratory Data Analysis,开拓性统计数字分析)。

现阶段早已有许多EDA辅助工具能手动产出此基础的统计统计数字和图象,可为他们节约大批天数。

【注】热烈欢迎variations重新加入经验交流群

正式宣布如是说那些辅助工具以后,先来读取统计数字集

import numpy as np import pandas as pd iris = pd.read_csv(iris.csv) iris
简单好用,分享 4 款 Pandas 自动数据分析神器!

iris是上面加进的统计数字集,是两个150行 * 4列的 DataFrame。

1. PandasGUI

PandasGUI提供统计数字预览、筛选、统计、多种图象展示以及统计数字转换。

# 安装 # pip install pandasgui from pandasgui import show show(iris)
简单好用,分享 4 款 Pandas 自动数据分析神器!

PandasGUI操作界面

PandasGUI更侧重统计数字展示,提供了10多种图象,通过可视的方式配置。

但统计数字统计做的比较单纯,没有提供缺位值、有亲密关系数等指标,统计数字转换部分也只开放了一小部分接口。

2. Pandas Profiling

Pandas Profiling 提供了整体统计数字概况、每列的详情、列间的关图、列间的有亲密关系数。

# 安装: # pip install -U pandas-profiling # jupyter nbextension enable –py widgetsnbextension from pandas_profiling import ProfileReport profile = ProfileReport(iris, title=iris Pandas Profiling Report, explorative=True) profile
简单好用,分享 4 款 Pandas 自动数据分析神器!

Pandas Profiling操作界面

每列的详情包括:缺位值统计、去重计数、最值、平均值等统计指标和值域原产的柱状图。

列间的有亲密关系数支持Spearman、Pearson、Kendall 和 Phik 4 种有亲密关系数算法。

与 PandasGUI 相反,Pandas Profiling没有丰富的图象,但提供了非常多的统计指标以及有亲密关系数。

3. Sweetviz

Sweetviz与Pandas Profiling类似,提供了每列详细的统计指标、值域原产、缺位值统计以及列间的有亲密关系数。

# 安装 # pip install sweetviz import sweetviz as sv sv_report = sv.analyze(iris) sv_report.show_html()
简单好用,分享 4 款 Pandas 自动数据分析神器!

Sweetviz操作界面

Sweetviz还有有两个非常好的特性是支持不同统计数字集的对比,如:训练统计数字集和测试统计数字集的对比。

简单好用,分享 4 款 Pandas 自动数据分析神器!

Sweetviz统计数字集对比

蓝色和橙色代表不同的统计数字集,通过对比能清晰发现统计数字集以后的差异。

4. dtale

最后重磅如是说dtale,它不仅提供丰富图象展示统计数字,还提供了许多交互式的接口,对统计数字进行操作、转换。

简单好用,分享 4 款 Pandas 自动数据分析神器!

dtale操作界面

dtale的功能主要分为三部分:统计数字操作、统计数字建模、高亮显示。

4.1 统计数字操作(Actions)

dtale将pandas的函数包装成建模接口,能让他们通过图形界面方式来操作统计数字。

# pip install dtale import dtale d = dtale.show(iris) d.open_browser()
简单好用,分享 4 款 Pandas 自动数据分析神器!

Actions

右半部分图是左边图的中文翻译,用的是 Chrome 手动翻译,有些不是很准确。

举两个统计数字操作的例子。

简单好用,分享 4 款 Pandas 自动数据分析神器!

Summarize Data

上图是Actions菜单中Summarize Data的功能,它提供了对统计数字集汇总操作的接口。

上图他们选择按照species列分组,计算sepal_width列的平均值,同时能看到左下角dtale早已手动为该操作生成了pandas代码。

4.2 统计数字建模(Visualize)

提供比较丰富的图象,对每列统计数字概况、重复行、缺位值、有亲密关系数进行统计和展示。

简单好用,分享 4 款 Pandas 自动数据分析神器!

Visualize

举两个统计数字建模的例子。

简单好用,分享 4 款 Pandas 自动数据分析神器!

Describe

上图是Visualize菜单中Describe的功能,它能统计每列的最值、均值、标准差等指标,并提供图象展示。

右侧的Code Export能查看生成那些统计数字的代码。

4.3 高亮显示(Highlight)

对缺位值、异常值做高亮显示,方便他们快速定位到异常的统计数字。

简单好用,分享 4 款 Pandas 自动数据分析神器!

Highlight

简单好用,分享 4 款 Pandas 自动数据分析神器!

上图显示了将sepal_width字段的异常值。

dtale非常强大,功能也非常多,大家能多多探索、挖掘。

最后,单纯总结一下。如果探索的统计数字集侧重统计数字展示,能选PandasGUI;如果只是单纯如是说基本统计指标,能选择Pandas Profiling和Sweetviz;如果需要做深度的统计数字探索,那就选择dtale。

总结

本文如是说了在python中使用tabulate库来创建表格,并针对输出形式进行不断改进来美化输出效果,并给出了代码示例。

经验交流群

建了经验交流群

Python与统计数字分析 知乎账号和 Pyth

文章推荐

真香啊!让 Python 编程起飞的 24 个神操作!

Auto-Sklearn:使用 AutoML 加速你的机器学习模型

深度盘点:30个用于深度学习、自然语言处理和计算机视觉的顶级 Python 库

全网超详细!用户画像标签体系建设指南!

机器学习模型验证,这3个 Python 包可轻松解决95%的需求!

值得收藏!这是 Python 数据预处理最频繁使用的5个技巧!

效率倍增!推荐几款评价非常高的 Python 库!

值得收藏!VScode 中这 15 个神仙插件写代码必备!

精选 30 个炫酷的建模大屏模板,拿走就用!

一文从0到1掌握用户画像知识体系

这9个特征工程使用技巧,解决90%机器学习问题!

深度盘点 :15种最常用的统计数字分析模型,赶紧收藏

心得总结:一名优秀的统计数字分析专家的能力模型

够强大!Python 这款建模大屏不足百行代码!

太漂亮了 ! 输出好看的表格,就用那个 Python 库!

摒弃这18个 Python 坏习惯,让你的代码称心到起飞!

深度盘点:8000字详细如是说 Python 中的 7 种交叉验证方式

效率倍增!5 个提高生产力的 Jupyter notebook插件!

20+时序模型!GluonTS:两个专门为天数序列建模而设计的辅助工具包!

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务