撰稿Python与统计数字分析,源自 4 款统计数字分析辅助工具
,著眼 Python、统计数字分析、统计数字分析、有趣辅助工具!他们做统计数字分析,在第二次领到统计数字集的这时候,通常会用语言学或建模方法来如是说原始统计数字。
如是说科舞、个字符、值域原产、缺位值、列间的有关亲密关系之类,那个操作过程叫作 EDA(Exploratory Data Analysis,开拓性统计数字分析)。
现阶段早已有许多EDA辅助工具能手动产出此基础的统计统计数字和图象,可为他们节约大批天数。
【注】热烈欢迎variations重新加入经验交流群
正式宣布如是说那些辅助工具以后,先来读取统计数字集
iris是上面加进的统计数字集,是两个150行 * 4列的 DataFrame。
1. PandasGUI
PandasGUI提供统计数字预览、筛选、统计、多种图象展示以及统计数字转换。
PandasGUI操作界面
PandasGUI更侧重统计数字展示,提供了10多种图象,通过可视的方式配置。
但统计数字统计做的比较单纯,没有提供缺位值、有亲密关系数等指标,统计数字转换部分也只开放了一小部分接口。
2. Pandas Profiling
Pandas Profiling 提供了整体统计数字概况、每列的详情、列间的关图、列间的有亲密关系数。
Pandas Profiling操作界面
每列的详情包括:缺位值统计、去重计数、最值、平均值等统计指标和值域原产的柱状图。
列间的有亲密关系数支持Spearman、Pearson、Kendall 和 Phik 4 种有亲密关系数算法。
与 PandasGUI 相反,Pandas Profiling没有丰富的图象,但提供了非常多的统计指标以及有亲密关系数。
3. Sweetviz
Sweetviz与Pandas Profiling类似,提供了每列详细的统计指标、值域原产、缺位值统计以及列间的有亲密关系数。
Sweetviz操作界面
Sweetviz还有有两个非常好的特性是支持不同统计数字集的对比,如:训练统计数字集和测试统计数字集的对比。
Sweetviz统计数字集对比
蓝色和橙色代表不同的统计数字集,通过对比能清晰发现统计数字集以后的差异。
4. dtale
最后重磅如是说dtale,它不仅提供丰富图象展示统计数字,还提供了许多交互式的接口,对统计数字进行操作、转换。
dtale操作界面
dtale的功能主要分为三部分:统计数字操作、统计数字建模、高亮显示。
4.1 统计数字操作(Actions)
dtale将pandas的函数包装成建模接口,能让他们通过图形界面方式来操作统计数字。
Actions
右半部分图是左边图的中文翻译,用的是 Chrome 手动翻译,有些不是很准确。
举两个统计数字操作的例子。
Summarize Data
上图是Actions菜单中Summarize Data的功能,它提供了对统计数字集汇总操作的接口。
上图他们选择按照species列分组,计算sepal_width列的平均值,同时能看到左下角dtale早已手动为该操作生成了pandas代码。
4.2 统计数字建模(Visualize)
提供比较丰富的图象,对每列统计数字概况、重复行、缺位值、有亲密关系数进行统计和展示。
Visualize
举两个统计数字建模的例子。
Describe
上图是Visualize菜单中Describe的功能,它能统计每列的最值、均值、标准差等指标,并提供图象展示。
右侧的Code Export能查看生成那些统计数字的代码。
4.3 高亮显示(Highlight)
对缺位值、异常值做高亮显示,方便他们快速定位到异常的统计数字。
Highlight
上图显示了将sepal_width字段的异常值。
dtale非常强大,功能也非常多,大家能多多探索、挖掘。
最后,单纯总结一下。如果探索的统计数字集侧重统计数字展示,能选PandasGUI;如果只是单纯如是说基本统计指标,能选择Pandas Profiling和Sweetviz;如果需要做深度的统计数字探索,那就选择dtale。
总结
本文如是说了在python中使用tabulate库来创建表格,并针对输出形式进行不断改进来美化输出效果,并给出了代码示例。
经验交流群
建了经验交流群
Python与统计数字分析 知乎账号和 Pyth
文章推荐
Auto-Sklearn:使用 AutoML 加速你的机器学习模型
深度盘点:30个用于深度学习、自然语言处理和计算机视觉的顶级 Python 库
机器学习模型验证,这3个 Python 包可轻松解决95%的需求!
值得收藏!这是 Python 数据预处理最频繁使用的5个技巧!
一文从0到1掌握用户画像知识体系
深度盘点:8000字详细如是说 Python 中的 7 种交叉验证方式
效率倍增!5 个提高生产力的 Jupyter notebook插件!