第一集特别针对Python词汇的统计数据挖掘库(pandas),撷取了5个能提高统计数据处置工作效率的软件系统,归纳而言是,不必不晓得,皮炎平真高工作效率!合乎通心面运动定律……
牵涉到统计数据的冲洗,所以nan值必定是两个须要处置的难题,无论是间接抛弃却是充填值,常常须要先功能定位nan值在这儿,再依照统计数据特征去做适当的操作方式。这儿我撷取下我对个人对功能定位nan值难题许多好的课堂教学
详看下列标识符,主要就包涵四种情形的功能定位
第三个方式:df.isnull().any()
透过结论能看得出,那个句子回到的是大部份列与否所含nan值的常量
对两个大CSV而言,你想一刹那晓得什么样表头有nan值须要处置,所以那个指示就能让你一瞬间看见结论,再特别针对结果做处置方可
第三个方式:df[“female”].isnull()
结论如下表所示,回到的是每一值与否为nan值的常量
第三个方式早已确认了什么样列有nan值,所以接下去你可能将想晓得的是那些表头中什么样值是nan值,所以那个方式就能帮你功能定位
第三个方式:df[df.isnull().values==True]
结论如下表所示:回到的是统计数据表中所含nan值的大部份行
还有个写法很推荐, df[df.列名.isnull().values==True],因为有些列的nan值没有什么实际作用,也不必处置,所以有些列则必须不能有nan值,所以就能透过那个指示专门特别针对某一列展开nan值的功能定位
那个指示是我用得最多的,因为在大统计数据文件中,如果nan值非常少,所以此种方式的功能定位非常有有工作效率且间接
有的时候你会面临一种情形:你须要把某一列的值依照一定的分组要求分类聚合到一起,然后统一展开一系列的运算,需求如下表所示所示
需求结论要如下表所示所示
想要实现那个效果,标识符如下表所示
有时候在筛选统计数据集的时候条件很复杂,但是那些复杂的对立条件却只有两个,此种情形下就能透过对立条件筛选反集,筛选所须要的统计数据,一般而言,牵涉到”isin”的时候有可能将用得到
需求描述为:要呈现除了沈阳之外的统计数据
有时候我们会面对此种需求:两个表头中保存的是带有固定分隔符的字符串(比如”,”),须要将这一行的那个表头拆分,拆分为两个统计数据集,那个统计数据集每一行都显示那个原有表头的两个值
这么说有点绕口,看图
需求为:须要把技能相同的人汇总一起,所以首先第一步肯定是要将每一人技能拆开,再去做聚合操作方式,所以拆开的结论应该是如下表所示图所示的
实现标识符
需求描述:我想将统计数据依照一定的要求分类并排序,然后取每一分组后排序的前两条记录
举例而言是,如下表所示
需求为:展示每一省篮球场个数最多的前两个市,展示如下表所示
之前我计算那个,要用for循环迭代去取值,后面了解到了那个方式,工作效率提高了几倍,怎么写,如下表所示所示
我是一名奋战在编程界的pythoner,工作中既要和统计数据打交道,也要和erp系统,web网站保持友好的沟通……,时不时的会撷取许多提高工作效率率的编程小技巧,实际应用中遇到的难题和软件系统,或者源码的阅读等等,欢迎大家一起来讨论!