大统计数据挖掘在民营企业的网络化网络营销中充分发挥着决定性的促进作用,大统计数据挖掘糙毛海量数据的统计数据中抽取出最有效率最管用的重要信息;大统计数据挖掘辅助工具Pandas能方便快捷抽取管用的统计数据并能对统计数据展开加速预测处置。
纸上狂蛛属花笺浅,通过前述应用领域情景自学Pandas:
import numpy as np
import pandas as pd
#读取csv或是Excel统计数据
modelData = pd.read_csv(data/modelData.csv, header = 0)
#modelData = pd.read_excel(data/modelData.xlsx, header = 0)
#读取统计数据
modelData=pd.DataFrame(np.arange(9).reshape(3,3),index=list(abc),columns=list(xyz))
x y z
a 0 1 2
b 3 4 5
c 6 7 8
#删除特定行列方法
modelData.drop(modelData[modelData.y == 1].index)
x y z
b 3 4 5
c 6 7 8
#选择表格中的x、y列
modelData[[x,y]]
x y
a 0 1
b 3 4
c 6 7
#切片操作,返回前两行
modelData[0:2]
x y z
a 0 1 2
b 3 4 5
modelData[1:2]
x y z
b 3 4 5
#选择表格中的y列,两种操作方式,返回的是Series类型
modelData[y]
modelData.y
a 1
b 4
c 7
Name: y, dtype: int32
#选择表格中的y列,返回的是DataFrame属性
modelData[[y]]
y
a 1
b 4
c 7
modelData.index.values
[a b c]
modelData.columns.values
[column for column in modelData]
[x y z]
modelData[a:b]
x y z
a 0 1 2
b 3 4 5
#
modelData.head()
x y z
a 0 1 2
b 3 4 5
c 6 7 8
默认为后五行,需要后十行则data.tail(10)
modelData.tail(1)
x y z
c 6 7 8
#选取modelData最后一行,返回的是Series
modelData.iloc[-1]
x 6
y 7
z 8
Name: c, dtype: int32
#选取modelData最后一行,返回的是modelData
modelData.iloc[-1:]
x y z
c 6 7 8
#选取modelData第0、2行,1、2列
modelData.iloc[[0,2],[1,2]]
y z
a 1 2
c 7 8
modelData.loc[a,[w,x]]
x 0
z 2
Name: a, dtype: int32
#选取第二行第二列,用于已知行、列位置的选取
modelData.iat[1,1]
4
#替换特定行列的值
modelData.loc[modelData[y]==4,y]=0
#替换特定行列的值,第二种方法
modelData.y[modelData[y]==4]=0
x y z
a 0 1 2
b 3 0 5
c 6 7 8