牛骨文教育服务平台(让学习变的简单)
博文笔记

Pandas处理csv表格

创建时间:2016-04-29 投稿人: 浏览次数:11713
1.安装pandas
pip install pandas
或者源码安装:
git clone git://github.com/pydata/pandas.git
cd pandas
python setup.py install

2.入门

1)读取csv文件
data =pandas.read_csv(‘test.csv’) //返回的是DataFrame变量
first_rows = data.head(n) //返回前n条数据,默认返回5条
cols = data.columns //返回全部列名
dimensison = data.shape //返回数据的格式,数组,(行数,列数)
data.values //返回底层的numpy数据

2)pandas的主要数据类型dtype:
object, 字符串类型
int, 整型
float, 浮点型
datetime, 时间类型
bool, 布尔型
print data.dtpyes输出每一列的数据类型

3)索引

4)选择数据
data.loc[1] //返回单列数据
data.loc[1:3] //返回切片列数据,相当于 data.loc[[1,2,3]]
data.loc[:,["ID’]]
data.loc[:4,["ID","YELP’]] //返回指定行的指定类,从0行到4行,包括第4行

data.iloc[:,:] //返回所有数据
data.iloc[:2,1:3] //返回特定行特定列的数据

data[‘ID’] //返回列
data[2:5] //返回行
data[3:6][:2]
data[‘ID’][3:6]
data[3:6][‘ID’]

data[data.YELP>0] //YELP这列的值不为空,即NaN
data[data["ID"].isin(["v4","v5"])] //返回有这个值的列

5)缺失值处理
去掉包含缺失值的行:df.dropna(how=‘any’)
对缺失值进行填充:df.fillna(values=‘NULL’)
对数据进行布尔补充:pandas.isnull(df)


6)数据处理

<class "pandas.core.series.Series">
方法
to_string
to_json
json.loads(df.loc[0:5,["ID","YELP"]].to_json())
声明:该文观点仅代表作者本人,牛骨文系教育信息发布平台,牛骨文仅提供信息存储空间服务。