牛骨文教育服务平台(让学习变的简单)
博文笔记

如何用Python Pandas以及正则表达式提取地址中的省份

创建时间:2017-08-25 投稿人: 浏览次数:1700

如题。

假设数据在data数据框中,列名为"地址"。

#筛选含省份的字段

data[data["地址"].str.match(".+省"]["地址"].str.extract("(.+[省])",expand=True)

#去掉省份前特殊字符的样本

data1=data.iloc[:,0].str.replace(".+(号|镇|街|路|乡|道|村|巷|侧|d|()",‘’)

#去掉字符长度不满足要求的省份

data2=data[np.where(data1.str.len()>2,np.where(data1.str.len()<5,True,False),False)]

#去掉空格

data2=data2.map(str.strip)

#与省份的表做比对,去掉不符合的省份

#用join和原来的表做拼接

声明:该文观点仅代表作者本人,牛骨文系教育信息发布平台,牛骨文仅提供信息存储空间服务。