如何用Python Pandas以及正则表达式提取地址中的省份
如题。
假设数据在data数据框中,列名为"地址"。
#筛选含省份的字段
data[data["地址"].str.match(".+省"]["地址"].str.extract("(.+[省])",expand=True)
#去掉省份前特殊字符的样本
data1=data.iloc[:,0].str.replace(".+(号|镇|街|路|乡|道|村|巷|侧|d|()",‘’)
#去掉字符长度不满足要求的省份
data2=data[np.where(data1.str.len()>2,np.where(data1.str.len()<5,True,False),False)]
#去掉空格
data2=data2.map(str.strip)
#与省份的表做比对,去掉不符合的省份
#用join和原来的表做拼接
声明:该文观点仅代表作者本人,牛骨文系教育信息发布平台,牛骨文仅提供信息存储空间服务。