python 正则表达式筛选中文数字处理
参考文档: http://blog.csdn.net/tao_627/article/details/51019972
需求:从一篇文章中筛选出正常的数字
def numberChange():
f = open("C:UsersAdministratorDesktopmytest.txt","r")
s = f.read()
# 或多或少的好好读书电锯惊魂20202 和水电费后是否会时候1212没收到风10.12海大富的是粉红色的和办法的1244525.000会发生的粉红色的合法化好0.01给对方会感受到发给还是干活0001还打飞机大嫁风尚蝴蝶结个房间小电风扇豆腐干很多事123,450,000.000好盛大黑色的十一万八千四百三十二的还好丁世德11万2200海大富会闪烁二十万零三
for i in ["utf8","gb2312"]:
try:
data = s.decode(i)
break
except:
pass
# 匹配中的 ‘u’不可少
number = re.compile(ur"([一二三四五六七八九零十百千万亿]+|[0-9]+[,]*[0-9]+.[0-9]+)")
pattern = re.compile(number)
all = pattern.findall(data)
for i in all:
print i
# 打印的内容
# 20202
# 1212
# 10.12
# 1244525.000
# 0001
# 123, 450, 000
# 十一万八千四百三十二
# 11
# 万2200
# 二十万零三
f.close()
声明:该文观点仅代表作者本人,牛骨文系教育信息发布平台,牛骨文仅提供信息存储空间服务。
- 上一篇: Python 正则匹配数字
- 下一篇: python从字符串中提取数字
