牛骨文教育服务平台(让学习变的简单)
博文笔记

正则表达式匹配任意字符(包括换行符)的写法

创建时间:2016-07-16 投稿人: 浏览次数:18691
[sD]*    匹配换行和空格    今天想使用正则表达式来获取一段文本中的任意字符。 于是很随意得就写出如下匹配规则: (.*) 结果运行之后才发现,无法获得换行之后的文本。 于是查了一下手册,才发现正则表达式中,“.”(点符号)匹配的是除了换行符“ ”以外的所有字符。同时,手册上还有一句话:要匹配包括 " " 在内的任何字符,请使用像 "[. ]" 的模式。       于是我将正则表达式的匹配规则修改如下: ([. ]*),当然,如果是在C#程序中直接写到话,需要改为([.\n]*) 结果再次运行程序,发现什么内容也取不到了。      我百思不得其解,又将其修改为如下规则: ([.| ]*) 以及 ( .]*) 结果还是不行,什么内容都取不到。看来点符号和换行符卯上劲了~ 然后上网一查,虽然没有查出上述规则到底是什么地方出问题了,但是查出了一个解决办法,经过一试,果然可以匹配包括换行符在内的任意字符,以下为正确的正则表达式匹配规则: ([sS]*) 同时,也可以用 “([dD]*)”、“([wW]*)” 来表示。

([sS]*?)  加上问号 表示最短匹配


<h2>俗人1个</h2>
</a>
</div>




<div class="content">


小时候发生最离奇的一场车祸,我坐同学自行车,他带着我和对面骑自行车撞在了一起,我倒地下了,他却坐在了对面自行车的龙头上,还搂着人家的脖子


</div>


#coding=utf8

"""
Created on 2016年7月16日

@author: root
"""
import re
f=open("E:\qiushibaike\03\page_1.html","r")
html=f.read()
p1=re.compile("<h2>.*</h2>")
m1=re.findall(p1,html)
p2=re.compile("<div class="content">[sS]*?</div>")
m2=re.findall(p2,html)
if m1:
    for i in m1:
        print i
if m2:
    for i in m2:
        print i


声明:该文观点仅代表作者本人,牛骨文系教育信息发布平台,牛骨文仅提供信息存储空间服务。