牛骨文教育服务平台(让学习变的简单)
博文笔记

curl ——爬网页数据

创建时间:2015-04-13 投稿人: 浏览次数:1020

爬厦门大学官网(http://www.xmu.edu.cn)页面上厦大新闻栏目下的标题。这里写图片描述
接下来单击鼠标右键->审查元素->Network->√preserve log->刷新页面,重载网页。
这里写图片描述
滚动条拉到最上面,www.xmu.edu.cn->preview,找到厦大新闻的标签下,发现并没有具体的新闻条目,故看其他Path。往下翻翻翻,哈哈~找到了一个名字是news_text_list.html的文件,听着名字就像是新闻列表,点击进入response,
这里写图片描述
发现里面的数据确实是厦大新闻的内容,所以我们找对啦~
点击headers看下具体信息
这里写图片描述
找到requestURL,复制下,一会儿用~

接下来就是代码代码啦~

第一步看看自己curl得到的网页信息:
这里写图片描述
下面是运行php之后的页面
这里写图片描述
完美的得到了新闻的信息。
接下来就是要对立面的信息信息用explode()函数进行切割,取出需要的信息~

先分析一下信息:
每一个标题都是一个标签。

<a href="http://news.xmu.edu.cn/s/13/t/542/79/42/info162114.htm" title="中化集团原副总裁罗东江畅谈国企市场化改革" target="_blank">» 中化集团原副总裁罗东江畅谈国企市场化改革</a>

而我们要取得信息是title=”这里的内容”,所以我们分两步进行切割。
第一步:以title=“为切割点。
这里写图片描述
运行php得到
这里写图片描述
接下来进行第二次切割。
这里写图片描述
运行之后
这里写图片描述
点击右键->查看网页源代码
这里写图片描述
这样我们就把需要的信息提取出来啦~
大功告成~

声明:该文观点仅代表作者本人,牛骨文系教育信息发布平台,牛骨文仅提供信息存储空间服务。