curl ——爬网页数据

创建时间：2015-04-13 投稿人：浏览次数：1032

爬厦门大学官网（http://www.xmu.edu.cn）页面上厦大新闻栏目下的标题。这里写图片描述
接下来单击鼠标右键->审查元素->Network->√preserve log->刷新页面，重载网页。

滚动条拉到最上面，www.xmu.edu.cn->preview，找到厦大新闻的标签下，发现并没有具体的新闻条目，故看其他Path。往下翻翻翻，哈哈~找到了一个名字是news_text_list.html的文件，听着名字就像是新闻列表，点击进入response，
这里写图片描述
发现里面的数据确实是厦大新闻的内容，所以我们找对啦~
点击headers看下具体信息

找到requestURL，复制下，一会儿用~

接下来就是代码代码啦~

第一步看看自己curl得到的网页信息:
这里写图片描述
下面是运行php之后的页面

完美的得到了新闻的信息。
接下来就是要对立面的信息信息用explode()函数进行切割，取出需要的信息~

先分析一下信息：
每一个标题都是一个标签。

<a href="http://news.xmu.edu.cn/s/13/t/542/79/42/info162114.htm" title="中化集团原副总裁罗东江畅谈国企市场化改革" target="_blank">» 中化集团原副总裁罗东江畅谈国企市场化改革</a>

而我们要取得信息是title=”这里的内容”，所以我们分两步进行切割。
第一步：以title=“为切割点。
这里写图片描述
运行php得到

接下来进行第二次切割。

运行之后

点击右键->查看网页源代码

这样我们就把需要的信息提取出来啦~
大功告成~

声明：该文观点仅代表作者本人，牛骨文系教育信息发布平台，牛骨文仅提供信息存储空间服务。

上一篇：经典抓取网络数据方法效率分析（fsockopen/curl/file_get_contents）
下一篇： curl获取网页内容

热门文章: CTF writeup 2_南邮网络攻防训...; SSM框架——详细整合教程（...; Linux Shell脚本编程－－curl命...; HttpClient使用详解; Java面试题全集（上）; JAVA设计模式之单例模式; java.lang.OutOfMemoryError: PermGen ...; TCP协议中的三次握手和四次...; form表单的两种提交方式，su...; String,StringBuffer与StringBuilder...

最新文章: Java之品优购课程讲义_day20（7）; 剑指 Offer - 8：跳台阶; Netty权威指南_札记02_NIO编程; mysql时间属性之时间戳和datetime之...; 虚拟现实或许可以拯救古埃及的“...; spring cloud服务注册中心eureka---集群...; Java SE 第六章; HTTP请求+数据库; HIDL学习笔记之HIDL C++（第二天）; ubuntu系统下指定tomcat运行时为JDK1.8...