牛骨文教育服务平台(让学习变的简单)

牛骨文首页

博文笔记

当前位置:
牛骨文教育服务平台
>
博文笔记
>
phpQuery采集乱码问题解决方案

phpQuery采集乱码问题解决方案

创建时间：2016-01-26 投稿人：浏览次数：190

今天写了一个采集程序，去网上查了查，phpQuery比较好用（没用过啊），就下来试试。

结果，好用是好用（曾经用curl写了一个采集程序，采集某汽车网站所有品牌车系车型，当时没写过爬虫，因为捉急也没考虑其它方法，所有的数据都是正则匹配出来的，泪~~~）

貌似偏题了啊。

好用是好用，就是采集下来的内容是特么乱码啊。

去网上找了好久，最终得到一个略靠谱的解释，和循着这个解释能得到结果的答案。

原因是phpQuery认不清目标网页是什么编码，即找不到meta属性的时候，会默认转换成iso-8859-1的格式。

所以乱码么，需要先从iso-8859-1的格式转换成utf-8的格式，再转换成GBK的格式。

就能得到满意的结果了。

如下：

$t = pq("h1#h1title")->text();
$t = mb_convert_encoding($t,"ISO-8859-1","utf-8");
$t = mb_convert_encoding($t,"utf-8","GBK");
echo $t;

声明：该文观点仅代表作者本人，牛骨文系教育信息发布平台，牛骨文仅提供信息存储空间服务。

上一篇： QueryList是一套简洁、优雅的PHP采集工具（爬虫），基于phpQuery。
下一篇： phpQuery乱码解决经验分享

热门文章: CTF writeup 2_南邮网络攻防训...; SSM框架——详细整合教程（...; Linux Shell脚本编程－－curl命...; HttpClient使用详解; Java面试题全集（上）; JAVA设计模式之单例模式; java.lang.OutOfMemoryError: PermGen ...; TCP协议中的三次握手和四次...; form表单的两种提交方式，su...; String,StringBuffer与StringBuilder...

最新文章: Java之品优购课程讲义_day20（7）; 剑指 Offer - 8：跳台阶; Netty权威指南_札记02_NIO编程; mysql时间属性之时间戳和datetime之...; 虚拟现实或许可以拯救古埃及的“...; spring cloud服务注册中心eureka---集群...; Java SE 第六章; HTTP请求+数据库; HIDL学习笔记之HIDL C++（第二天）; ubuntu系统下指定tomcat运行时为JDK1.8...

copyright © 2008-2026 亿联网络版权所有备案号：粤ICP备14031511号-2