微信公众号文章内容阅读数采集抓取

创建时间：2017-01-12 投稿人：浏览次数：252

微信小程序公众号订阅号，历史热门文章内容，留言阅读数量点赞数量等数据都可以采集抓取，怎样做？方法会很难吗？楚江数据 p02721606 给你几个微信公众号爬虫，微信数据采集爬取so easy!

1.基于搜狗微信搜索的微信公众号爬虫

a. 项目地址：https://github.com/Chyroc/WechatSogou

b. 基于搜狗微信搜索的微信公众号爬虫接口开发，可获取文章的临时链接，获取微信公众号的最近10篇文章

2.微信公众号爬虫 (基于中间人攻击的爬虫核心实现,支持批量爬取公众号所有历史文章)

a. 项目地址：https://github.com/sundy-li/wechat_spider

b. 通过Man-In-Middle 代理方式获取微信服务端返回,自动模拟请求自动分页,抓取对应点击的所有历史文章

3.使用Python实现的微信公众号爬虫

a. 项目地址：https://github.com/bowenpay/wechat-spider

4.爬取指定微信公众号的全部历史文章，使用 JS 实现

a. 项目地址：https://github.com/iamyy/wechat-spider

b. 目前需要手动获取 cookie 等验证信息

5.基于搜狗微信入口的微信爬虫程序，使用Python实现。

a. 项目地址：https://github.com/CoolWell/wechat_spider

b. 由基于phantomjs的python实现。使用了收费的动态代理。采集包括文章文本、阅读数、点赞评论以及评论赞数。效率：500公众号/小时。根据采集的公众号划分为多线程，可以实现并行采集。

6.Java 基于selenium抓取搜狗微信公众号文章

a. 项目地址：https://github.com/badaozhai/wechat_webdriver_spider

访问接口需要的参数：

uin : 用户对于公众号的唯一ID, 本来是一个数字, 传的是base64之后的结果；

key : 与公众号和uin绑定, 过期时间大概是半小时；

pass_ticket: 另外一个验证码, 与uin进行绑定；

req_id: 在文章里HTML里, 每次请求会不一样, 用来构成获取阅读点赞接口的RequestBody, 一次有效；

获取阅读点赞接口有频率限制, 测试的结果是一个微信号5分钟可以查看30篇文章的阅读点赞

【楚江数据】有更多互联网网站app数据采集，爬虫开发技巧及思路，数据、图片批量采集服务!欢迎交流，微信 p02721606，或淘宝搜索店铺“楚江数据”。

参考文章：

声明：该文观点仅代表作者本人，牛骨文系教育信息发布平台，牛骨文仅提供信息存储空间服务。

热门文章: CTF writeup 2_南邮网络攻防训...; SSM框架——详细整合教程（...; Linux Shell脚本编程－－curl命...; HttpClient使用详解; Java面试题全集（上）; JAVA设计模式之单例模式; java.lang.OutOfMemoryError: PermGen ...; TCP协议中的三次握手和四次...; form表单的两种提交方式，su...; String,StringBuffer与StringBuilder...

最新文章: Java之品优购课程讲义_day20（7）; 剑指 Offer - 8：跳台阶; Netty权威指南_札记02_NIO编程; mysql时间属性之时间戳和datetime之...; 虚拟现实或许可以拯救古埃及的“...; spring cloud服务注册中心eureka---集群...; Java SE 第六章; HTTP请求+数据库; HIDL学习笔记之HIDL C++（第二天）; ubuntu系统下指定tomcat运行时为JDK1.8...