牛骨文教育服务平台(让学习变的简单)
博文笔记

基于Python的实时爬虫每小时PM2.5等污染物数据

创建时间:2018-03-16 投稿人: 浏览次数:234
01# coding:utf-8
02import threading
03import urllib
04import re,sys
05import time
06import hashlib
07import os
08   
09   
10sys.setdefaultencoding = "utf-8"
11   
12   
13def fetchdata(city):
14    print city
15    md5 = ""
16    while True:
17        temp="http://www.pm25.in/"+ city#爬虫的站为:www.pm25.in,只要之前IP没有被该网站封了,就可以爬,假如被封了请申请API
18        url = urllib.urlopen(temp)
19        text = url.read()
20   
21   
22        shuju = re.findall("<td>(.*?)</td>",text,re.S)#正则pm2.5等污染物数据
23        data_time = re.findall("\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}",text,re.S)#正则寻找当前时间 例如,2016-04-13 20:10:00
24   
25   
26        md52 = hashlib.md5()
27        md52.update(data_time[0])
28   
29        if md52.hexdigest() == md5:
30            time.sleep(3600)#自动休眠,每一小时爬一次数据
31            
声明:该文观点仅代表作者本人,牛骨文系教育信息发布平台,牛骨文仅提供信息存储空间服务。