基于Python的实时爬虫每小时PM2.5等污染物数据

创建时间：2018-03-16 投稿人：浏览次数：245

`01`	`# coding:utf-8`

`02`	`import` `threading`

`03`	`import` `urllib`

`04`	`import` `re,sys`

`05`	`import` `time`

`06`	`import` `hashlib`

`07`	`import` `os`

08

09

`10`	`sys.setdefaultencoding` `=` `"utf-8"`

11

12

`13`	`def` `fetchdata(city):`

`14`	`print` `city`

`15`	`md5` `=` `""`

`16`	`while` `True:`

`17`	`temp="http://www.pm25.in/"+` `city#爬虫的站为：www.pm25.in,只要之前IP没有被该网站封了，就可以爬，假如被封了请申请API`

`18`	`url` `=` `urllib.urlopen(temp)`

`19`	`text` `=` `url.read()`

20

21

`22`	`shuju` `=` `re.findall("<td>(.*?)</td>",text,re.S)#正则pm2.5等污染物数据`

`23`	`data_time` `=` `re.findall("\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}",text,re.S)#正则寻找当前时间例如，2016-04-13 20:10:00`

24

25

`26`	`md52` `=` `hashlib.md5()`

`27`	`md52.update(data_time[0])`

28

`29`	`if` `md52.hexdigest()` `==` `md5:`

`30`	`time.sleep(3600)#自动休眠，每一小时爬一次数据`

31


            
                            
            声明：该文观点仅代表作者本人，牛骨文系教育信息发布平台，牛骨文仅提供信息存储空间服务。
            
                
                    上一篇：
			
				linux wget 命令用法详解(附实例说明)			
                    下一篇：
			
				Linux wget详解			
                
            
                    
        
            
                                    
                                
                
                
            

                        
                热门文章
                                
			
				CTF writeup 2_南邮网络攻防训...
                                
			
				SSM框架——详细整合教程（...
                                
			
				Linux Shell脚本编程－－curl命...
                                
			
				HttpClient使用详解			
                                
			
				Java面试题全集（上）			
                                
			
				JAVA设计模式之单例模式			
                                
			
				java.lang.OutOfMemoryError: PermGen ...
                                
			
				TCP协议中的三次握手和四次...
                                
			
				form表单的两种提交方式，su...
                                
			
				String,StringBuffer与StringBuilder...
                            
            
                        
                最新文章 
                                Java之品优购课程讲义_day20（7）
                                剑指 Offer - 8：跳台阶
                                Netty权威指南_札记02_NIO编程
                                mysql时间属性之时间戳和datetime之...
                                虚拟现实或许可以拯救古埃及的“...
                                spring cloud服务注册中心eureka---集群...
                                Java SE 第六章
                                HTTP请求+数据库
                                HIDL学习笔记之HIDL C++（第二天）
                                ubuntu系统下指定tomcat运行时为JDK1.8...
                            
                        
        
    


    
        
            
                网站首页
                tags
            
            
                学习手册
                html5
                css3
                THINKPHP 5.0 手册
            
            
                在线课程
                牛骨文前端
                网站建设
                SEO名词解释
            
        
        
            
                
                    服务热线
                    电话：175-0840-8227
                    上班时间：9:00-18:00
                
            
            
                
                关注微信公众号
            
        
     

copyright © 2008-2026 亿联网络 版权所有 备案号：粤ICP备14031511号-2