Python：用迭代器和生成器降低程序内存占用率

创建时间：2017-01-12 投稿人：浏览次数：147

情况描述：用一个30行代码的python文件，处理300M的数据，用到的数据结构有：pandas.DataFrame(), list, dict，二重循环，处理完一次写入磁盘。

问题：内存占用率97%-99%，大约1.5G内存，执行时间超过12h。有什么办法可以降低python内存占用率，缩短执行时间吗？

建议一：用xrange生成器，替代range列表

因为rang是list，python在执行时会直接划一块内存来使用，而xrange是采用生成器一个一个的执行。修改之后每个进程的占用内存数稳定在5M左右。内存占用降低的很明显。

range和xrange区别：(1) 类型不同，xrange是<type "xrange"> (2) range返回包含所有元素的列表，xrange返回的是一个生成器，元素逐个被创建 (3) xrange不支持列表切片,进行多次next()迭代，每次都会从头开始。

建议二：多用迭代器，for elem in XXX

迭代器是一个实现了迭代器协议的对象，Python中的迭代器协议就是有next方法的对象会前进到下一结果，而在一系列结果的末尾是，则会引发StopIteration。迭代工具内部会在每次迭代时调用next方法，并且捕捉StopIteration异常来确定何时离开。

在Python中，for循环可以用于Python中的任何类型，包括列表、元祖等等，实际上，for循环可用于任何“可迭代对象”，这其实就是迭代器。

使用迭代器一个显而易见的好处就是：每次只从对象中读取一条数据，不会造成内存的过大开销。

案例：比如要逐行读取一个文件的内容，利用readlines()方法，我们可以这么写：

1 2	for line in open("test.txt").readlines(): print line

这样虽然可以工作，但不是最好的方法。因为他实际上是把文件一次加载到内存中，然后逐行打印。当文件很大时，这个方法的内存开销就很大了。利用file的迭代器，我们可以这样写：

声明：该文观点仅代表作者本人，牛骨文系教育信息发布平台，牛骨文仅提供信息存储空间服务。

热门文章: CTF writeup 2_南邮网络攻防训...; SSM框架——详细整合教程（...; Linux Shell脚本编程－－curl命...; HttpClient使用详解; Java面试题全集（上）; JAVA设计模式之单例模式; java.lang.OutOfMemoryError: PermGen ...; TCP协议中的三次握手和四次...; form表单的两种提交方式，su...; String,StringBuffer与StringBuilder...

最新文章: Java之品优购课程讲义_day20（7）; 剑指 Offer - 8：跳台阶; Netty权威指南_札记02_NIO编程; mysql时间属性之时间戳和datetime之...; 虚拟现实或许可以拯救古埃及的“...; spring cloud服务注册中心eureka---集群...; Java SE 第六章; HTTP请求+数据库; HIDL学习笔记之HIDL C++（第二天）; ubuntu系统下指定tomcat运行时为JDK1.8...