Python生成器入门:用“按需生产”思维处理海量数据
bigegpt 2025-05-05 14:12 12 浏览
想象你要制作1000个蛋糕:
- 列表的做法:先把1000个蛋糕全做好堆在厨房里,占满空间还容易变质
- 生成器的做法:有人下单时才做一个蛋糕,厨房永远只有1个蛋糕,不占空间还新鲜
这就是Python生成器的核心逻辑——按需生成数据,绝不提前囤积。本文将用漫画式思维和极简代码,带新手彻底理解这个“内存救星”。
一、为什么列表处理大数据会“卡爆”?
案例:生成1亿个数字
# 用列表存储1亿个数字(灾难现场!)
big_list = [i for i in range(100000000)] # 电脑可能直接卡死
问题根源:
- 列表像一个“超级仓库”,必须把所有数据一次性存进去
- 数据量越大,仓库越占空间,小电脑根本扛不住!
二、生成器:数据界的“自动贩卖机”
生成器就像一台自动贩卖机:
- 你按下按钮(调用next())
- 贩卖机现做一份零食(生成一个数据)
- 绝不提前生产堆在机器里
1. 生成器表达式:贩卖机的简易版
语法:
(数据生成规则 for 原材料 in 供应列表) # 用()代替列表的[]
示例:生成1-5的平方贩卖机
square_gen = (x**2 for x in range(1, 6)) # 先造一台贩卖机,不生产任何数据
如何买零食?
print(next(square_gen)) # 按下按钮:得到1(贩卖机生产第1个数据)
print(next(square_gen)) # 再按按钮:得到4(生产第2个数据)
# 每次调用next(),贩卖机才生产一个数据,内存始终只有1个数据!
2. 生成器函数:贩卖机的定制版
如果需要复杂的生产流程(如筛选、计算),可以用函数造贩卖机:
语法:
def 贩卖机函数():
for 原材料 in 供应列表:
if 原材料符合条件:
yield 加工后的产品 # yield是“出货口”,每次出一个产品后暂停
示例:生成100以内的偶数贩卖机
def even_gen():
for x in range(100):
if x % 2 == 0:
yield x # 出货口:给我一个偶数!
gen = even_gen() # 造好贩卖机
print(next(gen)) # 0(第1次出货)
print(next(gen)) # 2(第2次出货)
三、生成器的超能力:内存占用永不爆炸
实验对比:列表vs生成器的内存消耗
数据量 | 列表占用内存(Python实测) | 生成器占用内存 |
10个数字 | 约0.04KB | 约0.0008KB |
100万个数字 | 约40KB | 约0.0008KB |
1亿个数字 | 约4000KB(4MB) | 约0.0008KB |
原因:
- 列表:存1亿个数字 → 每个数字占4字节 → 总内存4亿字节=40MB
- 生成器:只存“从0开始,每次+1”的规则 → 仅需几十字节记录规则
四、生成器的3个经典使用场景
场景1:处理超大文件(如10GB日志)
传统方法(错误示范):
with open('big.log', 'r') as f:
lines = f.readlines() # 把10GB文件全读进内存,电脑直接罢工!
生成器方法(正确做法):
def read_large_file(file_path):
with open(file_path, 'r') as f:
for line in f: # 文件对象本身就是生成器,逐行读取
yield line.strip() # 每次只存1行数据,内存稳如老狗!
# 逐行处理:统计包含"ERROR"的行数
error_count = 0
for line in read_large_file('big.log'):
if "ERROR" in line:
error_count += 1
场景2:实时生成数据(如模拟传感器)
import time
def live_sensor():
while True:
yield time.strftime("%H:%M:%S") # 无限生成当前时间
time.sleep(1) # 每秒生成1个数据
# 使用:打印实时时间,不存历史数据
sensor = live_sensor()
print(next(sensor)) # 15:30:01
print(next(sensor)) # 15:30:02
# 内存始终只存最新1个时间,绝不积压!
场景3:数据流水线(过滤→转换→分析)
# 生成器链:数据像流水一样逐个处理
def generate_data():
yield 1; yield 2; yield 3; yield 4 # 生成原始数据
def filter_even(data):
for x in data:
if x % 2 == 0:
yield x # 过滤偶数
def convert_to_str(data):
for x in data:
yield f"数字{x}" # 转换格式
# 流水线:生成→过滤→转换
pipeline = convert_to_str(filter_even(generate_data()))
for item in pipeline:
print(item) # 输出:"数字2", "数字4"
五、新手必看!生成器的3个“不能做”
不能做1:用索引访问生成器
gen = (x for x in range(5))
print(gen[2]) # 报错!生成器不能像列表一样用索引
# 正确做法:用for循环遍历或next()逐个获取
不能做2:重复使用耗尽的生成器
gen = (x for x in range(3))
print(next(gen)) # 0
print(next(gen)) # 1
print(next(gen)) # 2
print(next(gen)) # 报错!生成器已空
# 解决办法:重新创建生成器对象 gen = (x for x in range(3))
不能做3:用生成器存储需要反复访问的数据
# 错误场景:需要多次遍历数据
gen = (x for x in range(5))
print(sum(gen)) # 10(第一次遍历,生成器耗尽)
print(sum(gen)) # 0(第二次遍历,没有数据了!)
# 正确做法:用列表存储需要反复使用的数据
lst = [x for x in range(5)]
print(sum(lst)) # 10
print(sum(lst)) # 10(列表数据一直都在)
六、实战练习:用生成器计算10000以内的质数
需求:生成10000以内的所有质数,要求内存占用小于1MB
步骤1:定义质数判断函数
def is_prime(n):
if n < 2:
return False
for i in range(2, int(n**0.5)+1):
if n % i == 0:
return False
return True
步骤2:用生成器函数生成质数
def prime_generator(max_num):
for n in range(2, max_num+1):
if is_prime(n):
yield n # 是质数就出货!
步骤3:遍历生成器并统计
primes = prime_generator(10000)
print(f"10000以内的质数有:{list(primes)}")
# 内存占用:生成器全程仅存储当前判断的数字,远小于1MB!
总结:生成器的“三句口诀”
- 列表是仓库,生成器是流水线:列表存所有数据,生成器逐个造数据
- 用for循环替代next():for x in 生成器: 比手动调用next()更简单
- 大数据用生成器,小数据用列表:处理几万个数据用列表,百万级数据用生成器
给新手的练习建议:
- 用生成器表达式生成1-100的奇数序列
- 尝试用生成器函数实现斐波那契数列(提示:用a, b = b, a+b)
- 思考:如何用生成器处理CSV文件的逐行解析?
生成器是Python中“聪明处理数据”的关键工具,学会它能让你在处理大数据时游刃有余。下次我们将深入迭代器原理,揭开生成器背后的神秘面纱,记得关注哦!
相关推荐
- 或者这些Joplin插件也可以帮助你的笔记应用再一次强大
-
写在前面距离上次分享《搭建私有全平台多端同步笔记,群晖NAS自建JoplinServer服务》已过去一段时间,大家是否开始使用起来了呢?如果你和我一样已经使用过Joplin有一段时间了,那或许你也会...
- Three.JS教程4 threejs中的辅助类
-
一、辅助类简介Three.js提供了一些辅助类(Helpers)以帮助我们更容易地调试、可视化场景中的元素。ArrowHelepr:创建箭头辅助器;AxisHelper:创建坐标轴辅助器;BoxH...
- 第2章 还记得点、线、面吗(二)(第二章还能敲钟吗)
-
glbgltf模型(webvrmodel)-gltf模型下载定制,glb模型下载定制,三维项目电商网站在线三维展示,usdz格式,vr模型网,网页VR模型下载,三维模型下载,webgl网页模型下载我...
- 如何检查Linux系统硬件信息?从CPU到显卡,一网打尽!
-
你可能会问:“我为什么要关心硬件信息?”答案很简单:硬件是Linux系统的根基,了解它可以帮你解决很多实际问题。比如:性能调优:知道CPU核心数和内存大小,才能更好地调整程序运行参数。故障排查:系统卡...
- SpriteJS:图形库造轮子的那些事儿
-
从2017年到2020年,我花了大约4年的时间,从零到一,实现了一个可切换WebGL和Canvas2D渲染的,跨平台支持浏览器、SSR、小程序,基于DOM结构和支持响应式的,高...
- 平时积累的FPGA知识点(6)(fpga经典应用100例)
-
平时在FPGA群聊等积累的FPGA知识点,第六期:1万兆网接口,发三十万包,会出现掉几包的情况,为什么?原因:没做时钟约束,万兆网接口的实现,本质上都是高速serdes,用IP的话,IP会自带约束。...
- 芯片逻辑调度框架设计 都需要那些那些软件工具
-
设计芯片逻辑调度框架通常需要使用以下软件工具:1.逻辑设计工具:例如Vivado、Quartus、SynopsysDesignCompiler等,用于设计和实现逻辑电路。2.仿真工具:例如Mo...
- ZYNQ与DSP之间EMIF16通信(正点原子领航者zynq之fpga开发指南v3)
-
本文主要介绍说明XQ6657Z35-EVM高速数据处理评估板ZYNQ与DSP之间EMIF16通信的功能、使用步骤以及各个例程的运行效果。[基于TIKeyStone架构C6000系列TMS320C6...
- 好课推荐:从零开始大战FPGA(从零开始的冒险4399)
-
从零开始大战FPGA引子:本课程为“从零开始大战FPGA”系列课程的基础篇。课程通俗易懂、逻辑性强、示例丰富,课程中尤其强调在设计过程中对“时序”和“逻辑”的把控,以及硬件描述语言与硬件电路相对应的“...
- 业界第一个真正意义上开源100 Gbps NIC Corundum介绍
-
来源:内容由「网络交换FPGA」编译自「FCCM2020」,谢谢。FCCM2020在5月4日开始线上举行,对外免费。我们有幸聆听了其中一个有关100G开源NIC的介绍,我们对该文章进行了翻译,并对其中...
- 高层次综合:解锁FPGA广阔应用的最后一块拼图
-
我们为什么需要高层次综合高层次综合(High-levelSynthesis)简称HLS,指的是将高层次语言描述的逻辑结构,自动转换成低抽象级语言描述的电路模型的过程。所谓的高层次语言,包括C、C++...
- Xilinx文档编号及其内容索引(部分)
-
Xilinx文档的数量非常多。即使全职从事FPGA相关工作,没有几年时间不可能对器件特性、应用、注意事项等等有较为全面的了解。本文记录了我自使用Xilinx系列FPGA以来或精读、或翻阅、或查询过的文...
- Xilinx Vivado联合Modelsim软件仿真
-
引言:Xilinx公司Vivado开发软件自带仿真工具,可以实现一般性能的FPGA软件仿真测试,其测试执行效率以及性能都不如第三方专用仿真软件Modelsim强。本文我们介绍下如何进行Vivado20...
- 体育动画直播是怎么做出来的?从数据到虚拟赛场的科技魔法!
-
你是否见过这样的比赛直播?没有真实球员,却能看梅西带球突破?足球比赛变成动画版,但数据100%真实?电竞比赛用虚拟形象直播,选手操作实时同步?这就是体育动画直播——一种融合实时数据、游戏引擎和AI的...
- Dialogue between CPC and political parties of neighboring countries held in Beijing
-
BEIJING,May26(Xinhua)--TheCommunistPartyofChina(CPC)inDialoguewithPoliticalPartiesof...
- 一周热门
- 最近发表
- 标签列表
-
- mybatiscollection (79)
- mqtt服务器 (88)
- keyerror (78)
- c#map (65)
- resize函数 (64)
- xftp6 (83)
- bt搜索 (75)
- c#var (76)
- mybatis大于等于 (64)
- xcode-select (66)
- mysql授权 (74)
- 下载测试 (70)
- linuxlink (65)
- pythonwget (67)
- androidinclude (65)
- libcrypto.so (74)
- logstashinput (65)
- hadoop端口 (65)
- vue阻止冒泡 (67)
- jquery跨域 (68)
- php写入文件 (73)
- kafkatools (66)
- mysql导出数据库 (66)
- jquery鼠标移入移出 (71)
- 取小数点后两位的函数 (73)