我试图在pandas中读取一个大的csv文件(大约6 GB),但出现内存错误:
内存错误回溯(最近一次调用)
<;ipython-input-58-67A7268771B>;在<;模块>;()
----&燃气轮机;1 data=pd.read_csv('aphro.csv',sep=';')
...
记忆错误:
有什么帮助吗
该错误表明机器内存不足,无法读取整个文件
一次将CSV转换为数据帧。假设不需要中的整个数据集
一次存储所有内存,避免问题的一种方法是在内存中处理CSV
块(通过指定chunksize参数):
chunksize=10**6
对于pd.read_csv中的块(文件名,chunksize=chunksize):
进程(块)
chunksize参数指定每个区块的行数。
(当然,最后一个区块可能包含少于chunksize行。)
熊猫>;=1.2
read\u csvwithchunksize返回上下文管理器,如下所示:
chunksize=10**6
使用pd.read_csv(文件名,chunksize=chunksize)作为读卡器:
对于读卡器中的块:
进程(块)
见GH38225