如何读取带有熊猫的大型csv文件?

我试图在pandas中读取一个大的csv文件(大约6 GB),但出现内存错误:

内存错误回溯(最近一次调用)
<ipython-input-58-67A7268771B>在<模块>()
----&燃气轮机;1 data=pd.read_csv('aphro.csv',sep=';')
...
记忆错误:

有什么帮助吗

该错误表明机器内存不足,无法读取整个文件
一次将CSV转换为数据帧。假设不需要中的整个数据集
一次存储所有内存,避免问题的一种方法是在内存中处理CSV
块(通过指定chunksize参数):

chunksize=10**6
对于pd.read_csv中的块(文件名,chunksize=chunksize):
进程(块)

chunksize参数指定每个区块的行数。
(当然,最后一个区块可能包含少于chunksize行。)


熊猫>=1.2

read\u csvwithchunksize返回上下文管理器,如下所示:

chunksize=10**6
使用pd.read_csv(文件名,chunksize=chunksize)作为读卡器:
对于读卡器中的块:
进程(块)

见GH38225

发表评论