CSV和XLSX文件导入到大熊猫的数据帧:速度问题(csv & xlsx files import

2019-08-31 23:40发布

从XLSX文件中读取数据(只是20000号)需要永远:

import pandas as pd
xlsxfile = pd.ExcelFile("myfile.xlsx")
data = xlsxfile.parse('Sheet1', index_col = None, header = None)

需要约9秒。

如果我保存在CSV格式相同的文件需要25毫秒〜:

import pandas as pd
csvfile = "myfile.csv"
data = pd.read_csv(csvfile, index_col = None, header = None)

这是openpyxl的问题还是我失去了一些东西? 是否有其它方法吗?

Answer 1:

xlrd拥有的.xlsx文件的支持,而这个回答表明,至少在的.xlsx支持xlrd的测试版比openpyxl更快。

熊猫的当前稳定版本(11.0)使用openpyxl为的.xlsx文件,但是这已被更改为下一个版本。 如果你想给它一个去,您可以从开发人员版的GitHub



文章来源: csv & xlsx files import to pandas data frame: speed issue