CSV和XLSX文件导入到大熊猫的数据帧：速度问题(csv & xlsx files import

2019-08-31 23:40发布

站内文章 / 前端开发

37 0

女 | 书童

私信

从XLSX文件中读取数据（只是20000号）需要永远：

import pandas as pd
xlsxfile = pd.ExcelFile("myfile.xlsx")
data = xlsxfile.parse('Sheet1', index_col = None, header = None)

需要约9秒。

如果我保存在CSV格式相同的文件需要25毫秒〜：

import pandas as pd
csvfile = "myfile.csv"
data = pd.read_csv(csvfile, index_col = None, header = None)

这是openpyxl的问题还是我失去了一些东西？是否有其它方法吗？

Answer 1:

xlrd拥有的.xlsx文件的支持，而这个回答表明，至少在的.xlsx支持xlrd的测试版比openpyxl更快。

熊猫的当前稳定版本（11.0）使用openpyxl为的.xlsx文件，但是这已被更改为下一个版本。如果你想给它一个去，您可以从开发人员版的GitHub

文章来源: csv & xlsx files import to pandas data frame: speed issue

标签： python csv pandas xlsx openpyxl

一夜七次

女 | 书童

私信

Ta的文章更多文章

0条评论

还没有人评论过~