我读了大量.txt
文件(> 1GB)为R
通过fread
。 我读从直接在文件.zip
档案,通过bash命令:
base = fread('unzip -p Folder.zip File.txt', sep = '|', header = FALSE,
stringsAsFactors = FALSE, na.strings="", quote = "", col.names = col_namesMain)
该文本文件通过分隔条目|
因此,一个典型的行可能看起来像:
RRX|||02020||333293||||12123
不过,也有很多地方空项是由隔板与他们之间没有空格,如表示||
在上面的例子线。
当使用fread
,这些相邻的分隔通常在读完全,使得上述线返回以下条目:
RRX, ||02020|, 333293|||, 12123
当它应该读为:
RRX, NA, NA, 02020, NA, 333293, NA, NA, NA, 12123
我已经尝试使用read.table
用选项skipNul = TRUE
,这完美的作品。 然而,似乎没有类似的任何选项skipNul
的fread
。 我更喜欢使用fread
在read.table
如果可能的话,因为我有几个非常大的文件。 尽管我的搜索,我还没有碰到过这个问题的讨论。 任何帮助非常赞赏。