通过read.big.matrix在R读取大数据(Reading big data in R by

2019-09-23 11:46发布

我正在使用R读取尺寸3131875 * 5的数据read.big.matrix 。 我的数据同时包含字符和数字列,包括日期变量。 这是我应该使用的命令是

as1 <- read.big.matrix("C:/Documents and Settings/Arundhati.Mukherjee/My Documents/Arundhati/big data/MB07_Arundhati/sample2.txt",
                       header=TRUE, 
                       backingfile="session.bin",
                       descriptorfile="session.desc",
                       type = NA)

但是, type = NA不是R中接受在这种情况下,我得到一个错误:

Error in filebacked.big.matrix(nrow = nrow, ncol = ncol, type = type,  : 
  Problem creating filebacked matrix.
In addition: Warning messages:
1: In na.omit(as.integer(firstLineVals)) : NAs introduced by coercion
2: In na.omit(as.double(firstLineVals)) : NAs introduced by coercion
3: In read.big.matrix("C:/Documents and Settings/Arundhati.Mukherjee/My Documents/Arundhati/big data/MB07_Arundhati/sample2.txt",  :
  Because type was not specified, we chose double based on the first line of data.

我需要知道应该是什么type这里。 我试图用类似的选项double但这抛出我同样的错误。

请帮我。

Answer 1:

?read.big.matrix

文件必须只包含一个原子类型(所有整数,例如)。

因此,您将无法在数据与字符,数字,整数,日期等的组合来读取你可以使用不同的程序进行转换的字符变量整数表示做了一些工作的文件,例如(如转换为因子R)。

编辑:

在bigmemory网站有使用python脚本来改变文字信息整数预处理数据的例子。 该脚本是针对特定数据集写的,但也许你可以使用它作为您的数据的指引。



文章来源: Reading big data in R by read.big.matrix
标签: r r-bigmemory