从DocumentTermMatrix R中topicmodels删除空文件？(Remove emp

我做的使用topicmodels包R.我创建一个语料库对象，做一些基本的预处理，然后创建一个DocumentTermMatrix主题建模：

corpus <- Corpus(VectorSource(vec), readerControl=list(language="en")) 
corpus <- tm_map(corpus, tolower)
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeWords, stopwords("english"))
corpus <- tm_map(corpus, stripWhitespace)
corpus <- tm_map(corpus, removeNumbers)
...snip removing several custom lists of stopwords...
corpus <- tm_map(corpus, stemDocument)
dtm <- DocumentTermMatrix(corpus, control=list(minDocFreq=2, minWordLength=2))

然后进行LDA：

LDA(dtm, 30)

这对LDA（）最终调用返回错误

  "Each row of the input matrix needs to contain at least one non-zero entry".

我认为这意味着是预处理后没有条款中至少有一个文件。有一种简单的方法来删除包含从DocumentTermMatrix没有条件的文件？

我找了topicmodels包的文档中发现的功能removeSparseTerms，从而消除不出现任何文件条款，但没有模拟去除文档。

Answer 1:

"Each row of the input matrix needs to contain at least one non-zero entry"

的错误意味着稀疏矩阵包含没有条目（字）的行。一种想法是计算单词的由行总和

rowTotals <- apply(dtm , 1, sum) #Find the sum of words in each Document
dtm.new   <- dtm[rowTotals> 0, ]           #remove all docs without words

Answer 2:

agstudy的回答的伟大工程，但使用它一个缓慢的电脑上证明了轻度问题。

tic()
row_total = apply(dtm, 1, sum)
dtm.new = dtm[row_total>0,]
toc()
4.859 sec elapsed

（这是用4000x15000 DTM完成）

瓶颈似乎施加sum()到稀疏矩阵。

由创建的文档长期矩阵tm包中包含的名称i和j，这是其中条目是在稀疏矩阵指数。如果dtm$i不包含特定的行指数p ，然后排p是空的。

tic()
ui = unique(dtm$i)
dtm.new = dtm[ui,]
toc()
0.121 sec elapsed

ui包含所有非零指数，由于dtm$i已经下令， dtm.new将在同一数量级dtm 。性能增益可能无所谓较小的文档词矩阵，但有可能成为较大的矩阵显著。

Answer 3:

这只是对agstudy给出的答案阐述。

相反，从DTM矩阵删除空行，我们可以找出在我们的语料库中具有零长度的文件，直接从语料库中删除的文件，只有非空的文件进行第二DTM之前。

这是为了保持1有用：在DTM和语料库之间1的对应关系。

empty.rows <- dtm[rowTotals == 0, ]$dimnames[1][[1]] corpus <- corpus[-as.numeric(empty.rows)]

Answer 4:

单从DTM删除稀疏条款和所有将工作做好。

dtm <- DocumentTermMatrix(crude, sparse=TRUE)

Answer 5:

只是小编达里奥拉康的答案：

empty.rows <- dtm[rowTotals == 0, ]$dimnames[1][[1]]

将收集的记录的id ，而非订单号。试试这个：

library(tm)
data("crude")
dtm <- DocumentTermMatrix(crude)
dtm[1, ]$dimnames[1][[1]] # return "127", not "1"

如果您构建具有连续编号您自己的语料，经过数据清理一些文件可以被删除，编号也将被打破。所以，最好使用id直接：

corpus <- tm_filter(
  corpus,
  FUN = function(doc) !is.element(meta(doc)$id, empty.rows))
  # !( meta(doc)$id %in% emptyRows )
)

文章来源: Remove empty documents from DocumentTermMatrix in R topicmodels?