所以,我试图用topicmodels
包R
(100个主题上的语料库〜6400页的文件,这是每个〜1000个字)。 该工艺运行,然后死了,我想是因为它在运行内存不足。
所以我尽量缩小该文件项矩阵的大小lda()
函数作为输入; 我想我能做到这一点做使用minDocFreq
功能时,我产生我的文档词矩阵。 但是,当我使用它,它似乎没有任何区别。 下面是一些代码:
这里是代码的相关位:
> corpus <- Corpus(DirSource('./chunks/'),fileEncoding='utf-8')
> dtm <- DocumentTermMatrix(corpus)
> dim(dtm)
[1] 6423 4163
# So, I assume this next command will make my document term matrix smaller, i.e.
# fewer columns. I've chosen a larger number, 100, to illustrate the point.
> smaller <- DocumentTermMatrix(corpus, control=list(minDocFreq=100))
> dim(smaller)
[1] 6423 41613
相同的尺寸,和相同的列数(即,相同数目的术语)。
任何意义上,我做错了什么? 谢谢。