你如何初始化一个csr_matrix一个gensim语料库变量?(How do you initia

2019-08-18 01:59发布

我有X作为我获得使用scikit的TFIDF矢量器是阵列的csr_matrix,和y

我的计划是创建使用LDA,但是,我没有找到如何初始化gensim的语料库变量,X为csr_matrix功能。 换句话说,我不想下载一个语料库如图gensim的文档中也不进行X一片茂密的矩阵,因为它会消耗大量的内存和计算机都挺。

总之,我的问题有以下几种,

  1. 你如何初始化gensim语料库因为我有一个csr_matrix(疏)代表全语料库?
  2. 如何使用LDA提取特征?

Answer 1:

Gensim有一个半隐藏良好的功能,可那种为你做这个:

http://radimrehurek.com/gensim/matutils.html#gensim.matutils.Sparse2Corpus

“类gensim.matutils.Sparse2Corpus(稀疏,documents_columns =真)转换在scipy.sparse格式的矩阵为流gensim语料库”。

我已经有一些成功使用与CountVectorizer提取的语料,然后装入gensim。



文章来源: How do you initialize a gensim corpus variable with a csr_matrix?