我有我的硬盘,我的VPS上分割文件的9GB只有4GB内存。
我怎样才能向量化所有的数据,而在初始化加载所有语料库设置? 是否有任何示例代码?
我的代码如下:
contents = [open('./seg_corpus/' + filename).read()
for filename in filenames]
vectorizer = CountVectorizer(stop_words=stop_words)
vectorizer.fit(contents)
我有我的硬盘,我的VPS上分割文件的9GB只有4GB内存。
我怎样才能向量化所有的数据,而在初始化加载所有语料库设置? 是否有任何示例代码?
我的代码如下:
contents = [open('./seg_corpus/' + filename).read()
for filename in filenames]
vectorizer = CountVectorizer(stop_words=stop_words)
vectorizer.fit(contents)
试试这个,而不是加载所有文本到内存中,你可以通过只处理到文件放到fit
方法,但是你必须指定input='file'
中CountVectorizer
构造函数。
contents = [open('./seg_corpus/' + filename)
for filename in filenames]
vectorizer = CountVectorizer(stop_words=stop_words, input='file')
vectorizer.fit(contents)