我试图在一个非常大的设定距离的执行fastclust,但运行了一个问题。
我有一个非常大的CSV文件(约91万行这样一个循环时间过长的R)的关键字(约50,000独特的关键字),当我读入一个data.frame看起来像之间的相似性:
> df
kwd1 kwd2 similarity
a b 1
b a 1
c a 2
a c 2
这是一个稀疏的清单,我可以将其转换成使用稀疏矩阵()稀疏矩阵:
> myMatrix
a b c
a . . .
b 1 . .
c 2 . .
然而,当我尝试使用as.dist()把它变成一个DIST对象,我从R.我已经阅读这里的其他DIST问题的错误是,“问题是过大”,但代码他人建议不为我上面的例子中数据集的工作。
谢谢你的帮助!