如何将类似的URL使用DBSCAN算法。 我见过很多的数据集,但没有一个是对的URL,我想采取类似类型的URL和组它在一起。 在这里,我无法知道距离(EPS)和minpoints可以进行分组的URL的数量。
Answer 1:
DBSCAN需要的距离函数和用于检测相似的对象的阈值。
因此,继续前进,首先需要定义一个适当的距离函数和阈值,那么我们可以帮助您与DBSCAN(但你应该能够找到可以推广的任意距离函数DBSCAN实现)。
关键的挑战是距离,这是你的,因为我们不知道自己想要得到什么。 这是非常主观的,我们只是不知道你想要什么或需要。
文章来源: How to apply DBSCAN algorithm on grouping of similar url [closed]