如何像torrentz.eu网站收集的内容?(How do websites like torren

2019-09-22 09:34发布

我想知道一些搜索网站,如何让他们的内容。 我在标题中使用的“torrentz.eu”的例子,因为它从多个来源的内容。 我想知道这是什么系统落后; ?他们“只是”解析所有他们所支持的网站,然后展示的内容? 或者使用一些网络服务? 或两者?

Answer 1:

您正在寻找爬行的方面信息检索 。

基本上是爬行:给定一组初始S的网站,试图通过探索链接(查找展开它传递闭包 1)。

有些网站还使用集中爬虫 ,如果他们试图指数只从第一名网的一个子集。

PS有些网站做的都不是,并且使用所提供的服务谷歌自定义搜索API / 雅虎老板 / 冰Deveoper的API(为的学费,),用自己的指数,而不是创建一个由自己。

PPS这提供了一个理论方法,如何能够做到这一点,我不知道该网站提到如何实际工作。


(1)由于时间的问题,传递闭包通常不会发现的事,但足够接近它。



文章来源: How do websites like torrentz.eu collect their content?