我想“蜘蛛”使用TamperMonkey /使用Javascript / jQuery和整理它到一个页面一个站点一个小的数据集。
我写了一个脚本TM(当我打开目标页面时触发)执行以下操作:
- 搜索页面的特定类型的链路(通常大约8链接)
- “跟随”发现了新的一页的各个环节,找到并跟随从那里一个链接
- 提取我感兴趣的是和“合并”成原来的页面,我打开了数据。
通过这些行动迭代通常会导致16(8×2链接)的HTTP请求的站点被触发。 如果我手动调用它(通过控制台),以在一个步骤的方式执行的操作的所有16个数据,我写的代码工作正常。
但是,如果我尝试只设置一个循环起来,让代码“做的事情”我知道您请求的页面后约4次迭代没有响应型HTML回来(状态= OK)。 我猜该网站是保护自身免受某种XSRF攻击或仅仅是真正的慢?
我的问题是什么是降低我从网站上请求的数据在它速度的首选技术? 我认为建筑的HTTP函数调用或URL来处理数组,但这似乎笨重,还有什么更地道提供给我?
我猜这一定是它这样一个共同的问题和固溶体存在,但我就是没有对术语的好足够的抓地力,为它正确地搜索。