如何避免的WebCrawler重定向到移动版?(How to avoid redirection o

2019-10-18 16:45发布

我一个子类CrawlSpider并希望从网站上提取数据。 但是,我总是重定向到该网站的移动版本。 我试图改变USER_AGENT在scrapy的设置变量Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.0.1) Gecko/20060111 Firefox/1.5.0.1 ,但还是被重定向。

有另一种方式来通知另一个客户端,避免重定向?

Answer 1:

有两种类型的支持重定向Scrapy :

  • RedirectMiddleware -处理请求的重定向基于响应状态
  • MetaRefreshMiddleware -处理请求的重定向基于元刷新html标记

所以,也许你的HTML页面使用第二类型的重定向?

也可以看看:

  • http://doc.scrapy.org/en/latest/topics/downloader-middleware.html#redirectmiddleware-settings
  • http://doc.scrapy.org/en/latest/topics/downloader-middleware.html#metarefreshmiddleware-settings


文章来源: How to avoid redirection of the webcrawler to the mobile edition?