getting Forbidden by robots.txt: scrapy

2019-01-18 01:15发布

站内文章 / Python

63 0

聊天终结者

女 | 书童

私信

可以将文章内容翻译成中文,广告屏蔽插件可能会导致该功能失效(如失效，请关闭广告屏蔽插件后再试):

问题:

while crawling website like https://www.netflix.com, getting Forbidden by robots.txt: https://www.netflix.com/>

ERROR: No response downloaded for: https://www.netflix.com/

回答1:

In the new version (scrapy 1.1) launched 2016-05-11 the crawl first downloads robots.txt before crawling. To change this behavior change in your settings.py with ROBOTSTXT_OBEY

ROBOTSTXT_OBEY=False

Here are the release notes

回答2:

First thing you need to ensure is that you change your user agent in the request, otherwise default user agent will be blocked for sure.

标签： python scrapy web-crawler

聊天终结者

女 | 书童

私信

收藏的人(0)

Ta的文章更多文章

Django web-poll系统
spark MLlib决策树
Java类加载机制与反射
Javascript中数据类型转换那些事
百度浏览器海外加速功能
京东物流闯关IPO：重资产扩张盈利难，对手林立不易突围，百亿估值有多少水分？
无所不能的Embedding6
一文让你了解如何快速、优雅的实现导出Excel

0条评论

还没有人评论过~

getting Forbidden by robots.txt: scrapy

问题:

回答1:

回答2:

收藏的人(0)

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮