爬行与Scrapy本地文件没有一个活跃的项目?(Crawling local files with

2019-10-21 14:48发布

是否有可能与抓取Scrapy 0.18.4本地文件,而无需一个活跃的项目? 我已经看到了这个答案,它看起来很有希望,但要使用crawl命令你需要一个项目。

另外,有建立在现有的蜘蛛一个项目一个简单/简约的方式吗? 我有一个Python的文件中定义我的蜘蛛,管道,中间件和项目。 我创建了一个scrapy.cfg文件,只有项目名称。 这让我用crawl ,但因为我没有蜘蛛文件夹Scrapy找不到我的蜘蛛。 我可以指出Scrapy到正确的目录,或者我需要拆我的项目,蜘蛛等成单独的文件?

[编辑]我忘了说,我正在使用的蜘蛛Crawler.crawl(my_spider) -最好我还是希望能够运行像蜘蛛,但是从我的脚本,如果这是在子进程可以运行它不可能。

原来在回答的建议我联系做工作- HTTP://本地主机:8000可以作为一个START_URL,所以没有必要为一个项目。

Answer 1:

作为一个选项,你可以从一个脚本运行Scrapy,这里是一个自包含的示例脚本和概述使用的方法。

这并不意味着你必须把一切都在一个文件中。 你仍然可以有spider.pyitems.pypipelines.py -只要正确导入它们在你开始抓取脚本。



文章来源: Crawling local files with Scrapy without an active project?