从使用wget谷歌学术搜索结果下载所有的PDF文件(Downloading all pdf file

2019-07-31 08:38发布

我想编写一个简单的网络蜘蛛或者只是使用wget下载从谷歌学术PDF结果。这实际上是一个相当漂亮的方式来获得研究论文。

我已阅读计算器以下页面：

使用wget和限制抓取链接的总数抓取网站

如何做网络蜘蛛不同于Wget的的蜘蛛？

从网站上下载的所有PDF文件

如何下载使用wget网站的所有文件（而不是HTML）？

最后一页可能是最鼓舞人心的是。我曾尝试使用wget作为建议此。

我的谷歌学术搜索结果页面是这样，但没有被下载。

鉴于我的webspiders的了解程度是最小的，我应该怎么做才能让这一切成为可能？我也知道写一个蜘蛛可能是非常复杂的，是一个项目，我可能不想承担。如果可以使用wget ，这将是绝对真棒。

Answer 1:

wget -e robots=off -H --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" -r -l 1 -nd -A pdf http://scholar.google.com/scholar?q=filetype%3Apdf+liquid+films&btnG=&hl=en&as_sdt=0%2C23

有几件事情需要注意：

在搜索查询PDF格式：使用filetyle的
递归的一个水平
-A PDF为只接受PDF文件
-H跨越主机
-e机器人=关闭和使用--user代理将确保最佳结果。谷歌学术拒绝一个空白的用户代理和PDF库可能不允许机器人。

当然，限制，这将只命中结果的第一页。你可以扩大递归的深度，但这会像脱缰的野马，并采取永远。我会建议使用的类似组合美丽的汤和wget子进程，这样就可以分析和战略性遍历搜索结果。

文章来源: Downloading all pdf files from google scholar search results using wget

从使用wget谷歌学术搜索结果下载所有的PDF文件(Downloading all pdf file

Answer 1:

收藏的人(0)

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮