我只想要的文件夹结构,但我不能wget的弄清楚如何。 相反,我使用这样的:
wget的-R PDF格式,CSS,GIF,TXT,PNG -np -r http://example.com
-R之后,应该拒绝所有的文件,但在我看来,wget的还是下载文件,然后将其删除。
有没有更好的办法刚刚拿到文件夹结构?
TTP请求发送时,等待响应... 200行长度:136796(134K)[应用程序/ x-下载]保存到:“example.com/file.pdf”
在0.2秒100%[=====================================>] 136796 853K /秒
2012年10月3日3点51分41秒(853 KB / S) - “example.com/file.pdf”保存[一十三万六千七百九十六分之十三万六千七百九十六]
删除example.com/file.pdf因为它应该被拒绝。
如果有人想知道这是一个客户端,他们可以告诉我的结构,但它是一个麻烦,因为他们的IT人必须做到这一点,所以我想只是得到它自己。
这似乎是如何wget
设计工作。 当执行递归下载,匹配拒绝列表仍在下载,使他们能够收获环节的非叶文件,然后将其删除。
从在代码注释( recur.c ):
无论是指定--delete-之后,或者我们装这个,否则拒绝(例如,通过-R)HTML文件只是这样我们就可以收获了超链接 -在这两种情况下,删除本地文件。
我们已经有一个运行在这过去的项目中,我们不得不镜像一个认证的站点和wget
保持甚至击中注销页面时,它是为了拒绝那些网址。 我们无法找到任何选项来改变行为wget
。
我们结束了解决的办法是下载 ,黑客和建立我们自己的版本wget
。 有可能是一个更优雅的方式来这一点,但我们使用了快速修复了以下规则添加到年底download_child_p()
程序 (修改,以符合您的要求):
/* Extra rules */
if (match_tail(url, ".pdf", 0)) goto out;
if (match_tail(url, ".css", 0)) goto out;
if (match_tail(url, ".gif", 0)) goto out;
if (match_tail(url, ".txt", 0)) goto out;
if (match_tail(url, ".png", 0)) goto out;
/* --- end extra rules --- */
/* The URL has passed all the tests. It can be placed in the
download queue. */
DEBUGP (("Decided to load it.\n"));
return 1;
out:
DEBUGP (("Decided NOT to load it.\n"));
return 0;
}