robots.txt的:这是通配符规则是否有效?robots.txt的:这是通配符规则是否有效?(R

2019-05-12 05:55发布

简单的问题。 我想补充:

Disallow */*details-print/

基本上,在形式阻止规则/foo/bar/dynamic-details-print --- foo和bar在这个例子中,也可以完全动态的。

我想这将是简单的,但后来就www.robotstxt.org有这样一条消息:

还要注意的是通配和正则表达式中任一所述的用户代理或禁止线不被支持。 在User-Agent字段的“*”是一个特殊值,意思是“任何机器人”。 特别是,你不能有像“用户代理:BOT”线,“禁止:/ tmp目录/ *”或“不允许:* .gif注意”。

因此,我们不能这样做呢? 难道搜索引擎遵守它? 但随后,有Quora.com的robots.txt文件中:

Disallow: /ajax/
Disallow: /*/log
Disallow: /*/rss
Disallow: /*_POST

那么,谁是正确的 - 或者我误解上robotstxt.org的文本?

谢谢!

Answer 1:

答案是,“这取决于”。 如在robotstxt.org定义的robots.txt“标准”是最小的是漫游器是预期支持。 Googlebot的,MSNBot会,和雅虎啜食支持一些常用的扩展,而且也确实没有告诉其他机器人支持一下。 有人说,他们支持和别人不一样。

在一般情况下 ,你可以期望各大搜索引擎机器人来支持你写的通配符,和你有一个有看起来像它会工作。 最好的选择是运行它通过一个或多个的这些 robots.txt的验证或使用谷歌的网站管理员工具来检查它。



文章来源: Robots.txt: Is this wildcard rule valid?