刮板上的文件进行故障切换〜390KB(Scraper fails on files over ~39

2019-09-21 03:10发布

请问Facebook的网址scarper有它的尺寸限制吗? 我们有一个网站上提供的几本书。 那些具有一定规模(〜390KB),下有一个HMTL文件大小得到刮掉,并正确读取,但4是大不。 这些较大的项目获得了200响应代码和规范网址打开。

所有这些页面都使用相同的模板内置,唯一的区别是每本书中的内容的大小和每本书使该网站上的其他网页的链接数量。

  1. 点击URL规范
  2. 打开Firebug在Firefox或开发者工具在Chrome到互联片3,在>〜390KB的*。html的尺寸为所列出的故障&<〜390K的成就
  3. 点击“查看我们看到刷屏正是为你的URL”
  4. 空白页故障,目前本作的成功HTML

失败:

  • https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Frcg.org%2Fbooks%2Ftapom.html
  • https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Frcg.org%2Fbooks%2Ftbgpu.html
  • https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Frcg.org%2Fbooks%2Fttjc.html
  • https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Frcg.org%2Fbooks%2Ftbdse.html

成功案例:

  • https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Frcg.org%2Fbooks%2Fthogtc.html
  • https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Frcg.org%2Fbooks%2Faabibp.html
  • https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Frcg.org%2Fbooks%2Ftww.html
  • https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Frcg.org%2Fbooks%2Ftsosw.html
  • https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Frcg.org%2Fbooks%2Fsyottc.html
  • https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Frcg.org%2Fbooks%2Fttigtio.html
  • https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Frcg.org%2Fbooks%2Faadac.html
  • https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Frcg.org%2Fbooks%2Fsiud.html
  • https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Frcg.org%2Fbooks%2Ftuyc.html

Answer 1:

a。对于问题的解决办法是,以检查是否真正的用户或Facebook的机器人正在访问你的页面。 如果是机器人,然后渲染只为它必要的元数据。 可以通过其中根据它的用户代理检测机器人的Facebook文档是:
"facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)"

该代码会是这个样子(在PHP):

function userAgentIsFacebookBot() {
    if ($_SERVER['HTTP_USER_AGENT'] == "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)") {
        return true;
    }
    return false;
}


Answer 2:

你确定这是不是就在你身边的问题? 我最后一次检查要求只有第一个4096个字节文件的刮板,应该始终有充足的空间来取回<head></head>与meta标签部分



文章来源: Scraper fails on files over ~390KB