如何使用Ruby或引入nokogiri得到一个页面的原始HTML源代码？(How to get th

2019-07-29 18:42发布

我使用的是引入nokogiri （红宝石的Xpath库）到grep网页上的内容。然后，我发现了一些网页，如Ajax网页的问题，这意味着，当我观看源代码我将不会看到的确切内容，如<table>等

我怎样才能得到实际内容的HTML代码？

Answer 1:

在所有如果你想有一个网页的原始来源，不要使用引入nokogiri。只需直接抓取网页为一个字符串，然后不喂，要引入nokogiri。例如：

require 'open-uri'
html = open('http://phrogz.net').read
puts html.length #=> 8461
puts html        #=> ...raw source of the page...

如果，另一方面，你想有一个页面后JavaScript的修改的内容（如执行JavaScript代码来获取新内容和更改页面的AJAX库），那么你就不能使用引入nokogiri。您需要使用Ruby来控制Web浏览器（如硒或阅读的Watir向上）。

文章来源: How to get the raw HTML source code for a page by using Ruby or Nokogiri?

Answer 1: