如何使用Ruby或引入nokogiri得到一个页面的原始HTML源代码?(How to get th

2019-07-29 18:42发布

我使用的是引入nokogiri (红宝石的Xpath库)到grep网页上的内容。 然后,我发现了一些网页,如Ajax网页的问题,这意味着,当我观看源代码我将不会看到的确切内容,如<table>

我怎样才能得到实际内容的HTML代码?

Answer 1:

在所有如果你想有一个网页的原始来源,不要使用引入nokogiri。 只需直接抓取网页为一个字符串,然后不喂,要引入nokogiri。 例如:

require 'open-uri'
html = open('http://phrogz.net').read
puts html.length #=> 8461
puts html        #=> ...raw source of the page...

如果,另一方面,你想有一个页面后JavaScript的修改的内容(如执行JavaScript代码来获取新内容和更改页面的AJAX库),那么你就不能使用引入nokogiri。 您需要使用Ruby来控制Web浏览器(如硒或阅读的Watir向上)。



文章来源: How to get the raw HTML source code for a page by using Ruby or Nokogiri?