我使用的是引入nokogiri (红宝石的Xpath库)到grep网页上的内容。 然后,我发现了一些网页,如Ajax网页的问题,这意味着,当我观看源代码我将不会看到的确切内容,如<table>
等
我怎样才能得到实际内容的HTML代码?
我使用的是引入nokogiri (红宝石的Xpath库)到grep网页上的内容。 然后,我发现了一些网页,如Ajax网页的问题,这意味着,当我观看源代码我将不会看到的确切内容,如<table>
等
我怎样才能得到实际内容的HTML代码?
在所有如果你想有一个网页的原始来源,不要使用引入nokogiri。 只需直接抓取网页为一个字符串,然后不喂,要引入nokogiri。 例如:
require 'open-uri'
html = open('http://phrogz.net').read
puts html.length #=> 8461
puts html #=> ...raw source of the page...
如果,另一方面,你想有一个页面后JavaScript的修改的内容(如执行JavaScript代码来获取新内容和更改页面的AJAX库),那么你就不能使用引入nokogiri。 您需要使用Ruby来控制Web浏览器(如硒或阅读的Watir向上)。