角度来说,Hpricot - UTF-8的问题(Hpricot - UTF-8 issues)

2019-10-16 20:28发布

运行下面的代码时,我得到以下错误:

invalid byte sequence in UTF-8 (ArgumentError)

编码:

require 'hpricot'
require 'open-uri'

doc = open('http://www.amazon.co.jp/') {|f| Hpricot(f.read) }
puts doc.to_html

角度来说,Hpricot无法解析日本的内容。 在解决这个问题有什么建议?

Answer 1:

该网站似乎没有被使用UTF-8: <meta http-equiv="content-type" content="text/html; charset=Shift_JIS" />

试试这个:

open('http://www.amazon.co.jp/') {|f| Hpricot(f.read.encode("UTF-8")) }


文章来源: Hpricot - UTF-8 issues