我在瑞典的网页中提取信息。 此网页使用的字符,如:高龄津贴。
我的问题是,当我打印的信息高龄津贴都没有了。
我使用提取美丽的汤的信息。 我觉得现在的问题是,我做,我提取字符串,如一堆的正则表达式的location = re.sub(r'([^\w])+', '', location)
来删除除一切这些信。 在此之前我想这美丽的汤编码字符串,以便高龄津贴成为像/ X02 /,十六进制值。
所以,如果我是正确的,那么正则表达式删除的高龄津贴,对了,我的意思是要留在十六进制数字的唯一的事情就是正则表达式后X,但没有x的,而不是我的网页上高龄津贴,所以这小理论也许是不正确? 无论如何,如果它是正确的还是错误的,你是怎么解决这个问题? 当我以后再打印所提取的信息到我的网页我使用谷歌应用程序引擎self.response.out.write()(不知道是不是在解决问题的帮助)
编辑:在瑞典网站上的编码是UTF-8和我的网站上的编码也是UTF-8。 EDIT2:您可以使用ISO-8859-10瑞典,但根据谷歌浏览器的编码是Unicode(UTF-8)在这个特定的网站