“UTF-8”编解码器不能在位置0解码字节0xd0:无效延续字节('utf8' co

2019-09-21 21:05发布

我有一个html文件中下面的文字:

<a href="#">�'ам интересна информация</a>

和我使用下面的表达式提取文本:

row.xpath("string(./td[@class='col2 td-tags']/h3/a/text())")

该表达式工作正常进行简单的英语,但对于上面的字符串,它抛出这个错误:

'utf8' codec can't decode byte 0xd0 in position 0: invalid continuation byte

Answer 1:

在HTML,&#XXX没有指定文档编码字节; 它总是一个unicode码点。

因此,你不能把UTF-8成这样的HTML。



Answer 2:

什么编码的文件? 什么性格开始在文本<a> ? 这可能是无效的UTF-8。



Answer 3:

我第一次解码的页面内容(其中包括字符串<a href="#"> 'ам интересна информация</a> )来代替任何不能转换串问号,它的工作!

page_contents_string = page_contents_string.decode("utf-8", "replace")



文章来源: 'utf8' codec can't decode byte 0xd0 in position 0: invalid continuation byte