“UTF-8”编解码器不能在位置0解码字节0xd0：无效延续字节('utf8' co

2019-09-21 21:05发布

我有一个html文件中下面的文字：

<a href="#">�'ам интересна информация</a>

和我使用下面的表达式提取文本：

row.xpath("string(./td[@class='col2 td-tags']/h3/a/text())")

该表达式工作正常进行简单的英语，但对于上面的字符串，它抛出这个错误：

'utf8' codec can't decode byte 0xd0 in position 0: invalid continuation byte

Answer 1:

在HTML，＆＃XXX没有指定文档编码字节; 它总是一个unicode码点。

因此，你不能把UTF-8成这样的HTML。

什么编码的文件？什么性格开始在文本<a> ？这可能是无效的UTF-8。

我第一次解码的页面内容（其中包括字符串<a href="#"> 'ам интересна информация</a> ）来代替任何不能转换串问号，它的工作！

即page_contents_string = page_contents_string.decode("utf-8", "replace")

文章来源: 'utf8' codec can't decode byte 0xd0 in position 0: invalid continuation byte