我有一个html文件中下面的文字:
<a href="#">�'ам интересна информация</a>
和我使用下面的表达式提取文本:
row.xpath("string(./td[@class='col2 td-tags']/h3/a/text())")
该表达式工作正常进行简单的英语,但对于上面的字符串,它抛出这个错误:
'utf8' codec can't decode byte 0xd0 in position 0: invalid continuation byte
在HTML,&#XXX没有指定文档编码字节; 它总是一个unicode码点。
因此,你不能把UTF-8成这样的HTML。
什么编码的文件? 什么性格开始在文本<a>
? 这可能是无效的UTF-8。
我第一次解码的页面内容(其中包括字符串<a href="#"> 'ам интересна информация</a>
)来代替任何不能转换串问号,它的工作!
即page_contents_string = page_contents_string.decode("utf-8", "replace")
文章来源: 'utf8' codec can't decode byte 0xd0 in position 0: invalid continuation byte