![]() | 1 cloverfisher OP |
2 timonwong 2013-03-14 08:13:06 +08:00 问题是网页中的这一行: <?xml version="1.0" encoding="UTF-8"?> |
![]() | 3 cloverfisher OP @timonwong 这一行有什么严重的问题么??真的没法解析本来就是utf-8的xml??那么如何解决这个问题呢 |
4 for4 2013-03-14 13:29:12 +08:00 r = requests.get('http://cn.shindanmaker.com') 用r.content 别用r.text |
5 timonwong 2013-03-14 14:14:24 +08:00 ![]() @cloverfisher 因为是字符串是unicode类型了(转码后的了), lxml找到encoding的相关申明还会尝试转到unicode一次,自然会失败,给这些解析器的都该是raw string. 所以请使用 @for4 介绍的 r.content |
![]() | 6 cloverfisher OP @for4 谢谢~ |
![]() | 7 cloverfisher OP @timonwong 3Q :) |