scrapy 请求某繁体网站内容不一样，这是为啥？

In [10]: response.body.decode(encoding="utf-8")
Out[10]: '\ufeff<html lang="en" class="news-hkex">\r\n <head>\r\n <META http-equiv="Content-Type" cOntent="text/html; charset=utf-16">\r\n <meta name="MS.LOCALE" cOntent="ZH-TW">\r\n <title>:: HKEX :: HKEXnews ::</title>\r\n <meta http-equiv="Pragma" cOntent="no-cache">\r\n <meta http-equiv="Cache-Control" cOntent="no-cache">\r\n <meta charset="UTF-8">\r\n <meta name="viewport" cOntent="width=device-width, initial-scale=1">\r\n <meta http-equiv="X-UA-Compatible" cOntent="IE=edge">\r\n <link href="/ncms/css/main.css" rel="stylesheet"><script language="Javascript" src="http://www.v2ex.com/script/hkex_common.js"></script><script language="Javascript" src="http://www.v2ex.com/script/hkex_setting.js"></script><script type="text/Javascript" src="http://www.v2ex.com/ncms/script/hkex_app.js"></script><script type="text/Javascript" src="http://www.v2ex.com/ncms/script/hkex_settings.js"></script><script type="text/Javascript" src="http://www.v2ex.com/ncms/script/hkex_widget.js"></script><script type="text/Javascript" src="http://www.v2ex.com/ncms/script/vendor.js"></script><script type="text/Javascript">\n \t var pageDefaultTitle = "申版本，聆後料集及相料";\n \t var pageDefaultSubTitle = "";\n \t var pageDefaultBanner = "/ncms/media/HKEXnews/top_banner_bg.png";\n \t var pageDefaultTabletBanner = "/ncms/media/HKEXnews/top_banner_bg_tablet.png";\n \t var overrideBreadcrumb = [{\n \t \t\ttitle: "申版本，聆後料集及相料",\n \t \t\turl: "http://www2.hkexnews.hk/New-Listings/Application-Proof-and-PHIP?sc_lang=zh-HK"\n \t },{\n \t \t\ttitle: "新上市",\n \t \t\turl: window.location.href\n \t \t\t}]\n \t var overridePageTools = {};\n \t overridePageTools.showlastupdate = 0;\n \t overridePageTools.showprint = 0;\n\t\t </script><link rel="stylesheet" href="/css/hkex_css.css" type="text/css"><script type="text/Javascript">\n\t\t\t\t\t\tfunction PrintFriendlyUTF()

lanqing

2018-12-28 16:04:24 +08:00

从表面上看,scrapy 请求返回的数据被 decode(使用 latin-1|ISO-8859-1),所以 encode('latin-1').decode('utf-8')就行
#2 #4 都行

dfadf55

2018-12-28 16:05:21 +08:00

@carlclone 你一开始就知道

Ewig

2018-12-28 16:40:47 +08:00

@lanqing 你用 scrapy 试过吗？我试过打印的是空
print(response.text.encode('latin-1').decode('utf-8')) 我这样写的

Ewig

2018-12-28 16:43:18 +08:00

@lanqing 你是对的，我 scrapy 里面的编码没弄过，谢谢

Ewig

2018-12-29 10:50:48 +08:00

@lihongjie0209 def parse(self, response):
print(response.body.decode(encoding="utf-8"))
linkList =response.body.decode(encoding="utf-8").xpath(
'//td[@class="pming_black12 ms-rteTableOddCol-BlueTable_CHI"]/a/@href')
nameList = response.body.decode(encoding="utf-8").xpath(
'//td[@class="pming_black12 ms-rteTableOddCol-BlueTable_CHI"]/a/text()')

我在 scrapy 里面这样写好像不行，说这是字符串没有 xpath，如何写才是正确的

lihongjie0209

2018-12-29 11:00:21 +08:00

@Ewig 你还是多搞搞基础吧, 没办法一步一步教你

atencheung

2018-12-29 14:05:24 +08:00

编码的问题，我一般是这么解决的
import requests
respOnse= requests.get('http://xxxxxx')
response.encoding = "gbk2312" # 这里就是对方网站的编码格式
print(response.text)
这样一般就该返回的正常的，不会乱码了

关于帮助文档自助推广系统博客 API FAQ Solana 1487 人在线 最高记录 6679

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 26ms UTC 16:40 PVG 00:40 LAX 09:40 JFK 12:40
Do have faith in what you're doing.