用 python 爬取疫情通报网站 http://www.nhc.gov.cn/xcs/yqtb/list_gzbd.shtml 时遇到的一个问题。 第一次请求网站时返回状态码 412,同时返回了一个 js 文件后再次请求网站后请求成功。如图 我猜是第一次返回的请求头 set-cookie 字段和这个 js 文件 http://www.nhc.gov.cn/efzZI1ZIHCHw/lRzGTrFtfOv6.ca73791.js (再加上一个 html 的 js 混淆后的脚本,查看网页源代码能看到)生成了完整的 cookie,就可以成功请求网站了。 本人不懂前端和 js 技术,请问如何在 python 中实现这个生成 cookie 的功能呢?(或者能在 python 中执行这个脚本生成 cookie 的方法) 谢谢各位!
![]() | 1 luoleng 2020-07-10 15:47:45 +08:00 找到生成 cookie 的 js 代码,python 可以直接调用 js,比如 execjs ; |
![]() | 2 sirthisman OP @luoleng 谢谢。那经过加密的 js 也可以执行吗? |
![]() | 3 Loooom 2020-07-10 16:07:31 +08:00 这不是瑞数嘛 |
![]() | 4 sirthisman OP @Loooom 我是小白不太懂,能给解释一下吗 |
5 baxtergu 2020-07-13 19:31:42 +08:00 这个网站加密比较厉害,建议用模拟浏览器的方式去爬 |