新加坡联合早报 https://www.zaobao.com/
新闻详情页面采用了一种没见过的技术应对复制与爬虫
例如 https://www.zaobao.com/news/china/story20230110-1351792
在 P 标签内加入了 data-s="yGMGEZQ===="这种标签,导致页面看起来段落顺序是正确的,但复制,或者爬取,就是错的 请大神指点一下
1 viewrules 2023-01-10 11:59:32 +08:00 ![]() html 里的结构和视觉效果的结构不一致,这种你要打断点研究排序的那个方法,反向还原 |
2 xiaopc 2023-01-10 12:05:04 +08:00 ![]() |
![]() | 3 Eiden 2023-01-10 13:21:15 +08:00 ![]() |
4 wangxiaoaer 2023-01-10 13:40:34 +08:00 这玩意儿是不是一个无头浏览器就解决了? |
5 sparklee 2023-01-10 13:47:30 +08:00 @wangxiaoaer +1, 就是需要在获取到数据之后浏览器执行一遍 js 重新排序 |
![]() | 6 yang3121099 2023-01-10 13:49:45 +08:00 @Eiden 所以是数组定义了一层映射来打乱段落的顺序吗,确实直接复制段落就会隔三差五的,第一次见 hhh |
7 guaguaguaxia1 2023-01-10 13:57:24 +08:00 @wangxiaoaer 爬虫一般都不用浏览器的,效率极低 |
![]() | 8 gezimonkey OP @wangxiaoaer 我尝试过了,Firefox 无法获得 html 内容,chrome 获得的同样是乱序 |
9 lkwfive 2023-01-10 14:55:04 +08:00 浏览器截图 + OCR |
![]() | 10 BeforeTooLate 2023-01-10 14:57:04 +08:00 那这样是否意味着搜索引擎也无法收录了? |
![]() | 12 leaflxh 2023-01-10 15:01:56 +08:00 (右键可以复制全文 |
![]() | 13 bluedawn 2023-01-10 15:13:14 +08:00 via iPhone 没研究过但是 不妨看看 rsshub 对联合早报的 rss 爬取策略? 如果只是想获取新闻内容 |
![]() | 14 likeme 2023-01-10 15:16:18 +08:00 @guaguaguaxia1 不用浏览器用什么?好奇... |
![]() | 15 corcre 2023-01-10 15:22:24 +08:00 @likeme 我只知道无头浏览器, 如果他说的不是无头浏览器的话我也很好奇这种需要执行 js 去计算 DOM 的内容要怎么抓取... |
![]() | 17 chenzhe 2023-01-10 15:58:59 +08:00 const axios = require("axios"); const cheerio = require("cheerio"); axios.get("https://www.zaobao.com/news/china/story20230110-1351792").then(res => { const $ = cheerio.load(res.data) const cOntext= [] $("#article-body").children().each((i, el) => { if (i > 0 && $(el).text() !== "") { context.push($(el).text()) } }) console.log(context.join("\n")) }) |
18 getcharch 2023-01-10 16:05:01 +08:00 ![]() https://cmd.im/pmhr 关键代码 传入参数 data-s.substring(3) ``` d = function (e) { var t, n, o, i = e["length"], s = "ABCDEFGHIJKLMNOPQRSTUVWXYZ234567=", l = 0, u = 0, c = ""; e = e["toUpperCase"](); for (var d = 0; d < i; d += 1) (t = s["indexOf"](e["charAt"](d))) >= 0 && t < 32 && (n = n << 5 | t, u += 5, u >= 8 && (o = 255 & n >> (u - 8), c = (c + String["fromCharCode"](o)), u -= 8)); if ((u > 0) && (o = (n << (8 - u) & 255) >> (8 - u), (o !== 0))) { c = c + String.fromCharCode(o) } return c } ``` |
![]() | 20 ripperts 2023-01-10 16:39:14 +08:00 简单看了下就是 data-s 字符串截取 3 位,然后 base32 加码就行了。 比如,data-s="6qsGE3A====" 然后 base32 解码 GE3A==== 直接返回 16 随便找了个在线解码: https://www.usetoolbar.com/developer/base32.html 试试吧,没仔细确认 |
![]() | 21 gezimonkey OP @getcharch 大佬你就是生产力!!! |
22 NoOneNoBody 2023-01-16 12:27:19 +08:00 |