
比如一些 ChatGPT 的镜像站,Midjourney 等等网上都有很多镜像站。这些静态是怎么爬取的呢。有没有懂这块儿的大佬,可付费。
1 iApp 2025 年 5 月 3 日 有没有可能人家不是爬的,只是做了一层流量代理转发 |
2 doubu 2025 年 5 月 3 日 via iPhone 反向代理 |
3 qinrui 2025 年 5 月 3 日 差不多 15 年前做过一个镜像新闻站 用户访问我站的前端页面,我站通过 php 找到对应源站页面,替换掉一些关键词和链接规则,然后显示给用户,同时缓存到本地 下次再有用户访问这个页面,就直接从本地缓存取 |
4 zhangjiashu2023 OP @iApp 不是 我问过一个作者 确实不是反代 就是扒了。 |
5 saltpi 2025 年 5 月 3 日 有点类似 web archive ,印象中有这样的软件,输入域名,可以尽可能的爬下所有页面。貌似叫 web archive offline 之类的 https://github.com/ArchiveBox/ArchiveBox |
6 eben 2025 年 5 月 4 日 有人会使用 python 写个小偷,完全扒下来 |
7 mmdsun 2025 年 5 月 4 日 via iPhone 搜下 ChatGPT pandora ,当时比较火的 ChatGPT 镜像网站。 静态资源不用爬直接本地下载就行 |
8 zhangjiashu2023 OP @mmdsun 我的意思就是 pandora 这种类似能把 openai 官方静态给扒下来并且还能适配可用的技术 |