镜像网站，原网站的静态怎么爬取

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

请不要在答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 264 天前的主题，其中的信息可能已经有所发展或是发生改变。

比如一些 ChatGPT 的镜像站，Midjourney 等等网上都有很多镜像站。这些静态是怎么爬取的呢。有没有懂这块儿的大佬，可付费。

10 条回复 2025-05-05 13:20:51 +08:00

iApp

2025 年 5 月 3 日

有没有可能人家不是爬的,只是做了一层流量代理转发

doubu

2025 年 5 月 3 日 via iPhone

反向代理

qinrui

2025 年 5 月 3 日

差不多 15 年前做过一个镜像新闻站

用户访问我站的前端页面，我站通过 php 找到对应源站页面，替换掉一些关键词和链接规则，然后显示给用户，同时缓存到本地

下次再有用户访问这个页面，就直接从本地缓存取

zhangjiashu2023

2025 年 5 月 3 日

@iApp 不是我问过一个作者确实不是反代就是扒了。

saltpi

2025 年 5 月 3 日

有点类似 web archive ，印象中有这样的软件，输入域名，可以尽可能的爬下所有页面。貌似叫 web archive offline 之类的

https://github.com/ArchiveBox/ArchiveBox

eben

2025 年 5 月 4 日

有人会使用 python 写个小偷，完全扒下来

mmdsun
2025 年 5 月 4 日 via iPhone

搜下 ChatGPT pandora ，当时比较火的 ChatGPT 镜像网站。静态资源不用爬直接本地下载就行

zhangjiashu2023

2025 年 5 月 4 日

@mmdsun 我的意思就是 pandora 这种类似能把 openai 官方静态给扒下来并且还能适配可用的技术

kkkbbb

2025 年 5 月 4 日 via Android

@qinrui 这不还是爬么

qinrui

2025 年 5 月 5 日

@kkkbbb 按需爬，有人访问的页面才爬