
1 viking602 2024-09-29 11:15:36 +08:00 我们两套方案 一套是用机场 后端不断自动切换 IP 还有一套就是买数据中心代理 买了很多家 然后做负载均衡轮训 |
2 MFWT 2024-09-29 11:19:44 +08:00 国内 IP 毕竟还是会涉及到过墙问题,卡顿慢很正常 做大的那些主要还是靠量来堆,以及提高代理 IP 重用率,用各种来源的 IP (甚至有不光彩的手段,比如盗用家宽),等等 |
3 qsnow6 2024-09-29 11:23:11 +08:00 2 楼说的对,业内大玩家基本都是通过肉鸡降成本的,这不是常规技术手段能解决的问题。 |
4 callmejoejoe OP @viking602 机场我也想到了,晚点试一试;数据中心的代理是包月吗还是按量?感觉对我这一个人瞎搞的成本还是太高了 |
5 callmejoejoe OP |
6 viking602 2024-09-29 12:34:45 +08:00 @callmejoejoe #4 数据中心代理这个都有 主要是找相对便宜的 |
7 yunlongV 2024-09-29 12:48:04 +08:00 一般动态住宅 IP 都有无限制流量套餐,大概$200 一天,有并发数和总带宽限制。按照流量买的越多越便宜,一般在$0.8/gb 左右,还是推荐买动态住宅 IP 。 |
8 tangguo 2024-09-29 12:57:23 +08:00 看看 ipv6 呢? |
9 zqqzqq 2024-09-29 13:06:06 +08:00 |
10 NoOneNoBody 2024-09-29 13:45:50 +08:00 开 100 个 tor |
11 xcsoft 2024-09-29 14:01:15 +08:00 可以试试 ipv6, 有些服务商的服务器 v6 都是给整个段的 还不贵 但是不懂 ISP 的 ip 会不会有影响 |
12 Ritter 2024-09-29 14:09:50 +08:00 op 代理 IP 哪家买的 可以推荐一下吗 |
13 aru 2024-09-29 14:24:29 +08:00 aws 、digitalocean 、linode 这些 ip 能不能爬? 他们的都可以很容易的换 IP 比如用 aws ,可以创建一个实例负责调度和数据库 其他的用 spot 实例,下载流量不算钱,同一个区域内的流量也是免费的 |
14 Kinnice 2024-09-29 14:28:01 +08:00 别拿一个 IP 连续爬,分布负载均衡一下。 |
15 callmejoejoe OP |
16 callmejoejoe OP |
17 aru 2024-09-29 15:27:18 +08:00 @callmejoejoe 可以通过 api 操作 |
18 hujnnn 2024-09-29 16:33:08 +08:00 亚马逊卖家, 他们基本都是用卖家精灵这些非常专业的工具. 你需要考虑你的用户是谁? 国内的卖家么, 他们都很抠的希望能白嫖. 如果你的目标用户是国外的卖家, 他们的付费意愿还是比较强的, 但你需要解决如何获取流量并转化流量. |
19 callmejoejoe OP |
20 vicv 2024-09-30 07:38:12 +08:00 via iPhone 大佬国外的隧道代理在用哪家?我也参考一下 |
21 ns09005264 2024-09-30 11:10:13 +08:00 我不了解爬虫代理的 IP 需求量是多少,不过我上个月做过类似的事,用的机场。 我自己买的两个 10 元机场加上机场白嫖分享,IP 加起来有 500 个左右,抛开无效和出口重复的,大概有 300 个 IP 左右, 如果找那种 1 元机场以及收集白嫖的,感觉应该能收集 1000 个 IP 没问题。 |
22 callmejoejoe OP @vicv 不是大佬啊,参照上面 v 友说的找便宜的都买点,应该是怕跑路 @ns09005264 请问什么机场能直接看到 IP ? @viking602 请问机场如何动态切换 IP 呢?我搜索了一下目前只看到用 privoxy 转发或者是用 nginx 负载均衡 |
23 ns09005264 2024-10-01 10:24:56 +08:00 看不到出口 IP ,不过可以自建公网服务后通过代理访问进行 IP 查询。 我是通过启动 clash ,然后通过 API 进行节点切换。例子是单线程的,每次请求后,切换一次节点。 如果要多线程,可以每个线程启动一个端口不同的 clash 进程,每个 clash 进程需要提前分配好节点配置。 还有更简单的的方式就是只启动一个 clash ,代理组设置为负载均衡,负载均衡的策略为 Round Robin ,然后就可以多线程通过代理爬取目标地址。clash 会自动切换节点。 还有更进一步的方法,如果你用 golang 开发,直接将 clash(mihomo)导入为库,解析配置后拿到 proxies 随便你怎么分配请求。 https://gist.github.com/MapoMagpie/b7fa02328e0b7cd0a4f4669feae94733.js |
24 ns09005264 2024-10-01 10:25:35 +08:00 |
25 esee 2024-10-02 01:07:26 +08:00 @ns09005264 这样切换节点是不是慢了点呀,有没有考虑直接把机场的每个节点转换成本地 sock5 这样直接使用方便点。 |
26 ns09005264 2024-10-02 12:31:41 +08:00 @esee 相对爬虫请求来说切换节点不慢,上一个请求结束了立即重置 clash 的连接并切换节点,由于是本地服务,基本切换起来没什么延迟。 不过你说的把每个节点转换成本地 socks5 代理端口,我之前没听说过这种方案,搜索了下后,感觉确实是个不错的方案,本质是把每个节点变成一个入口,而 clash-meta 已经支持多入口。所以现在用机场当爬虫代理应该比较简单了。 |
27 sead 2024-10-02 18:04:31 +08:00 PG + clickhouse , 撸过上千万的 asins ,IP 独享的情况下,20 秒左右一个请求不会 ban 。 |
28 nyxsonsleep 2024-10-02 23:39:18 +08:00 举个例子,大量的物联网设备,大量的不开源路由器固件,甚至非官手机刷机包。低成本都是黑产出来的,那些东西的成本几乎为 0 ,正规渠道不可能竞争得过。而且爬数据基本是违法的,肉身不在国外属于作大死。 |
29 privateproxies 2024-10-03 10:07:24 +08:00 |
30 viking602 2024-10-03 11:35:33 +08:00 @callmejoejoe #22 用的 mihomo 内核调用 API 实时监测是否用 每五秒调用一次切换节点的 API 然后用 gost 做的负载均衡 https://gost.run/ |
31 callmejoejoe OP |
32 sead 2024-10-10 13:00:28 +08:00 @callmejoejoe PG: postgresql, 另外爬虫在国外没有那么玄乎,公开数据随便爬,如果是违法的,谷歌公司的不是得全抓了 |
33 piero66 2024-11-14 19:20:07 +08:00 via Android 如果目标支持 ipv6 ,可以自建 asn bgp 广播 |