请教爬虫代理方案,成本太高了! - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
callmejoejoe
V2EX    程序员

请教爬虫代理方案,成本太高了!

  •  
  •   callmejoejoe
    callmejoejoe 2024-09-29 11:05:47 +08:00 6169 次点击
    这是一个创建于 425 天前的主题,其中的信息可能已经有所发展或是发生改变。
    想做亚马逊爬虫,用国内隧道代理和国外动态数据中心 IP 、动态住宅 IP 进行了测试:
    国外动态住宅 IP 最优,但价格最贵;
    国外动态数据中心 IP 也可以,但价格也贵,普遍是 8 元/1GB ,这样我的成本是 0.004 元/1page ,成熟竞品售价是 0.001 元/1page ,哪怕是 2 元,我的成本也跟竞品的销售价一样!根本赚不了钱。

    还是说我需要考虑整体盈利模式?成熟竞品的收费模式大概是:
    1. 基本会员:几十元一个月,可以查询数据,不可以爬取数据。
    2. 付费购买流量进行爬取:98 元,可爬 10w 数据,0.001 元/1page ,每天最高可爬 10w 。

    对此我的理解是:让用户付费购买爬取,爬取的数据更新到数据库,这部分数据也可以通过会员费来实现一部分盈利。但我感觉数据肯定是要达到一定量才能收费,否则用户开了会员能查的数据不多,就没意义了。所以一开始只能做爬取,所以要想盈利,就只能考虑如何降低流量成本?
    也测试了快代理的国内隧道代理,偶尔能爬,昨天下午爬了 1500 页也没事,但是晚上就彻底不行了,各种重定向、响应超时,但是换国外 IP 就没问题。

    疑问:
    1. 有没有便宜的国外 IP 代理方案呢?
    2. 国内 IP 为什么爬不了,用了 Playwright 作为下载中间件也不行,难道国内 IP 容易被亚马逊反爬虫识别?
    3. 还是说我应该放弃这个爬虫方案?我看有些竞品是让用户自己电脑本地爬,但这样太慢了!但开发简单点,爬虫还要弄集群,负载均衡,数据量大了感觉数据库也是个问题,这方面都没做过,头大。

    爬虫新手,希望有大佬能解解惑,感激不尽!
    33 条回复    2024-11-14 19:20:07 +08:00
    viking602
        1
    viking602  
       2024-09-29 11:15:36 +08:00   1
    我们两套方案 一套是用机场 后端不断自动切换 IP 还有一套就是买数据中心代理 买了很多家 然后做负载均衡轮训
    MFWT
        2
    MFWT  
       2024-09-29 11:19:44 +08:00   2
    国内 IP 毕竟还是会涉及到过墙问题,卡顿慢很正常
    做大的那些主要还是靠量来堆,以及提高代理 IP 重用率,用各种来源的 IP (甚至有不光彩的手段,比如盗用家宽),等等
    qsnow6
        3
    qsnow6  
       2024-09-29 11:23:11 +08:00   2
    2 楼说的对,业内大玩家基本都是通过肉鸡降成本的,这不是常规技术手段能解决的问题。
    callmejoejoe
        4
    callmejoejoe  
    OP
       2024-09-29 11:26:08 +08:00
    @viking602 机场我也想到了,晚点试一试;数据中心的代理是包月吗还是按量?感觉对我这一个人瞎搞的成本还是太高了
    callmejoejoe
        5
    callmejoejoe  
    OP
       2024-09-29 11:27:56 +08:00
    @MFWT
    @qsnow6
    好吧,我说他们成本怎么那么便宜,看来这比我想象中的复杂多了
    viking602
        6
    viking602  
       2024-09-29 12:34:45 +08:00   1
    @callmejoejoe #4 数据中心代理这个都有 主要是找相对便宜的
    yunlongV
        7
    yunlongV  
       2024-09-29 12:48:04 +08:00
    一般动态住宅 IP 都有无限制流量套餐,大概$200 一天,有并发数和总带宽限制。按照流量买的越多越便宜,一般在$0.8/gb 左右,还是推荐买动态住宅 IP 。
    tangguo
        8
    tangguo  
       2024-09-29 12:57:23 +08:00   1
    看看 ipv6 呢?
    zqqzqq
        9
    zqqzqq  
       2024-09-29 13:06:06 +08:00
    NoOneNoBody
        10
    NoOneNoBody  
       2024-09-29 13:45:50 +08:00
    开 100 个 tor
    xcsoft
        11
    xcsoft  
       2024-09-29 14:01:15 +08:00   1
    可以试试 ipv6, 有些服务商的服务器 v6 都是给整个段的 还不贵

    但是不懂 ISP 的 ip 会不会有影响
    Ritter
        12
    Ritter  
       2024-09-29 14:09:50 +08:00
    op 代理 IP 哪家买的 可以推荐一下吗
    aru
        13
    aru  
       2024-09-29 14:24:29 +08:00
    aws 、digitalocean 、linode 这些 ip 能不能爬?
    他们的都可以很容易的换 IP
    比如用 aws ,可以创建一个实例负责调度和数据库
    其他的用 spot 实例,下载流量不算钱,同一个区域内的流量也是免费的
    Kinnice
        14
    Kinnice  
       2024-09-29 14:28:01 +08:00   1
    别拿一个 IP 连续爬,分布负载均衡一下。
    callmejoejoe
        15
    callmejoejoe  
    OP
       2024-09-29 14:32:21 +08:00
    @viking602 好的谢谢
    @yunlongV 对个人来说还是太贵了
    @laiyibeimeishi ipv6 不知道可不可行,晚点试试
    @NoOneNoBody tor 是啥?
    callmejoejoe
        16
    callmejoejoe  
    OP
       2024-09-29 14:38:26 +08:00
    @Ritter 我还没买,有些提供免费测试的
    @Kinnice 目前只是用代理的 api 返回的 ip 直接随机爬
    @aru 感觉不可行啊,换 ip 的操作不麻烦吗?
    aru
        17
    aru  
       2024-09-29 15:27:18 +08:00
    @callmejoejoe
    可以通过 api 操作
    hujnnn
        18
    hujnnn  
       2024-09-29 16:33:08 +08:00
    亚马逊卖家, 他们基本都是用卖家精灵这些非常专业的工具.

    你需要考虑你的用户是谁? 国内的卖家么, 他们都很抠的希望能白嫖.

    如果你的目标用户是国外的卖家, 他们的付费意愿还是比较强的, 但你需要解决如何获取流量并转化流量.
    callmejoejoe
        19
    callmejoejoe  
    OP
       2024-09-29 16:39:56 +08:00
    @aru 不是做后端的,看了一下文档挺复杂的,留作后备计划后续再了解了

    @hujnnn 流量转化这些问题是后面的事了,目前得先把这个可行性问题解决了
    vicv
        20
    vicv  
       2024-09-30 07:38:12 +08:00 via iPhone
    大佬国外的隧道代理在用哪家?我也参考一下
    ns09005264
        21
    ns09005264  
       2024-09-30 11:10:13 +08:00   1
    我不了解爬虫代理的 IP 需求量是多少,不过我上个月做过类似的事,用的机场。
    我自己买的两个 10 元机场加上机场白嫖分享,IP 加起来有 500 个左右,抛开无效和出口重复的,大概有 300 个 IP 左右,
    如果找那种 1 元机场以及收集白嫖的,感觉应该能收集 1000 个 IP 没问题。
    callmejoejoe
        22
    callmejoejoe  
    OP
       2024-09-30 13:48:18 +08:00
    @vicv 不是大佬啊,参照上面 v 友说的找便宜的都买点,应该是怕跑路
    @ns09005264 请问什么机场能直接看到 IP ?
    @viking602 请问机场如何动态切换 IP 呢?我搜索了一下目前只看到用 privoxy 转发或者是用 nginx 负载均衡
    ns09005264
        23
    ns09005264  
       2024-10-01 10:24:56 +08:00   1
    看不到出口 IP ,不过可以自建公网服务后通过代理访问进行 IP 查询。

    我是通过启动 clash ,然后通过 API 进行节点切换。例子是单线程的,每次请求后,切换一次节点。
    如果要多线程,可以每个线程启动一个端口不同的 clash 进程,每个 clash 进程需要提前分配好节点配置。

    还有更简单的的方式就是只启动一个 clash ,代理组设置为负载均衡,负载均衡的策略为 Round Robin ,然后就可以多线程通过代理爬取目标地址。clash 会自动切换节点。

    还有更进一步的方法,如果你用 golang 开发,直接将 clash(mihomo)导入为库,解析配置后拿到 proxies 随便你怎么分配请求。

    https://gist.github.com/MapoMagpie/b7fa02328e0b7cd0a4f4669feae94733.js
    esee
        25
    esee  
       2024-10-02 01:07:26 +08:00
    @ns09005264 这样切换节点是不是慢了点呀,有没有考虑直接把机场的每个节点转换成本地 sock5 这样直接使用方便点。
    ns09005264
        26
    ns09005264  
       2024-10-02 12:31:41 +08:00
    @esee 相对爬虫请求来说切换节点不慢,上一个请求结束了立即重置 clash 的连接并切换节点,由于是本地服务,基本切换起来没什么延迟。

    不过你说的把每个节点转换成本地 socks5 代理端口,我之前没听说过这种方案,搜索了下后,感觉确实是个不错的方案,本质是把每个节点变成一个入口,而 clash-meta 已经支持多入口。所以现在用机场当爬虫代理应该比较简单了。
    sead
        27
    sead  
       2024-10-02 18:04:31 +08:00   1
    PG + clickhouse , 撸过上千万的 asins ,IP 独享的情况下,20 秒左右一个请求不会 ban 。
    nyxsonsleep
        28
    nyxsonsleep  
       2024-10-02 23:39:18 +08:00   1
    举个例子,大量的物联网设备,大量的不开源路由器固件,甚至非官手机刷机包。低成本都是黑产出来的,那些东西的成本几乎为 0 ,正规渠道不可能竞争得过。而且爬数据基本是违法的,肉身不在国外属于作大死。
    privateproxies
        29
    privateproxies  
       2024-10-03 10:07:24 +08:00
    viking602
        30
    viking602  
       2024-10-03 11:35:33 +08:00   1
    @callmejoejoe #22 用的 mihomo 内核调用 API 实时监测是否用 每五秒调用一次切换节点的 API 然后用 gost 做的负载均衡 https://gost.run/
    callmejoejoe
        31
    callmejoejoe  
    OP
       2024-10-08 11:57:34 +08:00
    @nyxsonsleep 感谢科普,另外爬亚马逊也是违法的吗?有好多出名的工具都是爬亚马逊,我以为是可以爬的来着
    @viking602 非常感谢
    @sead PG 是啥
    sead
        32
    sead  
       2024-10-10 13:00:28 +08:00   1
    @callmejoejoe PG: postgresql, 另外爬虫在国外没有那么玄乎,公开数据随便爬,如果是违法的,谷歌公司的不是得全抓了
    piero66
        33
    piero66  
       2024-11-14 19:20:07 +08:00 via Android   1
    如果目标支持 ipv6 ,可以自建 asn bgp 广播
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     990 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 18:46 PVG 02:46 LAX 10:46 JFK 13:46
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86