关于爬虫的风险,请大家给我点意见 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
pol
V2EX    问与答

关于爬虫的风险,请大家给我点意见

  •  
  •   pol 2024-07-16 15:05:30 +08:00 2731 次点击
    这是一个创建于 452 天前的主题,其中的信息可能已经有所发展或是发生改变。

    事情是这样的 公司想推销自己的产品,但这些东西基本上都需要投标才行

    那么我们一个小公司,是不知道有那些老板需要采购,那么就想到去 xx 投标招标网,这种数据聚合平台(平台提供了付费 api ,老板感觉贵)找客户

    由于他们手动一个个复制粘贴慢,就想让我们这里的 java 开发写爬虫来拿数据(电话,名字,地址)

    上面是故事背景

    我想的是,这种公司性质的爬虫,算不算商用,会不会有法律风险。

    其他公司的爬虫工程师是怎么操作的,他们不会有风险吗,或者是有没有什么规避的方法

    如果不开发爬虫,使用 rpa 那种自动化工具来爬数据,会不会有风险呢。(用 rpa 的话,风险是公司还是开发者还是 rpa 工具)

    27 条回复    2024-07-17 14:05:22 +08:00
    yzding
        1
    yzding  
       2024-07-16 15:14:43 +08:00 via iPhone
    被发现了就违法, 没被发现就不违法. 是你公司的,你还是别趟了
    datehoer
        2
    datehoer  
       2024-07-16 15:38:14 +08:00
    1. 被发现了就要进去,电话姓名算敏感数据了。gov 别碰,伸手必被抓。
    2. 看公司性质,有些公司没事,但大多数没资质的都会完蛋,一告一个准。基本上就是挂代理。
    3. 看来你不理解爬虫啊,使用别人的工具不也是爬取数据么。风险主要是个人其实,反正被抓的程序员基本上都要判几缓几。
    luzihang
        3
    luzihang  
       2024-07-16 15:41:05 +08:00
    看影响。是否影响 C 端的日常生活,是否对 B 端造成大量经济损失或者不正常竞争。
    luzihang
        4
    luzihang  
       2024-07-16 15:42:45 +08:00
    RPA 是封装给市场的概念。本质还是那些技术。
    pol
        5
    pol  
    OP
       2024-07-16 15:43:55 +08:00
    @datehoer 资质这个东西具体指的是什么,我不太了解,确实我也认为我们要的数据是敏感数据不太好。

    我给公司写爬虫,被发现了,是开发者背锅吗?
    pol
        6
    pol  
    OP
       2024-07-16 15:50:37 +08:00
    @luzihang #4 公司是想为了减少人力一行行看数据,肯定不会疯狂,不会导致对方服务不可用
    spacebound
        7
    spacebound  
       2024-07-16 15:54:19 +08:00
    @pol #6 还是 1 楼那句话,被发现了就违法,没被发现就不违法,其他的自己衡量吧
    Sayuri
        8
    Sayuri  
       2024-07-16 15:55:34 +08:00 via Android
    尽量使用非国内服务商提供的境外 IP 来进行操作。
    Sayuri
        9
    Sayuri  
       2024-07-16 15:56:37 +08:00 via Android
    如果再避免风险,则尽量控制一下请求的频率,不要让对方网站收到大量请求而崩溃。
    可以用 puppeteer-extra 。
    teddy2725
        10
    teddy2725  
       2024-07-16 15:56:44 +08:00
    电话姓名地址属于公民个人信息,很容易遭
    elonlee
        11
    elonlee  
       2024-07-16 15:58:52 +08:00
    首先说结论: RPA 只是工具,违法主体是工具使用方.

    如果要安全爬取建议使用代理爬取不要用公司或者家庭网络去爬
    luzihang
        12
    luzihang  
       2024-07-16 15:59:31 +08:00
    @pol 内部效率优化,一般没什么问题。对代码质量提出了要求,写的优雅点,别那么粗暴。还有招投标,是有难度的。
    luzihang
        13
    luzihang  
       2024-07-16 16:00:27 +08:00
    RPA 有点像低代码平台,用户间可以分享脚本。但是 RPA 平台又规避了场景用途的风险。
    sagaxu
        14
    sagaxu  
       2024-07-16 16:01:25 +08:00
    内部悄悄用,对方没法发现,那就不违法。但如果老板酒后在他的朋友面前吹牛,做了个系统很牛逼,不用付费也能用,那就呵呵了。

    换个思路,做个浏览器插件,自动提取打开页面的联系信息,那就不是爬虫了。
    datehoer
        15
    datehoer  
       2024-07-16 16:07:29 +08:00
    @pol
    1. 资质:例如 某科研院所,某 xxx 单位。一般是跟国家沾边的
    2. 显而易见,大家都有锅。
    luzihang
        16
    luzihang  
       2024-07-16 16:13:23 +08:00
    电话,名字,地址,这几个字段,在招投标领域,都是非常敏感,值钱的。

    先不论销售的推荐,打电话的推销方式是否合理。

    比如你的 xx 投标招标网,也要购买 vip 才能访问吧,才能拿到数据。比如难度在数据是加密的,也有可能在程序化拿数据的时候,就被封了。
    pol
        17
    pol  
    OP
       2024-07-16 16:17:55 +08:00
    @luzihang #16 对对对,我就是认为,不管是不是敏感信息,对于招标信息网这种来说 ,电话和名字地址这几个对于他们来说是核心, 并且人家也提供了 api 付费接口的情况下,我通过爬虫获取,一定是动了人家的利益了,那我认为被发现一点点就会被搞
    luzihang
        18
    luzihang  
       2024-07-16 16:35:50 +08:00
    @pol 手动一个个复制粘贴慢,需求的疼点是慢,还是手动。如果是慢,那可能无解,去买 API 吧。如果是手动,那还可以开发介入下。
    pol
        19
    pol  
    OP
       2024-07-16 16:42:43 +08:00
    @luzihang #18 更倾向于需要手动,慢点无所谓。刚刚刷 v 站看到我们要爬的网站竟然是 v 友的站点,在推广节点还有贴子呢
    Jisxu
        20
    Jisxu  
       2024-07-16 17:27:21 +08:00
    楼上也提到了,做个浏览器扩展/插件,对页面信息做自动化或者半自动化提取,控制好频次,这样可以规避。
    然后这个扩展也不要公开,就用的几个人内部传播就好了
    luzihang
        21
    luzihang  
       2024-07-17 06:23:09 +08:00
    @Jisxu 浏览器插件/扩展,这个场景,这个设计最好。前端 JS 技术栈了,不是 Java 开发常用的。
    ansemz
        22
    ansemz  
       2024-07-17 08:52:47 +08:00
    有付费 api ,为啥还要冒险?
    pol
        23
    pol  
    OP
       2024-07-17 09:32:52 +08:00
    @Jisxu 确实啊,这个浏览器插件最合适
    pol
        24
    pol  
    OP
       2024-07-17 09:33:28 +08:00
    @ansemz api 是包年的,好几万,抠逼老板不舍得,只想白嫖
    AdminZ
        25
    AdminZ  
       2024-07-17 10:39:35 +08:00
    我猜测你要爬的是 120.bid ,但是我发给我经理看,他说这个上面放出来的招投标大部分都被控了,意思就是没价值?我不懂了
    zcybupt2016
        26
    zcybupt2016  
       2024-07-17 14:01:42 +08:00
    几万块都不想掏那就还是让他们自己复制粘贴吧,这么抠你写了也落不到什么好处
    clifftts
        27
    clifftts  
       2024-07-17 14:05:22 +08:00
    别人付费才提供的数据,你不付费就从人家那拿到了数据,绝对违法了,被发现肯定吃官司
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2317 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 15:52 PVG 23:52 LAX 08:52 JFK 11:52
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86