关于爬虫爬取数据的法律风险规避问题 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
James369
V2EX    问与答

关于爬虫爬取数据的法律风险规避问题

  •  
  •   James369 2021-06-30 10:31:48 +08:00 2872 次点击
    这是一个创建于 1565 天前的主题,其中的信息可能已经有所发展或是发生改变。
    爬虫很好用,但爬取的数据存在法律风险,特别是商业公司的数据,你一爬可能把你告上法厅。

    但如果是非商业公司的数据,比如 ZF 机构、事业单位等一些面向公众 /大众公开的数据,使劲爬这些数据是不是没有什么问题呢?(为自己的机智点个赞,嘿~)
    16 条回复    2022-04-24 11:02:22 +08:00
    AoEiuV020
        1
    AoEiuV020  
       2021-06-30 10:37:07 +08:00   1
    爬虫除了数据应该还涉及影响服务器正常运作,破坏信息系统罪风险?
    fank99
        2
    fank99  
       2021-06-30 10:40:23 +08:00
    我就一直很纳闷,天眼查不也是爬 zf 数据吗,怎么一点事都没有
    xingshu1990
        3
    xingshu1990  
       2021-06-30 10:43:01 +08:00
    @fank99 #2 有一些是线下沟通交谈了以后,现场拷数据的。一直爬的话,爬虫成本也很大(破掉验证码什么的)
    DarkFire
        4
    DarkFire  
       2021-06-30 10:45:05 +08:00
    @fank99 有果汁背景的,难道要自己办自己啊?
    James369
        5
    James369  
    OP
       2021-06-30 10:45:41 +08:00
    @fank99 我认为这种应该是商业合作,比如给你开个接口调用数据之类
    coderluan
        6
    coderluan  
       2021-06-30 13:12:54 +08:00
    这要没事, 爬虫不就是合法的服务器攻击手段了吗, 使劲爬肯定不行的, 只能单线程高延迟慢慢爬, 甚至可以用浏览器前端爬, 这样对方发现不了, 你甚至完全可以说, 咱就是一个个打开页面, 手动复制粘贴的, 笑死, 根本没有爬.
    James369
        7
    James369  
    OP
       2021-06-30 13:39:32 +08:00
    @coderluan 并不是说爬取的技术手段上的问题,而是数据的合法性,获取的合法性,使用的合法性
    alexmmog
        8
    alexmmog  
       2021-06-30 13:49:23 +08:00
    看用户协议
    imn1
        9
    imn1  
       2021-06-30 13:59:47 +08:00
    我爬豆瓣是 10 秒开一页,比我浏览还慢,只是自动化了,不用逐个输入查找再 copy/paste

    如果一秒开一万页,你看看哪个网站没意见?包括 ZF 事业单位
    我没有让你去试哦,别说我教唆,先免责一下,
    coderluan
        10
    coderluan  
       2021-06-30 14:03:14 +08:00
    @James369 获取是肯定合法的, 你拿到手什么都不干, 这个状态可能是没任何问题的, 但是使用的话, 得具体情况具体分析了.
    zictos
        11
    zictos  
       2021-06-30 14:09:29 +08:00
    @James369 #7 法律从没规定过数据合法性。
    相关侵入计算机的法律都指的是技术手段,比如破解别人服务器密码获取数据。不会因为数据没有版权问题就是合法的,数据是否有版权问题不会改变违法的性质。真要处理版权侵权问题,是有侵犯著作权的相关法律的,那是另一回事了。
    zictos
        12
    zictos  
       2021-06-30 14:12:22 +08:00
    @imn1 #9 10 秒一页问题不大,但是如果有验证码并且用自动化的方式去识别验证码就难说了
    antalwang
        13
    antalwang  
       2021-07-01 08:32:06 +08:00 via iPhone
    这么一说我突然有点害怕,之前帮老师(文本研究用)爬取了一些视频网站的视频弹幕和评论数据,想问下这会涉及法律问题嘛...
    sean233
        15
    sean233  
       2021-07-08 17:40:51 +08:00
    爬国外网站,应该可以避免这个问题
    Nostalgia
        16
    Nostalgia  
       2022-04-24 11:02:22 +08:00
    @imn1 老哥,求问下你是用自己的账号爬,还是用一批账号去爬…
    某也在爬豆瓣,方便加微信聊下么?
    c2lsZW50X3doYWxl ( base64 )
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2464 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 15:29 PVG 23:29 LAX 08:29 JFK 11:29
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86