公司要用爬虫抓取数据,不知道是否侵权 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复粘贴 AI 生成的内容
zhaofy
V2EX    程序员

公司要用爬虫抓取数据,不知道是否侵权

  •  
  •  
    zhaofy 2019-12-30 10:05:33 +08:00 9045 次点击
    这是一个创建于 2113 天前的主题,其中的信息可能已经有所发展或是发生改变。
    请教一下各位,领导安排一个任务,爬取别的公司网站的资讯然后发布到自己网站上,频率不高,被监测到的可能性不大;但是我看该网站资讯下面注明了非公开数据,我是不是要汇报一下领导告诉他利害关系?
    52 条回复    2019-12-31 11:41:11 +08:00
    nutting
        1
    nutting  
       2019-12-30 10:08:44 +08:00
    当然吧,领导得决策
    zr8657
        2
    zr8657  
       2019-12-30 10:15:16 +08:00
    其实爬了也就爬了,这个问题的关键是如果真被抓了必然跑不了,得的钱值不值这个风险。可以看我去年的发帖,最后我把项目拖黄跑路了
    pmispig
        3
    pmispig  
       2019-12-30 10:40:00 +08:00   1
    就算是领导给你发了邮件,他是主谋,真抓了你也跑不了
    hehheh
        4
    hehheh  
       2019-12-30 10:43:14 +08:00
    给他说一下啊。。。首先用邮件大概说一下(留个底),然后再到他的办公室详细说说。。。
    em70
        5
    em70  
       2019-12-30 10:44:08 +08:00
    最近被抓的爬虫公司是因为涉及爬取公民个人隐私信息,爬资讯只要不涉及人没问题,既然你都能看的,那就是公开数据了
    wingtatlee
        6
    wingtatlee  
       2019-12-30 10:45:44 +08:00
    肯定要,否一出事就你了。如果你了,就算出事也是的策,你只是行...
    wangxiaoaer
        7
    wangxiaoaer  
       2019-12-30 10:48:51 +08:00
    @em70 #5 个人隐私信息如果可以公开看的话,那么爬取还有问题?如果没有公开,那特么所谓的爬虫就是入侵了,不抓他抓谁。
    locoz
        8
    locoz  
       2019-12-30 10:54:04 +08:00
    当然侵权啊...爬别的公司网站的资讯发布到自己网站上还不算侵权的话,盗版站岂不是会更猖獗?
    bzsh
        9
    bzsh  
       2019-12-30 10:55:53 +08:00
    爬虫写得好,牢房吃的早.......现在不好搞了, 最好咨询咨询法务
    locoz
        10
    locoz  
       2019-12-30 10:56:15 +08:00
    @wangxiaoaer #7 那些搞征信的是诱导用户提供了 Cookie,然后直接拿用户的账号爬的用户自己的数据。但是没有明确告知具体爬的内容,所以有问题。
    pangleon
        11
    pangleon  
       2019-12-30 10:56:35 +08:00
    昨天不是有个热帖被抓进去了,其实楼主啥也没干,没参与出事的那个项目。
    覆巢之下,焉有完卵
    Caijl
        12
    Caijl  
       2019-12-30 11:08:20 +08:00
    我们公司以前技术部门就有人爬各药监部门的网站,后来被举报下线整改,然后公司开了一个试用期的员工,顶雷
    InternetExplorer
        13
    InternetExplorer  
       2019-12-30 11:16:01 +08:00 via Android   1
    不要在公司做?参考:敲领导的头三下,让领导半夜三更找你来做(··)σ
    xytdj
        14
    xytdj  
       2019-12-30 11:16:29 +08:00   3
    1、邮件告知老板,对方是非公开数据,需要有授权才能抓取;
    2、如果你明知老板没有授权、但非让你抓,你也不要干,别以为老板决策你只执行没什么大不了的,夸张点,你老板决策说让你抢银行,你敢执行吗?你觉得执行了会没事儿么?
    3、如果你老板对你说有授权,那你就做吧。出了事儿你就说你提醒过,老板说有授权就行了。
    zhaofy
        15
    zhaofy  
    OP
       2019-12-30 11:25:02 +08:00
    @xytdj 刚跟领导说了,他说只抓公开的信息= =
    Myprincess
        16
    Myprincess  
       2019-12-30 11:26:16 +08:00
    你就写一个邮件:
    需求功能确认函-需确认
    X 经理 ,收到您功能需求,在开发产品实现需求之前,作为公司技术有必要与您确认一下,利用程序抓取他人网站内容有可能给公司造成侵权风险。不管对方数据是否公开,请问公司各领导是否明白并已做好准备。
    如果确认,请邮件回复同意已知悉,并请出具书面开发需求书。
    我收到后会立即着手开发。
    如在后期开发中有遇到疑问,我定当向您请教。谢。
    andylsr
        17
    andylsr  
       2019-12-30 11:41:45 +08:00 via Android
    发邮件也没用,抓你的时候你逃不了的,顶多证明你是从犯。。。
    HongJay
        18
    HongJay  
       2019-12-30 11:46:07 +08:00
    吃顿好的
    pansongya
        19
    pansongya  
       2019-12-30 11:47:48 +08:00   1
    做一下 数据清洗 和 伪原创不就行了 天下文章一大抄
    Sqpan2
        20
    Sqpan2  
       2019-12-30 11:56:00 +08:00 via Android
    直接说不会爬虫不就得了吗
    wdv2ly
        21
    wdv2ly  
       2019-12-30 11:57:10 +08:00
    发邮件不是恰好证明了你知法犯法??
    xiebruce
        22
    xiebruce  
       2019-12-30 13:21:23 +08:00
    某日头条不就是这么起家的么?
    Outshine
        23
    Outshine  
       2019-12-30 13:23:03 +08:00
    数据是否公开和你是否可以拿来用是两回事
    就好比项目是否开源和是否收费也是两回事
    aver4vex
        24
    aver4vex  
       2019-12-30 13:25:19 +08:00
    公开数据也不是随便就能合法的爬取的。
    Dex7er
        25
    Dex7er  
       2019-12-30 14:04:02 +08:00
    robot.txt ?
    zhaofy
        26
    zhaofy  
    OP
       2019-12-30 14:13:04 +08:00
    @Dex7er
    Disallow: /zixun/
    Disallow: /vote/
    wangxiaoaer
        27
    wangxiaoaer  
       2019-12-30 14:13:33 +08:00 via Android
    @locoz 我觉得这被抓的话不亏。
    classyk
        28
    classyk  
       2019-12-30 14:15:03 +08:00
    明显的侵权。公开数据绝不代表着所有权的变更。
    liangch
        29
    liangch  
       2019-12-30 14:19:31 +08:00
    公开是公开的事。不是说数据就没有授权。
    比如,马路上有人放了 100w。你去拿了,就是犯罪。
    locoz
        30
    locoz  
       2019-12-30 14:20:12 +08:00
    @wangxiaoaer #27 是啊,那种骗了 Cookie 瞎爬一通然后拿个人信息去卖的,被抓了真的是活该。
    yuanbo6
        31
    yuanbo6  
       2019-12-30 14:21:43 +08:00   1
    作为部门里面经常负责处理该性质问题的我……首先和领导表明要爬取的数据是什么性质的有什么潜在风险,其次要做好责任书性质的东西,别真出事儿了你才反应过来先是被领导当枪使然后又替领导挡子弹
    locoz
        32
    locoz  
       2019-12-30 14:25:04 +08:00
    @Myprincess #16 正解为 #14 的做法,单发邮件但“收到书面开发需求书后会立即着手开发”的行为可以被判为知法犯法,如果出事了就是作为从犯处理的。

    另外补充一下,“老板对你说有授权”这个需要保留证据,如果无法证明有这回事的话,这个做法就失效了。
    christin
        33
    christin  
       2019-12-30 14:58:30 +08:00 via iPhone
    我记得之前有个新闻 一个外包的程序员就提供了几行的爬虫数据 最后被判好多年
    caneman
        34
    caneman  
       2019-12-30 15:24:21 +08:00   1
    @locoz 那现在爬虫的出路在哪?只能逼迫转行?
    paradoxs
        35
    paradoxs  
       2019-12-30 15:26:28 +08:00
    爬虫高压线,现在真的别碰。 别说什么公开不公开的,没有对方授权就不行。
    locoz
        36
    locoz  
       2019-12-30 15:28:41 +08:00
    @caneman #34 看看我写的这篇文章: https://mp.weixin.qq.com/s/aXr-ZE0ZifTm2h5w8BGh_Q

    只要不搞那些有风险的操作,其实没啥关系的。
    locoz
        37
    locoz  
       2019-12-30 15:30:14 +08:00
    @caneman #34 像楼主公司这种“爬取别的公司网站的资讯然后发布到自己网站”的操作,你可以看一下文章中“别人的东西不要拿了之后放到自己家里”的部分买,属于很典型的风险操作。
    abcbuzhiming
        38
    abcbuzhiming  
       2019-12-30 15:36:12 +08:00
    @caneman 没出路,自己研究玩玩可以,别找死,国内之前几年个人隐私和大数据滥用问题如火如荼,必然会有反弹的时候,现在就是反弹的时候,以后的数据,你不拿到授权,就是公开在别人网站上的,你敢爬来用了就能被人告死。除非政策改变,否则对数据获取和利用的限制肯定是越来越严
    caneman
        39
    caneman  
       2019-12-30 15:39:36 +08:00   1
    @locoz 其实说到底,能让你爬的数据一般价值有限,真正有价值的数据是不可能给你授权的。(购买接口就不叫爬虫了)。现在的形势,感觉做爬虫的就是走钢丝,把选择权交给对方,不告你啥事没有,一告你百分百出事....

    有商业价值的数据,感觉有一个算一个,只要爬,没一个是具有合法性的。。。只能想各种办法来规避对方告你的风险(要么不要让对方知道你在爬,要么你爬的速率和规模在对方容忍范围内),因为告你也是需要成本的。

    还是好难做啊...
    caneman
        40
    caneman  
       2019-12-30 15:42:01 +08:00
    @abcbuzhiming 是啊,感觉就是赌,赌对面不会告你,保不齐哪次就栽了...
    locoz
        41
    locoz  
       2019-12-30 15:54:51 +08:00
    @caneman #39 只要不过分、展示出去的东西是经过加工的、能给源头带来利益,没人会想着搞你...而且即使搞你了也拿不出证据。(自己傻到用同一个 IP 一直怼的除外)
    caneman
        42
    caneman  
       2019-12-30 16:11:14 +08:00
    @locoz #41 这个当然知道了,有些数据来源非常单一,举个简单的例子,抖音 /微博的博主信息,点赞关注回复之类的,假使抖音 /微博他们完全不开放相关接口,你无论怎么加工,只要提供了相关服务必然会暴露你拥有信息这个事情,抖音虽然无法从服务器上面知道究竟是谁在爬它,但是它很容易知道谁在提供服务。只要想盈利你不可能把数据捂着放一边把,告了公司,法院和警方会寻找真正的爬虫 er,爬虫被抓的,基本也都不是从源头被追踪到的,都是从下游一直往上捋,捋到的。

    也可以做,但是大环境确实比以前难多了,说到底,低调就对了,出头就是找死,除非你的服务对被爬方有益,但是也难说被卸磨杀驴,当然这些前提都是在商用领域,
    smilenceX
        43
    smilenceX  
       2019-12-30 16:20:30 +08:00
    @wdv2ly 我记得以前听课的时候,有个说法是,知不知法是不影响定罪和量刑的。古装剧里“罪加一等”的前半句应该是“执法犯法”。
    我不是专业人士,如果我说错了,请告诉我。
    Kig
        44
    Kig  
       2019-12-30 16:28:13 +08:00
    看爬什么吧
    henices
        45
    henices  
       2019-12-30 17:06:10 +08:00
    coderluan
        46
    coderluan  
       2019-12-30 17:19:32 +08:00
    如果是非“爬”不可的情况,我会选择油猴脚本的方式,这样从技术角度我只是分析了本地的网页数据,风险就从盗窃信息变成了未授权转载了......效率低负罪感也低点......
    codeduan
        47
    codeduan  
       2019-12-30 18:40:02 +08:00
    爬虫写得好,牢饭吃到饱
    nvhanzhi
        48
    nvhanzhi  
       2019-12-30 18:50:13 +08:00
    今日头条一天到晚在爬,人家老板成了巨富
    qiuqiuwang99
        49
    qiuqiuwang99  
       2019-12-30 19:05:42 +08:00 via Android   1
    三个字 不要碰 尤其有个人信息的 一条也不要爬 即使是个人公开也不可以。这是高压线,个人信息保护法马上要出,正愁没祭刀的呢。
    SwagXin
        50
    SwagXin  
       2019-12-30 23:54:29 +08:00
    侵权,你就不应该发这个帖子,现在你知道了你还会爬吗。
    niboy
        51
    niboy  
       2019-12-31 11:22:18 +08:00
    别爬,如果东窗事发,程序员是要被开刀的
    lisiqi
        52
    lisiqi  
       2019-12-31 11:41:11 +08:00
    @coderluan #46 好主意。。。。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2792 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 13:22 PVG 21:22 LAX 06:22 JFK 09:22
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86