![]() | 1 nutting 2019-12-30 10:08:44 +08:00 当然吧,领导得决策 |
2 zr8657 2019-12-30 10:15:16 +08:00 其实爬了也就爬了,这个问题的关键是如果真被抓了必然跑不了,得的钱值不值这个风险。可以看我去年的发帖,最后我把项目拖黄跑路了 |
![]() | 3 pmispig 2019-12-30 10:40:00 +08:00 ![]() 就算是领导给你发了邮件,他是主谋,真抓了你也跑不了 |
4 hehheh 2019-12-30 10:43:14 +08:00 给他说一下啊。。。首先用邮件大概说一下(留个底),然后再到他的办公室详细说说。。。 |
5 em70 2019-12-30 10:44:08 +08:00 最近被抓的爬虫公司是因为涉及爬取公民个人隐私信息,爬资讯只要不涉及人没问题,既然你都能看的,那就是公开数据了 |
6 wingtatlee 2019-12-30 10:45:44 +08:00 肯定要,否一出事就你了。如果你了,就算出事也是的策,你只是行... |
7 wangxiaoaer 2019-12-30 10:48:51 +08:00 @em70 #5 个人隐私信息如果可以公开看的话,那么爬取还有问题?如果没有公开,那特么所谓的爬虫就是入侵了,不抓他抓谁。 |
![]() | 8 locoz 2019-12-30 10:54:04 +08:00 当然侵权啊...爬别的公司网站的资讯发布到自己网站上还不算侵权的话,盗版站岂不是会更猖獗? |
9 bzsh 2019-12-30 10:55:53 +08:00 爬虫写得好,牢房吃的早.......现在不好搞了, 最好咨询咨询法务 |
![]() | 10 locoz 2019-12-30 10:56:15 +08:00 @wangxiaoaer #7 那些搞征信的是诱导用户提供了 Cookie,然后直接拿用户的账号爬的用户自己的数据。但是没有明确告知具体爬的内容,所以有问题。 |
11 pangleon 2019-12-30 10:56:35 +08:00 昨天不是有个热帖被抓进去了,其实楼主啥也没干,没参与出事的那个项目。 覆巢之下,焉有完卵 |
12 Caijl 2019-12-30 11:08:20 +08:00 我们公司以前技术部门就有人爬各药监部门的网站,后来被举报下线整改,然后公司开了一个试用期的员工,顶雷 |
![]() | 13 InternetExplorer 2019-12-30 11:16:01 +08:00 via Android ![]() 不要在公司做?参考:敲领导的头三下,让领导半夜三更找你来做(··)σ |
![]() | 14 xytdj 2019-12-30 11:16:29 +08:00 ![]() 1、邮件告知老板,对方是非公开数据,需要有授权才能抓取; 2、如果你明知老板没有授权、但非让你抓,你也不要干,别以为老板决策你只执行没什么大不了的,夸张点,你老板决策说让你抢银行,你敢执行吗?你觉得执行了会没事儿么? 3、如果你老板对你说有授权,那你就做吧。出了事儿你就说你提醒过,老板说有授权就行了。 |
![]() | 16 Myprincess 2019-12-30 11:26:16 +08:00 你就写一个邮件: 需求功能确认函-需确认 X 经理 ,收到您功能需求,在开发产品实现需求之前,作为公司技术有必要与您确认一下,利用程序抓取他人网站内容有可能给公司造成侵权风险。不管对方数据是否公开,请问公司各领导是否明白并已做好准备。 如果确认,请邮件回复同意已知悉,并请出具书面开发需求书。 我收到后会立即着手开发。 如在后期开发中有遇到疑问,我定当向您请教。谢。 |
![]() | 17 andylsr 2019-12-30 11:41:45 +08:00 via Android 发邮件也没用,抓你的时候你逃不了的,顶多证明你是从犯。。。 |
![]() | 18 HongJay 2019-12-30 11:46:07 +08:00 吃顿好的 |
![]() | 19 pansongya 2019-12-30 11:47:48 +08:00 ![]() 做一下 数据清洗 和 伪原创不就行了 天下文章一大抄 |
![]() | 20 Sqpan2 2019-12-30 11:56:00 +08:00 via Android 直接说不会爬虫不就得了吗 |
![]() | 21 wdv2ly 2019-12-30 11:57:10 +08:00 发邮件不是恰好证明了你知法犯法?? |
22 某日头条不就是这么起家的么? |
![]() | 23 Outshine 2019-12-30 13:23:03 +08:00 数据是否公开和你是否可以拿来用是两回事 就好比项目是否开源和是否收费也是两回事 |
24 aver4vex 2019-12-30 13:25:19 +08:00 公开数据也不是随便就能合法的爬取的。 |
![]() | 25 Dex7er 2019-12-30 14:04:02 +08:00 robot.txt ? |
27 wangxiaoaer 2019-12-30 14:13:33 +08:00 via Android @locoz 我觉得这被抓的话不亏。 |
![]() | 28 classyk 2019-12-30 14:15:03 +08:00 明显的侵权。公开数据绝不代表着所有权的变更。 |
29 liangch 2019-12-30 14:19:31 +08:00 公开是公开的事。不是说数据就没有授权。 比如,马路上有人放了 100w。你去拿了,就是犯罪。 |
![]() | 30 locoz 2019-12-30 14:20:12 +08:00 @wangxiaoaer #27 是啊,那种骗了 Cookie 瞎爬一通然后拿个人信息去卖的,被抓了真的是活该。 |
31 yuanbo6 2019-12-30 14:21:43 +08:00 ![]() 作为部门里面经常负责处理该性质问题的我……首先和领导表明要爬取的数据是什么性质的有什么潜在风险,其次要做好责任书性质的东西,别真出事儿了你才反应过来先是被领导当枪使然后又替领导挡子弹 |
![]() | 32 locoz 2019-12-30 14:25:04 +08:00 @Myprincess #16 正解为 #14 的做法,单发邮件但“收到书面开发需求书后会立即着手开发”的行为可以被判为知法犯法,如果出事了就是作为从犯处理的。 另外补充一下,“老板对你说有授权”这个需要保留证据,如果无法证明有这回事的话,这个做法就失效了。 |
![]() | 33 christin 2019-12-30 14:58:30 +08:00 via iPhone 我记得之前有个新闻 一个外包的程序员就提供了几行的爬虫数据 最后被判好多年 |
![]() | 35 paradoxs 2019-12-30 15:26:28 +08:00 爬虫高压线,现在真的别碰。 别说什么公开不公开的,没有对方授权就不行。 |
![]() | 36 locoz 2019-12-30 15:28:41 +08:00 |
![]() | 37 locoz 2019-12-30 15:30:14 +08:00 @caneman #34 像楼主公司这种“爬取别的公司网站的资讯然后发布到自己网站”的操作,你可以看一下文章中“别人的东西不要拿了之后放到自己家里”的部分买,属于很典型的风险操作。 |
![]() | 38 abcbuzhiming 2019-12-30 15:36:12 +08:00 @caneman 没出路,自己研究玩玩可以,别找死,国内之前几年个人隐私和大数据滥用问题如火如荼,必然会有反弹的时候,现在就是反弹的时候,以后的数据,你不拿到授权,就是公开在别人网站上的,你敢爬来用了就能被人告死。除非政策改变,否则对数据获取和利用的限制肯定是越来越严 |
![]() | 39 caneman 2019-12-30 15:39:36 +08:00 ![]() @locoz 其实说到底,能让你爬的数据一般价值有限,真正有价值的数据是不可能给你授权的。(购买接口就不叫爬虫了)。现在的形势,感觉做爬虫的就是走钢丝,把选择权交给对方,不告你啥事没有,一告你百分百出事.... 有商业价值的数据,感觉有一个算一个,只要爬,没一个是具有合法性的。。。只能想各种办法来规避对方告你的风险(要么不要让对方知道你在爬,要么你爬的速率和规模在对方容忍范围内),因为告你也是需要成本的。 还是好难做啊... |
![]() | 40 caneman 2019-12-30 15:42:01 +08:00 @abcbuzhiming 是啊,感觉就是赌,赌对面不会告你,保不齐哪次就栽了... |
![]() | 41 locoz 2019-12-30 15:54:51 +08:00 @caneman #39 只要不过分、展示出去的东西是经过加工的、能给源头带来利益,没人会想着搞你...而且即使搞你了也拿不出证据。(自己傻到用同一个 IP 一直怼的除外) |
![]() | 42 caneman 2019-12-30 16:11:14 +08:00 @locoz #41 这个当然知道了,有些数据来源非常单一,举个简单的例子,抖音 /微博的博主信息,点赞关注回复之类的,假使抖音 /微博他们完全不开放相关接口,你无论怎么加工,只要提供了相关服务必然会暴露你拥有信息这个事情,抖音虽然无法从服务器上面知道究竟是谁在爬它,但是它很容易知道谁在提供服务。只要想盈利你不可能把数据捂着放一边把,告了公司,法院和警方会寻找真正的爬虫 er,爬虫被抓的,基本也都不是从源头被追踪到的,都是从下游一直往上捋,捋到的。 也可以做,但是大环境确实比以前难多了,说到底,低调就对了,出头就是找死,除非你的服务对被爬方有益,但是也难说被卸磨杀驴,当然这些前提都是在商用领域, |
43 smilenceX 2019-12-30 16:20:30 +08:00 @wdv2ly 我记得以前听课的时候,有个说法是,知不知法是不影响定罪和量刑的。古装剧里“罪加一等”的前半句应该是“执法犯法”。 我不是专业人士,如果我说错了,请告诉我。 |
![]() | 44 Kig 2019-12-30 16:28:13 +08:00 看爬什么吧 |
![]() | 45 henices 2019-12-30 17:06:10 +08:00 |
![]() | 46 coderluan 2019-12-30 17:19:32 +08:00 如果是非“爬”不可的情况,我会选择油猴脚本的方式,这样从技术角度我只是分析了本地的网页数据,风险就从盗窃信息变成了未授权转载了......效率低负罪感也低点...... |
![]() | 47 codeduan 2019-12-30 18:40:02 +08:00 爬虫写得好,牢饭吃到饱 |
48 nvhanzhi 2019-12-30 18:50:13 +08:00 今日头条一天到晚在爬,人家老板成了巨富 |
49 qiuqiuwang99 2019-12-30 19:05:42 +08:00 via Android ![]() 三个字 不要碰 尤其有个人信息的 一条也不要爬 即使是个人公开也不可以。这是高压线,个人信息保护法马上要出,正愁没祭刀的呢。 |
![]() | 50 SwagXin 2019-12-30 23:54:29 +08:00 侵权,你就不应该发这个帖子,现在你知道了你还会爬吗。 |
51 niboy 2019-12-31 11:22:18 +08:00 别爬,如果东窗事发,程序员是要被开刀的 |