
RT, 帮公司做了个简单的爬虫, 大概是爬取某电商的价格信息, 也不需要登录啥的, 都是公开的, 看了下 https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China 还是有点慌的
PS. 我的项目只负责抓取, 抓到以后直接丢给其他人的接口入库, 照理我也不负责存储和使用这些数据
如果有风险, 如何规避? 需要在项目文档里写免责声明吗?
1 NicholasK 2019 年 11 月 19 日 还是写免责吧,爬虫现在不注意,爬着爬着就爬进去了 |
2 fank99 2019 年 11 月 19 日 不涉及个人信息、版权信息大概率没事 电商价格这种,极小概率有事 |
3 zarte 2019 年 11 月 19 日 降低速率,要不然有问题都算你头上,写了免责也没用。 |
4 shehuizhuyi 2019 年 11 月 19 日 只要别人肉到你就没事吧 GitHub 一堆翻墙软件 |
5 zhoulifu 2019 年 11 月 19 日 爬虫写的好,牢饭吃到饱 |
6 InkStone 2019 年 11 月 19 日 有没有风险看两点:1. 爬电商数据会不会让对方不开心; 2. 你是不是知道爬虫是用来抓电商数据的。 第二点我们已经确认了,第一点出问题的概率不大,但不是 0. |
7 Tink PRO 没事 |
8 xuanbg 2019 年 11 月 19 日 别爬个人隐私信息,这个最近抓得很严。很多 APP 涉嫌不当采集隐私信息或采集隐私信息未提示被处罚了。 |
9 houzhimeng 2019 年 11 月 19 日 爬虫所有信息都是伪造的,怎么被抓的? |
10 andylsr 2019 年 11 月 19 日 via Android 你的电商价格只要用于产品,告你不正当竞争,妥妥的 |
12 FaceBug 2019 年 11 月 19 日 出问题的都是爬个人隐私的,比如你爬了用户的订单、银行卡信息,无论用户是否同意,都尽量不要碰。 其次就是爬的速度了,比如淘宝京东这种大站,你一秒爬个几百几千次,问题不大,但是你要把人家爬成了双十一的流量,你也跑不掉的。 |
14 westoy 2019 年 11 月 19 日 |
15 BlackZhu 2019 年 11 月 19 日 请教一下,公司有个爬虫,爬的是一些农作物网站的信息,然后集中显示到一个网站上,偶尔会爬些农作物专家的姓名,电话这种信息,请问是违法的吗? |
18 yangzzzzzzzt1 2019 年 11 月 19 日 @cepczkd 能跑成双十一流量也是一种本事 |
19 NerverLibis 2019 年 11 月 19 日 python 学得好 牢饭吃到老 |
20 bobuick 2019 年 11 月 19 日 爬虫写的好, 老婆来不了 |
21 RyuZheng 2019 年 11 月 19 日 我要是爬淘宝上一些商品的评论呢,也不是公司用,就是拿来自己做一下词云、机器学习分析玩玩;违法吗? |
22 dr1q65MfKFKHnJr6 2019 年 11 月 19 日 爬虫 别暴露开发者个人信息, 有必要的话, 代码混淆工具用起来。 |
23 tomczhen 2019 年 11 月 19 日 从案例看明确的违法行为只有爬隐私信息这条,涉及逆向和破解的,如果被第三方非法利用,也会被连带。另外即便是公开信息,如果造成不良影响也是有风险的。 不过说实话,从目前越来越封闭的趋势看,Web 上连正常用户体验都没法保证。爬虫除了常规的反爬之外,获取信息的难度会越来越大,必然会涉及到破解突破限制,或者通过逆向 APP 爬取。走到这一步,可以说已经是在门口站着了,剩下的已经不是自己可以控制的了(虽然目前看几率不高)。 |
24 Lockeysama 2019 年 11 月 19 日 面向监狱编程 |
25 zaul 2019 年 11 月 19 日 做好心理准备,在乎于你的竞争对手想不想搞你 |
26 anteros 2019 年 11 月 19 日 只要别人告你,你的程序影响了它的项目正常运营,比如说你把他程序爬跨了,你就吃牢饭。 |
27 emisora 2019 年 11 月 19 日 还在学爬虫就感觉慌的一批 |
28 darknoll 2019 年 11 月 19 日 先别担心风险啥的,你以为人网站就那么随便让你爬的,你先试试你的程序能稳定跑起来再说。 |
29 Sparetire OP @zarte 目前随机几秒抓一条, 平均快十秒了, 应该还好 @NerverLibis nodejs 选手... @cedoo22 公司项目, 如果公司给告了, 肯定可以找公司拿到我提交记录吧... @darknoll 问题是已经上线了啊...我寻思着标题里说 "写了个" 应该已经是完成时的时态了吧 |
30 mytsing520 PRO 写免责只是自欺欺人 |
31 dosmlp 2019 年 11 月 19 日 降低频率就行了,还有就是不要公开源码 |
32 18k 2019 年 11 月 19 日 这种理论上应该可以吧 不然那些比价网站不是都得进去 来个律师解读下 |
34 TheFLY 2019 年 11 月 19 日 @shehuizhuyi 数据来源方给公司发律师函,然后公司把你推出去,常规操作 |
35 IanPeverell 2019 年 11 月 19 日 大公司的网站应该都有 robots.txt ,里面已经写好了限制,遵守应该就可以了。比如 https://www.jd.com/robots.txt |
36 guanhui07 2019 年 11 月 19 日 降低频率 代码混淆 |
37 rubycedar 2019 年 11 月 19 日 via iPhone 要是犯法的话 慢慢买的开发者早进去了吧 |
38 crackhopper 2019 年 11 月 19 日 这种事情应该拒绝做。之前有个 case 貌似程序员被抓了。真要做,你要想好: 1. 速率,一般爬的速率大很成问题 2. 行为,如果对方不允许爬取,你要掩盖自己的行为。IP,访问路径,访问模式等等。 反正无论如何都有风险。 |
39 FaceBug 2019 年 11 月 19 日 @muzuiget 我举个例子,我做了一个话费查询软件,你本人在我的系统里输入了你的账号密码,本意是查询余额。但是我不仅爬了你的余额,还爬了你的通讯记录和你的个人资料。 |
40 zhaofy 2019 年 11 月 19 日 woc 我帮公司写了几个爬各地工信部新闻的 会不会有事啊。。 |
42 realpg PRO 天天一帮叫嚣看 tos 的大佬 在爬虫问题上就无视 tos 了 |
43 nvhanzhi 2019 年 11 月 19 日 爬公开信息,别把人家服务器爬挂了就行 |
44 snoopygao 2019 年 11 月 19 日 巧了,还有像你一样的 10000 个人,也以“说得过去”的速度爬同一家网站,把人家搞挂了 |
45 Raymon111111 2019 年 11 月 19 日 搜索一下 爬虫 犯罪 |
46 dr1q65MfKFKHnJr6 2019 年 11 月 19 日 @Sparetire 如果起诉公司,这都是对公司追责,你个人只要是在公司授意下做的开发,感觉责任较小。 |
47 dearmymy 2019 年 11 月 19 日 互联网这些公司翻旧账没一个干净的。基本有些线别碰其他就好,爬虫线就是个人隐私。其他的你爬速度别太过分就好了 |
48 em70 2019 年 11 月 19 日 搜索引擎的爬虫天天到处爬,也没见犯罪,最近被抓的都是涉及个人隐私信息的金融数据爬虫,爬公开电商信息被抓不存在的,可以研究下对方的 robot.txt |
49 justin2018 2019 年 11 月 19 日 写好了 放到 Github 的小号上 你说是从 github 上找到的 这样可以吗 o()o |
50 MrJie 2019 年 11 月 20 日 爬虫,从入门到入狱 |
51 ty89 2019 年 11 月 20 日 爬虫写的好,老婆改嫁早 |