事情是这样的 公司想推销自己的产品,但这些东西基本上都需要投标才行
那么我们一个小公司,是不知道有那些老板需要采购,那么就想到去 xx 投标招标网,这种数据聚合平台(平台提供了付费 api ,老板感觉贵)找客户
由于他们手动一个个复制粘贴慢,就想让我们这里的 java 开发写爬虫来拿数据(电话,名字,地址)
上面是故事背景
我想的是,这种公司性质的爬虫,算不算商用,会不会有法律风险。
其他公司的爬虫工程师是怎么操作的,他们不会有风险吗,或者是有没有什么规避的方法
如果不开发爬虫,使用 rpa 那种自动化工具来爬数据,会不会有风险呢。(用 rpa 的话,风险是公司还是开发者还是 rpa 工具)
![]() | 1 yzding 2024-07-16 15:14:43 +08:00 via iPhone 被发现了就违法, 没被发现就不违法. 是你公司的,你还是别趟了 |
2 datehoer 2024-07-16 15:38:14 +08:00 1. 被发现了就要进去,电话姓名算敏感数据了。gov 别碰,伸手必被抓。 2. 看公司性质,有些公司没事,但大多数没资质的都会完蛋,一告一个准。基本上就是挂代理。 3. 看来你不理解爬虫啊,使用别人的工具不也是爬取数据么。风险主要是个人其实,反正被抓的程序员基本上都要判几缓几。 |
3 luzihang 2024-07-16 15:41:05 +08:00 看影响。是否影响 C 端的日常生活,是否对 B 端造成大量经济损失或者不正常竞争。 |
4 |
5 pol OP |
![]() | 7 spacebound 2024-07-16 15:54:19 +08:00 @pol #6 还是 1 楼那句话,被发现了就违法,没被发现就不违法,其他的自己衡量吧 |
![]() | 8 Sayuri 2024-07-16 15:55:34 +08:00 via Android 尽量使用非国内服务商提供的境外 IP 来进行操作。 |
![]() | 9 Sayuri 2024-07-16 15:56:37 +08:00 via Android 如果再避免风险,则尽量控制一下请求的频率,不要让对方网站收到大量请求而崩溃。 可以用 puppeteer-extra 。 |
![]() | 10 teddy2725 2024-07-16 15:56:44 +08:00 电话姓名地址属于公民个人信息,很容易遭 |
![]() | 11 elonlee 2024-07-16 15:58:52 +08:00 首先说结论: RPA 只是工具,违法主体是工具使用方. 如果要安全爬取建议使用代理爬取不要用公司或者家庭网络去爬 |
13 luzihang 2024-07-16 16:00:27 +08:00 RPA 有点像低代码平台,用户间可以分享脚本。但是 RPA 平台又规避了场景用途的风险。 |
![]() | 14 sagaxu 2024-07-16 16:01:25 +08:00 内部悄悄用,对方没法发现,那就不违法。但如果老板酒后在他的朋友面前吹牛,做了个系统很牛逼,不用付费也能用,那就呵呵了。 换个思路,做个浏览器插件,自动提取打开页面的联系信息,那就不是爬虫了。 |
16 luzihang 2024-07-16 16:13:23 +08:00 电话,名字,地址,这几个字段,在招投标领域,都是非常敏感,值钱的。 先不论销售的推荐,打电话的推销方式是否合理。 比如你的 xx 投标招标网,也要购买 vip 才能访问吧,才能拿到数据。比如难度在数据是加密的,也有可能在程序化拿数据的时候,就被封了。 |
17 pol OP @luzihang #16 对对对,我就是认为,不管是不是敏感信息,对于招标信息网这种来说 ,电话和名字地址这几个对于他们来说是核心, 并且人家也提供了 api 付费接口的情况下,我通过爬虫获取,一定是动了人家的利益了,那我认为被发现一点点就会被搞 |
18 luzihang 2024-07-16 16:35:50 +08:00 @pol 手动一个个复制粘贴慢,需求的疼点是慢,还是手动。如果是慢,那可能无解,去买 API 吧。如果是手动,那还可以开发介入下。 |
19 pol OP @luzihang #18 更倾向于需要手动,慢点无所谓。刚刚刷 v 站看到我们要爬的网站竟然是 v 友的站点,在推广节点还有贴子呢 |
![]() | 20 Jisxu 2024-07-16 17:27:21 +08:00 楼上也提到了,做个浏览器扩展/插件,对页面信息做自动化或者半自动化提取,控制好频次,这样可以规避。 然后这个扩展也不要公开,就用的几个人内部传播就好了 |
22 ansemz 2024-07-17 08:52:47 +08:00 有付费 api ,为啥还要冒险? |
25 AdminZ 2024-07-17 10:39:35 +08:00 我猜测你要爬的是 120.bid ,但是我发给我经理看,他说这个上面放出来的招投标大部分都被控了,意思就是没价值?我不懂了 |
![]() | 26 zcybupt2016 2024-07-17 14:01:42 +08:00 几万块都不想掏那就还是让他们自己复制粘贴吧,这么抠你写了也落不到什么好处 |
![]() | 27 clifftts 2024-07-17 14:05:22 +08:00 别人付费才提供的数据,你不付费就从人家那拿到了数据,绝对违法了,被发现肯定吃官司 |