公司反爬虫产品测试,目前处于 alpha 版本,正在寻求测试客户,无奈社区问一波,有需求的伙伴看过来 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
chocho
V2EX    Python

公司反爬虫产品测试,目前处于 alpha 版本,正在寻求测试客户,无奈社区问一波,有需求的伙伴看过来

  •  1
     
  •   chocho 2019-04-02 10:56:00 +08:00 4986 次点击
    这是一个创建于 2385 天前的主题,其中的信息可能已经有所发展或是发生改变。
    反爬虫产品,主要为网站提供反爬虫安全防护,目前有一些业务方集成在自己的业务中去做,我们提供的是一整套防护方案,包括爬虫发现和拦截手段,部署结构采用流量反代的模型,既不影响原业务的开展,也可以拦截大量脚本,模拟器流量。

    前期测试阶段主要通过合作的形式,alpha 版本提供免费测试名额。
    第 1 条附言    2019-04-02 11:54:46 +08:00

    wechat

    第 2 条附言    2019-04-15 16:45:45 +08:00
    添加微信号:17671601524 把你拉进群
    38 条回复    2019-05-01 13:57:42 +08:00
    Ct5T66PVR1bW7b2z
        1
    Ct5T66PVR1bW7b2z  
       2019-04-02 11:14:07 +08:00 via Android
    不如发个 Demo,让大家测试一下是否真的能防爬虫
    iannil
        2
    iannil  
       2019-04-02 11:14:54 +08:00
    @Abbeyok #1 为什么你回复我能看到你的表情
    StarRED
        3
    StarRED  
       2019-04-02 11:16:52 +08:00 via Android
    Ct5T66PVR1bW7b2z
        4
    Ct5T66PVR1bW7b2z  
       2019-04-02 11:17:05 +08:00
    @iannil 可能这就是心有灵犀
    chocho
        5
    chocho  
    OP
       2019-04-02 11:17:47 +08:00
    这几天陆续会放出一些 demo 和接入方式给大家
    chocho
        6
    chocho  
    OP
       2019-04-02 11:45:47 +08:00
    感兴趣的扫码,进群,里面主要交流测试网站和测试接入,也可以在线提问,可以交流反爬虫知识,测试阶段也可能会有些有偿的竞赛,不排除设奖金做爬虫攻防

    [!text]( https://bob.36deep.com/assets/others/antirobots.jpg)
    xuminzhong
        7
    xuminzhong  
       2019-04-02 12:03:53 +08:00   1
    我是做爬虫的,除了 100% 弹出的图形验证码,还没有我抓不到的。
    lhx2008
        8
    lhx2008  
       2019-04-02 12:10:13 +08:00 via Android
    外挂反爬虫原理也不多,不知道有没有什么新意?反代有没有性能和可用性问题?
    itskingname
        9
    itskingname  
       2019-04-02 12:35:54 +08:00
    做爬虫的同学,大家不要帮他发展反爬虫产品。
    chocho
        10
    chocho  
    OP
       2019-04-02 12:42:44 +08:00
    @lhx2008 反代有性能损耗,可用性不用担心
    chocho
        11
    chocho  
    OP
       2019-04-02 12:43:42 +08:00
    @itskingname 哈哈哈,安全攻防都是存在的,即时我们不做,也是有人在做,另外爬虫这个事情,主要防止恶劣行为,不是所有的东西都是防护的
    chocho
        12
    chocho  
    OP
       2019-04-02 12:44:50 +08:00
    @xuminzhong 哈哈,那你们很厉害啊,请高抬贵手
    tingyunsay
        13
    tingyunsay  
       2019-04-02 13:11:54 +08:00
    可以挂出来,大家一起给你测测
    aver4vex
        14
    aver4vex  
       2019-04-02 13:14:52 +08:00
    挂出来,让我们测试下效果。
    lusi1990
        15
    lusi1990  
       2019-04-02 13:17:31 +08:00 via Android
    赶快挂出来测试下
    Johnson66
        16
    Johnson66  
       2019-04-02 13:32:47 +08:00
    #7 加一 除非让用户都访问不了,否则没有爬不了的~
    szpShang
        17
    szpShang  
       2019-04-02 14:13:44 +08:00
    淘宝现在访问都要用户登录了。如果频繁看评论信息还会被限制了。 那现在你们还会像以前访问淘宝吗?但是爬淘宝的数据还是可行的。只是成本增加(需要多个账号和新的调度规则去爬取)。
    反爬的东西只会增加用户的反感,然后增加爬取的成本。等到用户量很少的时候,基本上就不用爬取了(已经没有意义了)。
    计算机的原理就是要想看到数据。这个数据必须存储到本地机器上。就好比邮箱钥匙放在邮箱里面,要想开邮箱必须先拿到钥匙,要想拿到钥匙必须先开邮箱。反爬是否能行呢。
    kisshere
        18
    kisshere  
       2019-04-02 14:16:56 +08:00
    @xuminzhong 就是弹出图形验证码,都能破,除了 recaptcha,是真没办法
    c4f36e5766583218
        19
    c4f36e5766583218  
       2019-04-02 14:22:34 +08:00
    @kisshere 广义来讲都能破,时间问题吧,2333 我瞎说的
    [破解谷歌最新 ReCaptcha 成功率高达 91%的验证反制技术]( https://zhuanlan.zhihu.com/p/53970061)
    chocho
        20
    chocho  
    OP
       2019-04-02 14:26:31 +08:00
    @c4f36e5766583218 是的广义上面来讲 纯前段的反爬虫都是可以破解的,就是时间问题,所以需要动态对抗,或者形式转嫁
    szpShang
        21
    szpShang  
       2019-04-02 14:26:35 +08:00
    @c4f36e5766583218 难度越高,用户体验就会差。体验差,用户量就会减少。一个应用如果用户量少,数据也就失去价值,那还爬它作甚。
    chocho
        22
    chocho  
    OP
       2019-04-02 14:28:29 +08:00
    @szpShang 是的,但是我们这个不会搞那么复杂,正常情况下,用户是不会感觉到有防护的,主要针对爬虫来讲门槛会提高一些
    chocho
        23
    chocho  
    OP
       2019-04-02 14:29:50 +08:00
    @Johnson66 是这样的,但是不会让爬虫那么轻易的就爬到数据,一方面主要是保障业务稳定,另外那些人工打码操作的,就没法防御
    szpShang
        24
    szpShang  
       2019-04-02 15:00:22 +08:00
    @chocho http 本来就是无状态的协议。就是永远也不知道当前的协议是什么状态的。
    就好比计算机本来设计规则让水从高处向低处流。而你却在这个设计规则上去忤逆这个设计让水从低处向高处走。
    互联网的技术都是防止数据传输时候泄漏。现在变成要识别客户端利用刚浏览的数据对发布者是否有弊端。
    抛开如何繁琐的 cookie 获取历程的技术问题(完全可以人工操作掉)。这个业务真的是有意义吗。

    以前爬取携程时候,如果爬取太频繁,价格就会故意错乱。个人猜测杀熟技术就是源于此。你这个业务真的是识别爬虫还是识别老用户,为杀熟技术提供温床。
    chocho
        25
    chocho  
    OP
       2019-04-02 15:06:59 +08:00
    @szpShang 分析和很到位,这种的太敏感的数据,很多公司做了不少的账号权限,可以规避这种问题,与反爬虫要解决的安全风险问题有重叠,cookie 这些都是不错的防御方案,但是明显如你所说,完全在前端做太多的文章是没有意义的,可能需要一些新的思路来解决这个问题
    joesonw
        26
    joesonw  
       2019-04-02 16:14:53 +08:00
    summer1988
        27
    summer1988  
       2019-04-02 18:20:28 +08:00
    我觉得限制型反扒没必要, 假数据貌似更有意思一点
    chocho
        28
    chocho  
    OP
       2019-04-02 18:25:40 +08:00
    @summer1988 数据投毒是吧
    xuminzhong
        29
    xuminzhong  
       2019-04-02 22:29:55 +08:00 via Android
    @joesonw 谢谢,我们有使用类似服务。
    51300520
        30
    51300520  
       2019-04-03 01:14:43 +08:00
    标记 一下
    chocho
        31
    chocho  
    OP
       2019-04-03 09:53:16 +08:00
    @xuminzhong 你们也用了反爬虫?你不是爬虫吗?
    ghmasiol
        32
    ghmasiol  
       2019-04-03 10:18:06 +08:00
    以前用 es 分析 nginx 日志,用 iptables 封,感觉误封了好多搜索引擎爬虫...
    chocho
        33
    chocho  
    OP
       2019-04-03 11:07:47 +08:00
    @ghmasiol 反爬虫的效果怎么样?搜索引擎的话 可以使用 DNS 反解 或者 购买 IP 来实现
    chocho
        34
    chocho  
    OP
       2019-04-04 14:52:44 +08:00
    还有小伙伴吗?我再来问一波
    Northxw
        35
    Northxw  
       2019-04-04 22:58:30 +08:00
    如果很牛逼的话 误伤呢?
    cstackess
        36
    cstackess  
       2019-04-09 16:27:47 +08:00
    安全的博弈,最终是成本的博弈,没有价值的东西才是最安全的
    chocho
        37
    chocho  
    OP
       2019-04-15 15:16:12 +08:00
    @cstackess 哈哈,不见光的东西,又有价值的才是安全的,比如说古墓?
    liwenbest
        38
    liwenbest  
       2019-05-01 13:57:42 +08:00
    @xuminzhong 可以加下联系方式吗 QQ 或微信都可以
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1044 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 18:02 PVG 02:02 LAX 11:02 JFK 14:02
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86