网站日志找到大量 Python -urllib/2.7 之类的,是爬虫吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
tianxiacangshen
V2EX    PHP

网站日志找到大量 Python -urllib/2.7 之类的,是爬虫吗?

  •  
  •   tianxiacangshen 2017 年 5 月 4 日 7668 次点击
    这是一个创建于 3227 天前的主题,其中的信息可能已经有所发展或是发生改变。
    2017-05-04 06:08:14 120.xx.xxx.xxx GET / - 80 - 58.211.2.120 Python-urllib/2.7 200 0 0 54

    持续两三天了,每秒钟几十次记录,这是网站被攻击还是有人采集内容?
    32 条回复    2017-07-16 11:44:37 +08:00
    misaka19000
        1
    misaka19000  
       2017 年 5 月 4 日 via Android
    这爬虫还把自己给暴露出来。。。神奇
    woshinide300yuan
        2
    woshinide300yuan  
       2017 年 5 月 4 日
    这不是明显的该屏蔽的吗 - -
    billlee
        3
    billlee  
       2017 年 5 月 4 日   2
    耿直的爬虫
    notes
        4
    notes  
       2017 年 5 月 4 日 via Android
    目测新手,用的还是自带的 urllib
    bytenoob
        5
    bytenoob  
       2017 年 5 月 4 日 via Android   1
    脚本小子
    wspsxing
        6
    wspsxing  
       2017 年 5 月 4 日
    UA 都不改一下,差评妥妥的。
    ywgx
        7
    ywgx  
       2017 年 5 月 4 日
    留着过年?
    LokiSharp
        8
    LokiSharp  
       2017 年 5 月 4 日
    估计故意的。。。看看有没有人处理
    richardma
        9
    richardma  
       2017 年 5 月 5 日
    猖狂的爬虫,23333
    tonychow
        10
    tonychow  
       2017 年 5 月 5 日
    显然爬虫, 都不知道隐藏下 UA
    araraloren
        11
    araraloren  
       2017 年 5 月 5 日
    ~~
    再明显不过的爬虫了。。
    封了 IP 呗
    crackhopper
        12
    crackhopper  
       2017 年 5 月 5 日
    666666
    yanzixuan
        13
    yanzixuan  
       2017 年 5 月 5 日
    连 UA 都不知道改的,估计是新手。另外你们的网站不设置一个 Limiter,限制一下一天的总的访问次数么?
    如果对方换 IP,你就限制下 1 分钟 /1 小时之内的访问次数吧。
    tttty
        14
    tttty  
       2017 年 5 月 5 日
    请问一下,如果遇到爬虫直接封 IP,这样不是会导致共用公网 IP 的用户误伤吗.. 比如校园网、网吧什么的?
    hard2reg
        15
    hard2reg  
       2017 年 5 月 5 日 via iPhone
    弱弱的问下,requests 的默认 ua 是啥
    jy02201949
        16
    jy02201949  
       2017 年 5 月 5 日
    真是耿直啊,而且还在用 urllib,新手随便抄了网上哪个教程弄的爬虫吧
    anexplore
        17
    anexplore  
       2017 年 5 月 5 日
    使用验证码机制啊
    pyufftj
        18
    pyufftj  
       2017 年 5 月 5 日
    @hard2reg 和 urllib 差不多,也带着 python 字样的,反正一眼就能识别出来的那种。。
    pyufftj
        19
    pyufftj  
       2017 年 5 月 5 日
    @tttty 只封一个不就行了吗。。
    kinghui
        20
    kinghui  
       2017 年 5 月 5 日
    @tttty 有可能封一个省市, 因为某些省市的某个运行商可能就一个出口 ip.
    hard2reg
        21
    hard2reg  
       2017 年 5 月 5 日 via iPhone
    @kinghui 就一个出口 ip 是多稀缺
    em70
        22
    em70  
       2017 年 5 月 5 日
    @tttty 只封 24 小时,不会有太大影响,别考虑太多小概率事件
    tttty
        23
    tttty  
       2017 年 5 月 5 日
    @kinghui 太可怕了...
    @em70 嗯 好的
    liuxu
        24
    liuxu  
       2017 年 5 月 5 日
    我虽然是个爬虫,但我行事坦荡,从不遮遮掩掩
    fuxkcsdn
        25
    fuxkcsdn  
       2017 年 5 月 5 日   1
    @hard2reg
    >>> import requests
    >>> requests.get('http://httpbin.org/user-agent').text
    u'{\n "user-agent": "python-requests/2.12.3"\n}\n'
    hsmocc
        26
    hsmocc  
       2017 年 5 月 5 日 via iPhone
    封 IP 显然是下策啊,一段时间内访问次数达到一个上限后出验证码吧
    tianxiacangshen
        27
    tianxiacangshen  
    OP
       2017 年 5 月 5 日
    @hsmocc 这样的话 每一次访问都要查询(次数)+插入数据库,不是很占用资源吗
    doublleft
        28
    doublleft  
       2017 年 5 月 5 日
    @tttty 是啊,会误伤! 我们公司不知道哪个傻比天天疯狂刷 v 站,我现在挂着代理上的……
    dsg001
        29
    dsg001  
       2017 年 5 月 5 日
    这种 UA 直接返回乱码数据呗
    qinbingchen
        30
    qinbingchen  
       2017 年 5 月 5 日
    难道这是我?
    flyshu
        31
    flyshu  
       2017 年 5 月 6 日
    新手刚看了知乎的入门教程来练手了
    dreamcountry
        32
    dreamcountry  
       2017 年 7 月 16 日
    我的网站也有大量的这种日志,这些人真是闲的蛋疼
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3151 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 13:28 PVG 21:28 LAX 05:28 JFK 08:28
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86