为什么总有人扫我的网站,难道我动了谁的奶酪? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
tianshiyeben
V2EX    程序员

为什么总有人扫我的网站,难道我动了谁的奶酪?

  •  
  •   tianshiyeben
    tianshiyeben 2020-05-19 10:50:04 +08:00 6365 次点击
    这是一个创建于 2021 天前的主题,其中的信息可能已经有所发展或是发生改变。

    在 nginx 日志里,经常有奇怪的 404,还有假蜘蛛。

    烦。

    第 1 条附言    2020-05-19 17:03:45 +08:00
    本身是自己的 https://github.com/tianshiyeben/wgcloud
    为了方便下载挂了网站。
    刚看了下,每天就几百 ip,一半是爬虫,心累
    第 2 条附言    2020-05-19 17:18:26 +08:00
    嗯嗯,听你们说,才知道有些流量是爬虫带来的。
    好像直播也有这种操作
    第 3 条附言    2020-05-19 20:33:49 +08:00
    嗯,听大家说完,好像都这样,没什么,谢谢了
    第 4 条附言    2020-05-19 23:10:36 +08:00
    有 v2er 问我是做的什么东西,这就是普通的监控系统,只不过是开源了,没有赚过钱,有好心人下载我开发文档给个零花钱,基本是倒贴状态。
    各位大侠看过,觉得不错,雁过留声,给个 star 哈
    https://github.com/tianshiyeben/wgcloud
    33 条回复    2020-05-20 09:20:27 +08:00
    devtk
        1
    devtk  
       2020-05-19 11:22:16 +08:00
    动了别人奶酪应该就直接 DDoS 你了 = =
    crella
        2
    crella  
       2020-05-19 12:17:08 +08:00 via Android
    前段时间做了个爬虫,把展示页面放在公网服务器上。我在别的论坛发贴分享这个链接,被删了帖,于是我估计除了我就还有湖北某市的一个访问者……

    然后有几晚,puma 显示很多 malformed request 还有对各种不存在的路径的请求,搜了一下是 nmap 的扫描行为,某些 ip 是国家队。
    wanguorui123
        3
    wanguorui123  
       2020-05-19 12:52:31 +08:00 via iPhone
    每天收到大量请求,全部被自动封锁了
    kumasama
        4
    kumasama  
       2020-05-19 13:19:30 +08:00
    不是可以查出来谁扫你吗?
    zarte
        5
    zarte  
       2020-05-19 13:45:45 +08:00
    扫网站拿肉鸡不很正常么?
    ifxo
        6
    ifxo  
       2020-05-19 13:46:18 +08:00
    都是 ai 扫的,你是躺枪了
    Cmdhelp
        7
    Cmdhelp  
       2020-05-19 13:48:30 +08:00
    aliyun,tengxunyun,国外的安全网站,黑客,都是大批量扫描,,,不过幸好还有点道德,rm -rf /tmp,都是这种命令传进来
    tianshiyeben
        8
    tianshiyeben  
    OP
       2020-05-19 13:58:08 +08:00
    @crella 嗯,我也类似,只是我没仔细留意过是什么人在搞
    tianshiyeben
        9
    tianshiyeben  
    OP
       2020-05-19 13:58:44 +08:00
    @Cmdhelp rm 都有,汗
    tianshiyeben
        10
    tianshiyeben  
    OP
       2020-05-19 13:59:15 +08:00
    @kumasama 我也不太懂,我这还是监控系统,哈哈
    tianshiyeben
        11
    tianshiyeben  
    OP
       2020-05-19 13:59:38 +08:00
    @wanguorui123 用什么能自动封锁啊。我就批了一层 cf
    ArtIsPatrick
        12
    ArtIsPatrick  
       2020-05-19 13:59:55 +08:00 via iPhone
    我扫的,不错
    tianshiyeben
        13
    tianshiyeben  
    OP
       2020-05-19 14:0:07 +08:00
    @ifxo 我看了两边,都看成 a v 了
    tianshiyeben
        14
    tianshiyeben  
    OP
       2020-05-19 14:00:55 +08:00
    tianshiyeben
        15
    tianshiyeben  
    OP
       2020-05-19 14:01:25 +08:00
    @kios 我这就开源项目
    cT4035xGkTUJ0Ce7
        16
    cT4035xGkTUJ0Ce7  
       2020-05-19 14:02:36 +08:00 via Android
    你的网站就是奶酪
    tankren
        17
    tankren  
       2020-05-19 14:43:03 +08:00
    不是 bat 就是 bot 想多了
    opengps
        18
    opengps  
       2020-05-19 15:04:55 +08:00   1
    都是自动探寻漏洞的,公网环境这种情况太常见了
    xuanbg
        19
    xuanbg  
       2020-05-19 15:19:13 +08:00   1
    太正常不过了,从我司的日志看,至少有 30%的访问量来自各种爬虫、蜘蛛、攻击脚本。有统计说互联网的流量有 60%以上是爬虫,这样看来我司网站还在水准之下。哈哈哈,这就没事了,安心睡觉。
    ajaxfunction
        20
    ajaxfunction  
       2020-05-19 15:27:25 +08:00   1
    我维护的一个二手房网站,正常用户 pv 一天也就是 3000 左右,

    但是各家 bot 就和疯了一样,光每天生成的 nginx 日志文件就接近 100MB 了, 无时无刻不在爬数据,也不注意频率,搞的我经常宕机,更可恶的是把我 cdn 流量都消耗不少,无解
    heiheidewo
        21
    heiheidewo  
       2020-05-19 15:28:35 +08:00   1
    5M 的带宽,有 4.9M 都是被爬虫消耗了
    aloxaf
        22
    aloxaf  
       2020-05-19 15:37:21 +08:00   1
    瞅了一下我的一个人网站,明面上的爬虫流量大概有 50%,不过所有的异常流量加起来有 70% 了,看来达到了平均水准了 2333

    @ajaxfunction 大公司的 bot 应该都遵守 robots 协议的吧,不想让它爬就禁止
    JackYao
        23
    JackYao  
       2020-05-19 16:42:27 +08:00   1
    不用想了- - 大部分都是 ai 扫的
    我自家 nas 架在了公网, 天天被人干。。
    ajaxfunction
        24
    ajaxfunction  
       2020-05-19 18:02:10 +08:00
    @aloxaf 其实早就设置了 所有爬虫禁止访问,
    但实际上这种资源类网站 和瓜子优信车源类似, 盯着的人太多了,上到竞争对手,下到第三方卖行业软件的众多小公司都在互相采集,毕竟信息就是真金白银
    inktiger
        25
    inktiger  
       2020-05-19 18:08:10 +08:00
    动奶酪你是网站都得崩咯,爬虫遍历互联网都是
    superrichman
        26
    superrichman  
       2020-05-19 18:16:44 +08:00 via iPhone
    爬虫太正常了,不喜欢就配置一下全部拒绝掉
    programmerM
        27
    programmerM  
       2020-05-19 19:13:50 +08:00
    我的个人博客每天 50% 以上的请求都是爬虫,其中 AhrefsBot 的请求最多。我的爬虫请求统计 https://www.misterma.com/data.html
    Soar360
        28
    Soar360  
       2020-05-19 22:49:40 +08:00
    我的个人博客,连爬虫都不愿意光顾。
    https://www.coderbusy.com/
    bojue
        29
    bojue  
       2020-05-19 22:59:00 +08:00
    @aloxaf bot 听说有人越界,不知道真假,国内环境没有相关的处罚
    tianshiyeben
        30
    tianshiyeben  
    OP
       2020-05-19 23:13:48 +08:00 via Android
    @superrichman 我不会配置,不管了
    coderabbit
        31
    coderabbit  
       2020-05-20 08:24:59 +08:00 via Android
    sunwq
        32
    sunwq  
       2020-05-20 09:17:03 +08:00
    挂点广告
    tianshiyeben
        33
    tianshiyeben  
    OP
       2020-05-20 09:20:27 +08:00
    @sunwq 不了。也没多少人访问。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1035 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 23:34 PVG 07:34 LAX 15:34 JFK 18:34
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86