探讨一下 Java 系的系统监控 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
v2zzzzz
V2EX    Java

探讨一下 Java 系的系统监控

  •  
  •   v2zzzzz 2024-01-31 15:15:25 +08:00 3110 次点击
    这是一个创建于 671 天前的主题,其中的信息可能已经有所发展或是发生改变。

    近期公司要求降低服务器成本,然后砍掉了 Prometheus 、grafana 、skywalking 只留下了 elk

    回忆了一下待过的几家公司,确实大部分情况只看日志,指标监控方面服务器与 k8s 由云厂商提供,应用实例方面有使用 spring boot admin 的也有 Prometheus 的,基本没人看

    链路监控有简单的日志内嵌 traceId 的也有搭 skywalking 的,我个人觉得 traceId 够用,skywalking 没玩明白

    个人待过中小团队,参与最大项目也就低粘性日活百万,思考了一下比较适合中小团队轻量监控体系,日志系统用 Loki ,logback appender 直接 push 过去,链路追踪靠 traceId ,服务实例监控用 Prometheus ,grafana 展示

    日志采集需要经 Kafka 缓冲再存储的我还算不出来要多大的体量才需要,个人觉得以上方案应该可以适用大部分团队了,欢迎大家指正,顺便想了解下大家的项目量级与监控体系

    8 条回复    2024-02-01 17:39:56 +08:00
    guxingke
        1
    guxingke  
       2024-01-31 15:34:27 +08:00
    grafana 全家桶
    yidinghe
        2
    yidinghe  
       2024-01-31 15:41:47 +08:00
    小公司没必要付那么高的基础设施成本。如果你们公司主要都是些负载不高的服务,那么 grafana 之类的确实可有可无。如果出了问题,重启一下服务就好。关于日志,只要抛出异常的时候多带点信息,大部分的错误光看包含堆栈的这一条日志就能定位问题,无需链路。
    arloor
        3
    arloor  
       2024-01-31 17:31:44 +08:00
    我觉得小公司应该为可观测付出的成本应该不超过:
    1. 一个人或者半个人维护可观测的服务( prometheus 、grafana 等等
    2. 大部分人不需要学习 promql 等等使用

    第一点是成本考虑,第二点是出于人性懒惰的考虑
    ikas
        4
    ikas  
       2024-01-31 20:43:26 +08:00
    目前可观测性的框架都可开始整合日志,链路,指标 .比如 OpenTelemetry,还有最新的 springboot3
    基于 springboot3 的最新可观测 api,然后根据项目规模选择自己喜欢的可视化与存储后端即可
    Aresxue
        5
    Aresxue  
       2024-02-01 10:39:57 +08:00
    可观测性比较适用于大型成熟系统,小项目基础设施搞得再好如果只有零星几个开发那也没多少收益。可观测性目前主要分为几大块,log (日志)、trace(链路)、metrics (监控)、alarm (告警),对于小项目来说要有取舍,比如题中提到的 skywalking 我司目前也是用的这个并做了二开但是这是建立在核心系统有超过 60 个应用,上千个 pod 的基础之上的,小项目哪怕使用微服务应用数也很有限,链路本身就不复杂,所以链路的优先级远远低于日志(日志中有 tid 其实可以脑补串联起链路),剩下的监控和告警常常是一起的,Prometheus 几乎是事实意义上的标准了,只有告警成本较高收益不明显,资源告警和业务告警搞起来不要太复杂。所以小项目资源紧张的情况下优先保障日志(日志规范其实也很有讲究有很多技术手段可以做),其次有空余资源就把监控( jvm 内存、进程内存、gc 、cpu 、磁盘 io 、网络 io )搞起来,链路和告警可以在项目有更大的发展之后再逐步引入。
    ychost
        6
    ychost  
       2024-02-01 16:42:07 +08:00
    自己搭建还是复杂,直接用阿里云的 SLS 就行了(如果允许把日志上传到云),配套还是很完善
    hancai
        7
    hancai  
       2024-02-01 17:15:02 +08:00
    没有专业的运维就别搞太复杂了, 有运维就大力搞一下,对于运维来说监控非常重要。 不出问题大家都高兴,出了问题监控不完善,运维还得背锅。
    hrzpaul02020
        8
    hrzpaul02020  
       2024-02-01 17:39:56 +08:00
    Loki 代替 elk 存日志 没啥问题 至少比上服务器看文件好. 调用链用阿里云免费的三天也够 . 几个人的小团队
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     920 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 20:28 PVG 04:28 LAX 12:28 JFK 15:28
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86