
最近公司在做监控方面的选型,想了解一下大家的业务场景及监控技术栈 /架构选型
可以分为三个方向展开
1.业务监控(链路追踪、慢查询慢调用等)
2.基础监控(虚拟机 / 容器 CPU 、Network 、Mem 等基础指标)
3.运维监控( K8s 、物理机、虚拟机等管理)
其中第三点可以先不考虑,SRE 团队可以接手
或从 Metrics,Tracing,Logging 展开,一些搭配方案
或现有三方开源监控全链路解决方案、Open-Falcon 、Nightingale
由于楼主是新手 初探这个领域,想跟大家交流进步一下 错误之处多多包涵
1 Sparkli OP 基础监控包括第三方中间件监控,Redis 、ElasticSearch 这种 不过了解不多,大部分都有自身的监控数据 API |
2 hadesy 2021-07-31 23:18:40 +08:00 prometheus/thanos + skywalking + elk |
3 dream4ever 2021-08-01 00:07:55 +08:00 via iPhone 我们不是互联网公司,买的阿里云的服务器,自带基础监控功能,感觉日常业务基本够用。 |
4 wombat 2021-08-01 00:29:47 +08:00 via iPhone 2 楼+1 |
5 mreasonyang 2021-08-01 03:12:43 +08:00 via iPhone 主流方案就是二楼所说的这些搭配使用,整合的成套实现可以参考 cat https://github.com/dianping/cat 。总的来说想做好监控不仅仅需要一个好的监控服务端实现,客户端基础组件层面的埋点上报相关工作也是重要且繁多的 |
6 wellsc 2021-08-01 03:29:08 +08:00 via iPhone 物理机的话,zabbix 也还可以 |
7 daxiguaya 2021-08-01 10:18:57 +08:00 可以业余去"了解"下 https://opentelemetry.io/ |
8 lplusk 2021-08-01 10:37:59 +08:00 主流开源方案就是 2 楼说的那个,另外很多大厂会有自研方案。做好监控的真正难点不在于技术选型,而在于监控点覆盖、报警阈值调教、值班应急这一整套流程。 |
9 dreamramon 2021-08-01 11:18:37 +08:00 最开始用 prometheus 和 skywalking,最后都是自研,这样才好和 ci/de,内部通讯工具相结合。 |
10 Alliot 2021-08-01 12:38:55 +08:00 via Android 传统服务的系统基础监控+基本业务监控,nightingale 基本可以一套解决,中小型企业 v3 版本甚至可以包揽 cmdb 、任务执行平台的角色。 k8s 微服务还是 prometheus 全家桶更适合。 |
11 Alliot 2021-08-01 12:40:24 +08:00 via Android @Alliot falcon 可以不用考虑了,夜莺 nightingale 的原班人马,99%的生态兼容。 我司就是从 falcon 转向夜莺的。 |
12 saytesnake 2021-08-01 17:36:41 +08:00 nightingale + Pinpoint |
13 wongskay 2021-08-01 21:49:47 +08:00 prometheus |
14 Sparkli OP @dreamramon 主要顾虑点是定制化需求很高吗 |
16 qq7790586 2021-08-01 22:14:00 +08:00 内部监控用什么啊??? |
17 Sparkli OP @mreasonyang 这个看起来不错,学习了 不过有二开需求 如果是用 GO 写的更好了 |
20 Kyle18Tang 2021-08-02 11:31:34 +08:00 @daxiguaya #7 就等 Spring Cloud Sleuth 正式支持它了 |
21 BQsummer 2021-08-02 11:51:34 +08:00 2L+1,APM 选型上还有 cat 、zipkin 、pinpoint ; prometheus 不能集群部署,单点有瓶颈 |