无监控,不运维:解读企业全栈式监控运维

企业应用由单体应用系统向分布式系统的发展趋势已经不可逆转。十年前 “SOA” 大频率的出现在软件系统招标技术架构要求书中,相信用不了多久“微服务架构”也会被频繁提及——分布式系统将成为主流。

为什么分布式系统会“火”?

因为业务应用随着自身功能的复杂化、应用间更频繁的相互调用以及用户数的不断增长等诸多因素,导致单台服务器性能已经无法满足应用系统的业务量,再也无法保证应用的可靠运行。而分布式系统架构却可以很好的解决系统容量和提升可靠性的问题。但分布式架构依然存在很多问题。

下面对比了单体架构和分布式架构的优劣

全栈式监控就像一台应用健康状况的CT扫描机,让服务从前到后的响应情况能够被清晰的洞察;让系统运行产生的故障问题能够被准确的定位。

基于全栈式运维的核心思想,合理的做法应该是

1、以用户服务的 API 为主线来进行系统监控
2、聚合基础层、平台层和应用层的监控指标,将服务和运行服务的中间件以及主机能够无缝的关联监控
3、跟踪用户请求链路(traceroute),从请求的客户端、网络、网关、前-中-后台服务、数据库等一站式跟踪用户的服务请求

市场上监控软件很多,能够从用户体验和运维者两个角度综合考虑做到打通全栈监控的很少。东软平台产品的一体化运维组合是这个领域的践行者。

东软的一体化运维平台专注在两个场景

健康体检
提供一个全栈监控指标聚合门户,通过AI算法进行预测分析,让运维者了解系统的综合健康评估,辅助运维者管理系统容量。
病情诊断
提供全链路跟踪监控,当出现非预期流量提升时,可以找到系统性能瓶颈;当系统服务故障时,可以从客户端请求及系统运行环境一直渗透到程序代码进行根源性分析。

总结一下:分布式系统全栈监控是一双慧眼,它能帮助我们了解系统到底发生了什么,尤其是当用户服务出现问题时,它能帮助我们快速找到问题根源。

四句话与君共勉:监控指标千万条,着眼服务第一条,数据链路不通畅,出了事故两行泪。

相关解决方案

相关产品

2019-06-19T15:38:06+00:00