云平台屡次停摆,核心系统事故频发?您的运维系统该升级了!

3月3日凌晨,阿里云出现宕机故障,受宕机故障影响,华北不少互联网公司 APP、网站纷纷瘫痪,一大波程序员、运营和运维不得不从被窝里爬起来干活。网友“上海蓝盟网络夏立成”调侃,“阿里云一年一宕机,今年特别早”。

然而日常生产、生活对应用依赖程度逐渐增加导致宕机频率和成本都在升高高,人工运维投入产出却在下降。根据专业评测机构 downdetector.com 统计,2018 年,Facebook 系统全年宕机 200 次,Youtube 宕机 140 次,Google 宕机 100 次。每次宕机损失至少 100 万美元!某些事故对企业的影响将是灾难性的,对于金融、互联网、电信等信息化成熟度较高的行业更是如此。

软件系统带来的复杂度提升,还需要软件来应对。人工智能(AI)技术结合运维(Ops)场景,已成为目前业界看到的唯一应对之道- AIOps。然而,落地 AIOps 并不简单,首先需要从改进现有运维流程,升级监管装备入手。当前,大多企业的人工为主,基于 Zabbix、Nagios、Prometheus 等开源、商业数据采集系统建设的诸多监控采集展现数据的方式,会随着监控对象和数据采集量激增而失控。

随着信息系统加速升级演进,运维也正在遵循人肉运维->工具化运维->自动化运维->智能化运维转变历程。因此,新一代运维体系,理念上首先需要站在运维人员角度将复杂变简单,人工转智能。要达成此目标,我们需要完成以下四阶段运维系统升级:

  • 应用全景监控

整合分散、孤岛监控系统数据,实现全景监控视图:整合已经建设的基础设施、网络、中间件、应用监控系统,形成以风险感知为核心的监控系统。

  • 运维大数据分析

转数据监控为信息监控,基于大数据分析能力构建运维信息检索平台:融合指标、日志、代码执行堆栈、网络嗅探数据,全量存储、索引、融合海量低价值密度的运维大数据,为运维人员提供便捷的信息查询入口。

  • 智能化运维

用算法积累运维经验,转人工数据筛查为智能化分析:利用知识库、规则引擎、概率图模型等手段积累运维专家经验,集成异常检测、因果关系判断、根因定位分析等算法引擎辅助人工筛选海量数据,探测、解释异常。

  • 运维可视化

运维数据可视化,自然人机交互:将实时、历史信息可视化,利用更直观、自然的人机交互界面连接人脑和计算机,实现敏捷高效运维。

东软 RealSight APM 应用智能运维平台在传统应用性能管理(Application Performance Management, APM) 类产品基础上升级设计理念,引入先进技术,打造了全景化监控视图,运维大数据分析、智能化异常检测分析等能力。为保障政府、企业数字信息系统高效、稳定运行提供必要支撑。

如今,产品已经在社保、医疗、汽车、运营商、金融、快消、保险等多个行业客户得到应用。服务于宝马中国、宝马金融、中国航空、蒙牛集团、宜昌三峡运、上海教委、北京东城区、中翼航食、吉林人社等。

产品在行业中的应用场景

互联网:全景监控态势,保障客户数字体验,提升客户转化率;
金融:预测规避风险,提升核心系统稳定性,降低运维成本;
汽车:监控车联网车机端、云端全链条健康状态,提升行车安全保障;
医疗:提升患者就医客户数字体验,为互联网医疗建设提供运维支撑;
政府:保障信息系统稳定,为民生工程、公共管理提供高效可靠数字平台支撑。

相关产品

2019-03-28T14:13:30+00:00