怎样一年做到第一 | 东软黑科技的背后

前文《颠覆传统 | 东软黑科技大爆料》五小时阅读过万,大家之喜爱可见一斑。同时不少读者纷纷传来话儿,希望了解更多。本文揭冰山之一角,稍慰群情之期盼。各位看官,且听慢慢道来。先从宕机说起。

2015 年前后,

业界先后发生多起宕机事故……

亚马逊 AWS CloudFront DNS 服务器两次宕机,损失约 700 万美元;

苹果 iCloud 宕机,影响了 300 万用户;

谷歌宕机 5 分钟,全球流量下降 40 %;

还有网易、支付宝、携程……

因宕机故障,企业及其客户蒙受损失的例子不胜枚举。

为什么业界翘楚们也会相继折戟?

宕机本身是由多种异常因素引起的,如负载过高,资源不足,数据库死锁等等。

为了提早检测出这些异常,技术人员定义并采集了多项指标,设定了上下阈值,当指标超过阈值的时候就发送邮件或者短信告警通知。

那么,问题来了。

如何确定合理的上下阈值呢?

传统上,这依赖于技术人员的经验和对系统的了解。然而,随着云计算与微服务技术的快速发展,系统越来越复杂,上千万指标的阈值确定已经远远超过人力的极限。

因此,传统的异常检测方式难以解决问题。必须另辟蹊径!

有没有可能

创新一种更加智能的异常检测算法?

为了让异常检测算法能更早更准的发现系统中的异常。有这样一个团队,他们进行了上千次实验,尝试了十多种业界领先算法,针对数据集中的每个异常点,仔细探索了算法不同参数的效果,对每种算法在各个场景异常检测的优势和极限都了如指掌。

对于团队来说,那是一段难忘的时光,每个人的意志汇集到一起,期待那呼之欲出的绽放。

最终

基于神经网络记忆的异常检测模型

被成功提出

神经网络记忆模型

 

异常得分基于在记忆中搜索输入数据引入的pattern

 

该模型设计了更加巧妙的神经元激活和记忆方式,成功应用于异常时间特征识别,取得了令人惊喜的效果。

然而,这种模型能否与国际上的其他模型匹敌呢?

看看 Numenta 怎么说。

Numenta 公司是大脑记忆-预测理论框架的开创者和实践者。

2004年,Numenta 的创立者杰夫·霍金斯写了名为《On Intelligence》的专著,探讨如何通过计算机技术模拟大脑实现记忆和预测功能,他们把这项技术应用在众多领域,异常检测是其中之一。

就是这样一家领域先驱,在2015年公布了Numenta Anomaly Benchmark数据集(简称NAB)。NAB 收集了AWS、Twitter、Google 等公司真实的运维数据集,并人工进行了异常标注。

这个数据集能够评估异常检测算法的水平。

紧接着,Numenta 举办了异常检测技术沙龙。

团队报名参加,跃跃欲试。

然而,按传统的异常检测方式,第一次测试成绩仅达到平均水平。

团队迅速转变思路,用划窗的方式寻找异常点,第二次测试成绩便跻身第二。

他们并未就此止步,要做就做最好。

欲超越一切,就要先打破一切,用新角度、新思路重新武装。

经过一段时间的研究突破,新模型被提出,基于新模型的第三次测试终于如愿以偿的超过榜单中所有异常检测算法,荣居第一。

成就的背后,离不开汗水……

2016年春的一个清晨,许力博士登上了飞往美国硅谷的航班,一路上心心念念的是“如何借助人工智能,将运维水平从被动处理进化为主动预防?”

在硅谷,有一座 Mission Towers 大厦,东软美国硅谷实验室就坐落在这里。这个实验室肩负着东软孵化面向未来的智能、互联产品,以及对核心技术探索、研究、预研的使命,也是东软平台产品的海外技术基地。

东软美国硅谷实验室外景

 

在硅谷实验室工作期间,许力博士开始对将人工智能技术结合到产品进行了探索,并规划了异常检测、关联分析、推理分析等一系列未来的核心技术点。

回国后,在他的带领下,团队在时间序列预测、概率图模型、深度学习等方面进行了深入研究,攻克领域技术难题,共发表论文 20 余篇,获得相关专利 54 个。

拳拳之心,只为客户!

宝马中国,从云环境到用户终端的应用全堆栈监控。

北京东城区,融合多种监控数据源,以平台化监控系统支撑不同运维场景。

宜昌三峡云,实时监控用户体验,智能辅助风险管理决策。

广州电视台,预测分析,查找潜在风险提供预防策略。

蒙牛乳业,全链条监控应用系统,发生风险快速定位。

截至目前,在政府、金融、医疗、制造、传媒、能源、公安等诸多行业,越来越多的企业正在享受到精准预防带来的安心与省心。

同时,团队仍在快速前行,朝着国际化目标迈进!

这就是东软 RealSight APM

在您身边

永不止步

用户体验和用户行为分析
大家都知道用户体验对 BATJ 这样的大型互联网公司很重要,实际上,它对所有面向客户或用户的企业都很重要,不论是内部用户还是外部用户。

RealSight APM 可以对用户访问地理位置、用户访问行为进行追踪,并实时监控用户体验,分析异常访问根源,帮助企业了解终端用户体验,通过用户行为分析助力企业数据化运营。

应用运行环境监控
运维人员经常需要做的事是查看应用运行环境,看看资源使用了多少,要不要加点 CPU 或内存,要不要增加点带宽等,很是麻烦。

而 RealSight APM 可以对 CPU、内存等资源使用量、网络状态、云计算环境、虚拟化环境等进行监控,同时还可以预测资源使用趋势,帮助运维人员实时掌控应用运行环境,做到“心中有数”。

应用性能瓶颈分析
当应用出现加载缓慢、404错误时,有没有很茫然,不知道如何入手查询瓶颈问题?

RealSight APM 可以对 API 接口、应用服务器连接时间进行监控,并对 Web 页面加载时间、网络延迟、数据查询时间进行分析,帮助运维人员快速定位性能瓶颈,摆脱苦苦查询性能问题的窘境。

应用运行期风险监控
应用运行期的复杂异常情况和根源问题分析往往需要资深运维人员出手摆平,现在可以交给RealSight APM 啦。

RealSight APM 可以对应用整体健康状态进行监控,实时追踪事务执行异常、日志异常、SQL 执行时间等情况,还可以对风险根源问题进行分析,解放大牛,使其从查询问题的泥潭中拔出双腿,把有限的经历投入到更有价值的创新及思考中。

 

 

相关产品

2019-04-02T18:50:28+00:00