金融业的未来可能就是一个集数字化、智能化为一体的金融新生态。届时,依托大数据、区块链、量子通信、人工智能、物联网等新技术,各类智能机器人、 人脸识别、指纹支付、刷脸存取款、智能投资顾问等高新科技产品及应用充斥于金融领域。
而以上的这一切业务系统及应用的运行数据,都会存储在自己的数据日志里,企业运维人员会在保护用户隐私的前提下,通过对用户的行为记录进行智能分析,从而优化业务流程、调配资源,从而更好的改善用户体验。
但想象终归是美好的,现实状况却可能不尽如人意。当前,很多金融企业业务系统的日常运维便会遇见各种各样的问题,甚至会因为系统故障、系统崩溃,从而耽误正常的交易。
下面,就让我们一起来看一场使用日志分析致胜的金融行业运维排障“攻坚战”。
一、“攻坚战”背景
在 2018 年的一天中午,某金融企业数据中心人满为患,在嘈杂的人声中,依稀听到各种“前置出问题”的声音。由于前置系统突发故障,发生大面积业务失败,日志易的工程师拍马赶到,加入问题处理的大军。
二、“攻坚战”战术
前置出问题,第一时间想到的就是排查前置日志。当日志易工程师了解到是前置中的应用出现问题时,便立即用日志易平台分析前置数据日志,通过关联所有前置机器实时搜索,几秒便得出结果:发现在最近半小时内,前置交易耗时超过 40 秒以上的交易非常多,其中,耗时超过 40 秒的事件大多是经由前置至数据分析平台的路线。
再查询前置交易超时错误日志,发现最近半小时内,前置交易超时错误非常多,超时错误事件最多的也是经由前置至数据分析平台的路线。最后通过一个简单统计,得到前置机器实例分布,确定影响范围。整个搜索查询时间前后只用了不到 1 分钟,极大地提升了排障工作效率。至此,故障原因便已十分明显:前置到数据分析平台的路线“出错”,影响了所有在此前置实例所在服务器的其他前置应用。
日志易工程师经过分析,认为是前置到数据分析平台的耗时太长,占用链接资源过多,未及时释放,从而影响了此前置实例所在服务器上的其他应用。将分析结果立即告知相关人员,随即调整了数据分析平台的超时时间,将超时时间设为 1 秒后,再通过日志易平台对超时错误和交易耗时的日志进行实时监控,发现超时错误和交易耗时过大的事件明显减少。至此,所有人员才松了一口气。
三、“攻坚战”结局
而最终查明故障原因为:数据分析平台的 ES master 出现问题,挂住了,但是端口还在,而数据分析平台只做了端口监控,没有及时发现 ES 处理上的问题,最终导致前端故障。
虽然本次故障影响的业务广泛,涉及的故障排查人员众多,但由于事件处理迅速,故障恢复得快,所以并没有对实际交易产生严重影响。
四、“攻坚战”战略总结
在此次事件故障排查过程中,该企业运维人员可以说是八仙过海,各显神通,各种工具都用上了进行排障,如 BPC、网管监控等。但结果很明显,要查找故障根源,分析数据日志是一个基本着力点,这时候考验的是对业务日志的深刻理解、快速收集、管理,更是考验对日志实时处理分析的能力。因此,一个优秀的日志大数据分析产品对金融企业的智能运维、业务保障具有至关重要的作用。
在今日,我们不得不承认一个现实,金融行业的智能运维发展,远远还没有达到人们的预期,而日志易现在要做的、能做的,就是用我们的大数据日志解决方案助力实现未来金融业的美好场景,让金融企业全面实现智能运维。