西南证券:智能监控和态势感知平台(西南证券app)

来源:2022第三届中小金融机构数智化转型优秀案例评选

获奖单位:西南证券

荣获奖项:信息安全创新优秀案例奖

西南证券:智能监控和态势感知平台(西南证券app)

一、项目方案

1.项目背景

随着证券公司业务快速发展,各种业务系统越来越多,系统日志数据量快速增加,日志存储格式多种多样,日志数据存储分散,对于日志采集、存储和管理带来极大困难,运维和开发人员查询日志效率低下,没有统一的日志监控平台,系统异常发生时,运维人员不能及时发现定位问题,日志数据得不到有效利用。

建立统一的日志管理和监控平台用于日志数据采集、解析、存储、查询、分析、告警,使日志数据得到统一管理和有效的利用。根据中国证券业协会2021年11月02日发布《证券期货业经营机构内部应用系统日志规范》要求,西南证券建设了智能监控态势感知平台。

通过建设智能监控和态势感知平台,对各个业务系统、设备、网络等日志数据进行统一的收集、解析、集中存储以及分析挖掘,同时结合实时业务交易数据,制作交易监控大屏应用,综合评判各个交易系统运行状态,实时感知系统运行中的异常。

2.项目架构

2.1项目功能简介

智能监控和态势感知平台主要包括以下模块:数据采集功能、数据流式处理模块、实时告警模块、数据存储模块、数据检索模块、数据可视化模块。

(1)数据采集模块:负责各类型的日志采集,支持应用系统服务器、网络设备和安全设备的日志采集等。采集方式支持Agent方式、Syslog方式、API方式等,支持Linux系列、Windows系列操作系统日志采集。日志采集必须准实时,采集过程不能影响源系统的正常运行, Agent程序支持对系统资源的使用情况灵活配置。

(2)数据流式处理模块:负责大量日志数据的结构化处理,以及资源相互协调,支持对采集的原始日志数据转换为半结构化或者全结构化数据,并进行统一存储和管理。内置常用的日志解析规则,能够识别、解析常见的日志格式;对于预置规则不支持的日志,可以自定义配置日志格式解析规则,解析自定义字段。同时,系统提供辅助生成解析规则的功能。

(3)数据存储模块:对数据进行分布式存储,并进行日志数据归档。支持对日志的分布式索引存储,提供压缩存储机制,支持每天TB级新增日志量,具备对日志数据的生命周期管理能力。

(4)日志检索模块:支持对海量日志信息进行高效的全文检索、多条件检索查询,如逻辑查询、正则表达式查询、根据字段值范围查询等。

(5)数据可视化模块:提供简洁的日志大屏监控报表展示。支持根据查询结果快速形成可视化图表并制作为仪表盘供用户长期使用。支持定制化开发大屏展示报表功能。

(6)监控告警模块:针对关键字报错和指标分析监控,支持通过短信、邮件方式发送告警通知。支持统计告警、告警抑制功能、告警恢复通知、监控告警管理等功能。

2.2系统架构说明

西南证券:智能监控和态势感知平台(西南证券app)

系统架构图

该平台支持从操作系统、中间件、业务数据库、网络设备、性能设备、Kafka等数据源实时采集数据,通过核心引擎的存储与检索,实时告警规则匹配、SPL的统计分析实现故障定位、监控告警、业务状态分析、基线预测、审计等功能。

2.3数据处理流程

西南证券:智能监控和态势感知平台(西南证券app)

数据流转图

智能监控和态势感知平台主要有以下3类数据源:

(1)从各个应用服务器中实时采集业务日志、服务器性能日志;

(2)从交换机实时采集网络带宽、接口流量数据;

(3)从交易所实时获取报盘数据。

将采集后的三类数据通过flink集群实时计算处理:

(1)将不规范的日志数据解析规范化处理;

(2)计算实时业务指标;

(3)将处理后的数据与配置的告警规则进行匹配,若是命中设置的告警规则,则实时预警,并在大屏展示中标红告警提示。

二、创新点

智能监控和态势感知平台是运用大数据能力为基础,结合日志易平台的数据采集能力,全面支持流数据采集、日志解析、日志分析、日志查询、日志告警等能力。对网络设备、主机、应用日志等各种数据信息的分析,并结合实时交易数据,帮助运维构造全方位、全天候态势感知系统,减少运维定位时间,提前预防潜在风险出现。

该平台系统具有以下创新点:

1.实时处理数据,异常数据产生到预警秒级延迟;

2.网络拓扑、流量实时监控,精确至交换机每个接口流量监控;

3.异常日志全链路追踪分析,以便快速定位问题;

4.实时展示用户在线人数、交易金额、开户等核心交易数据;

5.将业务数据与日志、网络流量做实时关联分析预警。

三、技术实现特点

1.架构方面

智能监控和态势感知平台采用分布式高可用部署方案,各实例之间资源隔离、数据共享,具备动态扩容、在线诊断、备份、监控以及故障自愈等能力,提高资源利用率降低基建投入的的同时保障业务连续性。

2.技术实现方面

智能监控和态势感知平台使用beaver作为存储和查询引擎,较开源ELK性能更好,更安全;使用低代码SPL搜索语言融合bat、shellexcell、sql语言习惯,简单的语句可满足绝大多数的数据统计分析需求,丰富的数据展示模块支持从序列、维度、关系、复合、地图等维度满足个性化的展示需求。

智能监控和态势感知平台目使用flink集群做实时处理,flink是一个具有高吞吐、低延迟、高性能等诸多有点的实时计算引擎。同时 flink⽀持高度容错的状态管理,防止状态在计算过程中因为系统异常而出现丢失,flink周期性地通过分布式快照技术Checkpoints 实现状态的持久化维护,使得即使在系统停机或者异常的情况下都能计算出正确的结果。

四、项目过程管理

项目总体规划:

西南证券:智能监控和态势感知平台(西南证券app)

五、运营情况

智能监控和态势感知平台实时监控公司所有核心交易系统运行状态,系统高可用的架构,无故障运行时长占比高于99.9%,应对业务高峰期无数据堆积、数据丢失现象,该系统平台符合IT安全管理要求。

该平台分别从业务和运维层面提供日志的解析、告警、统计分析、展示等功能,业务数据与日志实时关联分析提前感知告警,主要面向客户是运维、运营部等相关部门,目前已落地3业务场景,7个运维场景,大幅度提高运营、运维人员的工作效率。

六、项目成效

1.实时监控各个核心交易系统

西南证券:智能监控和态势感知平台(西南证券app)

该部分实时监控机构柜台、PB系统、集中业务运营平台等核心交易系统运行状态,包含以下监控指标:业务日志异常、服务器性能指标异常、交换机接口流量异常。若是出现异常能够帮助运维人员快速定位到问题的根源,缩短处理整个处理异常时间。

2.监控开市前各个交易系统流程处理状态

西南证券:智能监控和态势感知平台(西南证券app)

该部分实时监控公司开市、闭市等各个交易流程的处理状态,让运维人员随时掌握所以流程的实时状态。

3.实时监控交易所报盘机网关状态

西南证券:智能监控和态势感知平台(西南证券app)

该部分实时监控公司获取交易所报盘及网关情况,使运维人员实时掌握行情网关和交易网关的运行状态。若是行情网关出现丢包等异常情况,及时提醒运维人员处理。

4.实时监控网络状态

西南证券:智能监控和态势感知平台(西南证券app)

该部分实时监控整个公司机房网络拓扑状态,能够让运维人员实时掌握机房网络状态,若是出现网络异常,使运维人员快速定位网络异常的位置。

5.实时监控各个银行三方存管状态

西南证券:智能监控和态势感知平台(西南证券app)

该部分实时监控公司和各个银行的三方存管是否属于正常可用状态,若是出现异常状态运维人员可以及时发现处理问题。

6.实时监控各个主机状态

西南证券:智能监控和态势感知平台(西南证券app)

该部分实时监控所有核心交易服务器的CPU、内存以及当日告警次数,能够让运维人员实时掌握服务器运维状态。

7.实时网络带宽监控

西南证券:智能监控和态势感知平台(西南证券app)

该部分实时监控公司互联网络带宽占用情况,以便运维人员实时掌握整个网络带宽使用情况,及时扩容。

七、经验总结

通过智能监控和态势感知平台的建设,总结了以下经验:一是在项目初期需充分与需求方沟通了解其真正需求和问题的痛点;二是目前多数监控仅从异常日志方面监控,本平台从业务和日志数据一起关联分析监控,因此更能提前发现问题;三是全链路根源定位,缩短运维人员定位问题时间。

更多金融科技案例和金融数据智能优秀解决方案,请登录数字金融创新知识服务平台-金科创新社官网案例库、选型库查看。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。