建设银行在智能运维上的探索与实践
本文根据包航宇老师在〖2023 全球敏捷运维峰会-北京站〗现场演讲内容整理而成。
(相关资料图)
作者介绍
包航宇,建设银行业务经理。建设银行运营数据中心技术创新发展处创新研究组组长,智能运维国家标准核心编委、ITSS智能运维标准评估师;
具有近20年金融行业运维工作经验,曾负责建设银行全行IT服务管理体系建设、数据中心生产质量管理、智能运维项目群管理和创新研究等工作,参与的研究成果曾获《亚洲银行家》“Best AI Technology Implementation”国际奖项、银监会“中国银行业信息科技风险管理研究成果一等奖”等。
一、背景
1、智能运维迎来机遇
从1956年达特茅斯会议首次提出人工智能,到现在风起云涌的人脸识别、智能制造、无人驾驶、ChatGPT等各种应用,人工智能已经进入爆发期。我们国家也早就从战略视角提出了产业智能化改造的号角。作为信息技术应用的排头兵,金融行业的数据中心也在全速向AI赋能式运维转变。
主要表现为三个特征:一是消除数据壁垒,为AI价值最大化奠定基础;二是加深算法面向运维场景的应用;三是在AI的驱动下,自动化的能力有了更大的发挥。
2、智能运维面临挑战
然而,机遇和挑战并存,金融行业的IT运维业面临着前所未有的压力和挑战。
以建设银行为例,这些年的设备达到十万量级,日交易量突破百亿笔,数字化经营要求我们在安全稳定运行的基础上进行超高频次的投产。用户体验、安全防护等要求也日趋严格。因此,我们要从“面向系统的运维”向“面向业务的技术运营”转变,加强风险的管控,提升业务的响应,加快资源的交付,实现标准的运营。
智能运维是应对这些挑战的刚需。
3、智能运维建设目标
建设银行从2019年开始启动智能运维建设,目标是构建以感知力、控制力、决策力为支撑的企业级智能运维平台,实现运维活动的全流程、自动化、智能化的协同发展。
但智能运维不是新技术的照搬,也不是简单的场景堆叠,而是体系化的建设过程。如果把运维比作一棵树,那么底部就是数据管理、分析决策和自动控制这三个扎实的根系,它们汲取大数据、人工智能等新技术的营养,通过组织的融合和创新,将感知、决策和控制三大能力输送到资源供给、应急响应、敏捷交付等各种运维场景的枝干中,从而收获质量可靠、安全可控、效率提升、成本降低等运维成果,支撑企业长久、繁荣发展。
下面我从三大支撑能力和四大应用效果方面同大家分享一下建行的实践情况。
二、实践情况
1、感知力——以全景数据技术支撑可观测运维
感知力相当于运维的眼睛,通过丰富的运维数据,为各类运维应用提供信息支持。
建行已经建立了具备上万个属性和百万量级实例的运维数据模型,沉淀自动化校验规则,为智能运维应用提供准确可靠的数据服务。
同时我们以统一的视图方式展现IT全景架构资产和运行数据视图,串接从业务规划、开发设计、测试投产、生产运维全领域的应用,有效支持了可视化运维。
2、决策力——以智能分析技术支撑主动运维
决策力相当于运维“大脑”,也是智能运维的核心能力。通过构建运维专属知识图谱和运维专属人工智能算法辅助决策和判断,支撑主动运维。
我们集成了专家规则、统计学习和深度学习等命名实体识别方法,构建了百万级别实体和千万级别关系数的运维专属知识图谱,提供关系、指标、告警、日志等多模态数据的毫秒级查询;可以提供交易指标比对检测、平均响应时间突变模式识别、假集群检测等场景化算法服务;可以实现跨设备、跨领域的风险检查,使检查范围、检查方式得到几何级提升。
3、控制力——以自动实施技术支撑高效运维
控制力相当于运维的“手脚”。利用自动实施技术执行自动化、流程化操作,解放运维人员,提升运维效率和准确率。安全运维管理提供一站式安全认证,和统一权限管理;自动化运维为智能运维提供自动化脚本执行、调度和管控能力,支持对服务器、网络、存储等对象的自动操作;基础运维可以为智能应用提供采控、消息中心、服务注册、租户管理等基本功能。
下面,我从高效支付、安全管控、快速响应、运营支撑等4个方面介绍我们的一些效果应用。
三、应用效果
1、更“强”——满足数字化经营敏捷交付需求
构建面向应用的端到端交付池,变被动交付为主动交付,从根本上提升面向未来的服务供给水平,满足数字化经营敏捷交付的需求。
推进基础设施规划与前瞻式布局,加强资源的弹性供给,提供“一站式”资源供给能力,缩短了平均交付时间;实现一键式版本部署、变更智能协同和一键式回退,在年实施的上万次变更中,绝大部分的应用版本都是自动化方式部署;打通开发、测试与生产变更流程断点,建立敏捷投产通道,投产部署时间从周级缩短至日级,比传统运维的效率提高约70%。
2、更“准”——提供安全精准的业务洞察能力
以加强安全风险管控为目标,打造细到点击的应用监控体系,提升业务洞察能力。建设一体化权限管控与操作审计体系,控制操作风险。实现毫秒级采集、1秒级监控;针对特征交易,提供动态基线、小样本类型交易累积、窗口累积、告警自适应升降级等告警类型,满足个性化需求;提供单笔交易完整链路跟踪、根因辅助分析等故障分析能力;基于知识图谱关系分析故障影响,设备自动探活,各领域告警同频共振,主要级别告警聚合率接近100%。
3、更“快”——构建快速有效的应急响应能力
为了更快地响应业务,我们对应急能力进行了全面提升。首先是贯通了系统软件、IT设备、基础设施间运行与操作数据,并以智能运维算法为依托,构建起以系统为核心的运维全景关系图谱,形成了跨系统、跨领域的作战地图。
在故障发生时,智能监控告警可以及时感知系统故障,并通过整体作战地图、交易路径图、系统作战地图等一系列可观测和可视化的手段,实现故障的分钟级发现和分钟级处置。
4、更“优”——依靠科学管理提升运维质效
前期,在人民银行的大力支持和指导下,我们与工、农、中、交等同业开展了共研,形成技术运营指标400多项,促进银行业数据中心创新能力、服务质量及风险控制水平的提升,目前该研究成果已经在建行落地实施和推广。
在精准度量运维活动、合理配置资源、提升运维质效方面发挥重要作用,比如原先每到投产日,全国各地开发中心的数百人,涌到数据中心现场支持投产上线的“盛况”已经一去不复返了,智能运维替代“人肉运维”,切实降低了运行成本,也有效避免了出现聚集性疫情的风险。
5、共促运维数字化转型:智能运维国家标准
2021 年 10月起,建行作为工作组组长单位,同金融、交通、能源等行业的数十家企业一同研制《智能运维 国家标准》,目前该标准已提交至国标委,进入发布前的冲刺阶段。同时,其阶段性成果团体标准《信息技术服务 智能运维 通用要求》(T CESA 1172—2021)也已发布,正在开展首批试点评估工作。智能运维相关标准的研制还被写入国家十部委联合发布的《“十四五”国家标准体系建设规划》,成为国家关注的重点领域标准。
6、持续发布《中国智能运维实践年度报告》
标准的编制过程是“以行促知”,而“知”的重要意义在于指导“行”,在标准研制的同时,我们联合数十家单位,围绕国内外智能运维趋势、标准解读、实践案例分析等方面进行了调研,研究智能运维的当前挑战、市场生态及演化趋势,已发布 2021 和 2022 年度两期《中国智能运维实践年度报告》。
四、未来展望
未来,建行沿着“数字化、智能化、一体化”的技术演进路线,对内建设持续进化型智能运维、保障集团业务稳健运营;对外共建开放共享型运维生态、促进智能运维产业革新,使人工智能在运维领域的创新成果成为金融行业的生产力、运维产业的急先锋。我们力争做好三个角色:
一是做人工智能应用的“践行者”,实现复杂融合场景下的智能化应用,向着无人、自愈的智能数据中心努力;
二是做新型数据中心的“守护者”,为将来超大型数据中心集群提供多地多中心一体化运管能力,支撑未来百万台级服务器的运维规模;
三是做智能运维产业的“布道者”,推动国标的尽早发布,引导智能运维产业发展,构建共商共建共享的合作态势,促进我国信息化领域的“双循环”。
直播预告丨HTTP/3全解析:原理、发展历程与落地实践
近年来,HTTP/3的兴起在互联网掀起浪潮,它基于更优秀的传输层协议(QUIC协议),能够极大地(尤其是弱网情况下)提升用户上网的速度。8月23日晚7点,来自OPPO的网络技术专家-李龙彦老师将带来《HTTP/3全解析:原理、发展历程与落地实践》的主题分享,重点介绍HTTP协议各个版本(HTTP1.1、HTTP/2、HTTP/3)的发展状况,解答“为什么你的业务用了HTTP/2,效果还不如HTTP1.1?”的疑惑,详解QUIC(HTTP/3)协议,分析HTTP/3协议的适合场景及发展趋势。
主题:HTTP/3全解析:原理、发展历程与落地实践讲师:OPPO 网络技术专家 李龙彦时间:8月23日周三晚7点地点:线上直播间直播地址:HTTP/3全解析:原理、发展历程与落地实践关键词:
推荐阅读
月壤形成的主要原因 月壤与土壤有什么区别
月壤形成的主要原因月壤形成过程没有生物活动参与,没有有机质,还极度缺水干燥;组成月壤的矿物粉末基本是由陨石撞击破砰形成,因此,粉末 【详细】
域名抢注是是什么意思?投资角度来看什么域名好?
域名抢注是是什么意思域名抢注是通过抢先注册的方式获得互联网删除的域名的使用权。域名是由点分隔的一串数字,用于标记一台计算机或一组计 【详细】
捷达保养费用是多少?捷达是哪个国家的品牌?
捷达保养费用是多少?全新捷达的保修期为2年或6万公里,以先到者为准,新车可享受一次免费保养,首次免费保养在5000-7500km或1年内进行。如 【详细】
天然气泄露会造成爆炸吗?天然气泄漏怎么办?
天然气泄露会造成爆炸吗?家里用的天然气如果泄露是会发生爆炸的。当空气中含有混合天然气时,在与火源接触的一系列爆炸危险中,就会发生爆 【详细】
四部门明确App收集个人信息范围 个人信息保护范围判断标准
四部门明确App收集个人信息范围近日,国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合印发《常见类型移动互联网 【详细】
相关新闻
- 建设银行在智能运维上的探索与实践
- 高速列车的齿轮箱在高速运行时,动态特性是否能有效提高安全性?
- 华为官宣突破后,中芯国际突然撤下14nm工艺!徐直军:全面验证
- 三年不到,阿里云盘又走上了限速的老路
- 三星Galaxy Watch 6系列发布,性能对比提升18%,可旋转表圈
- 8月22日基金净值:交银均衡成长一年混合A最新净值0.8757,涨0.64%
- 人民网08月22日获沪股通增持112.16万股
- 沈阳快递小哥获评“京东物流年度十大感动人物”
- 西安咸阳国际机场三期扩建工程旅客过夜用房主体结构封顶
- 警惕!缅北电诈已经盯上了华为Mate60发布会
- 四川盆地再添新气田 巴中气田首期新增探明地质储量超305亿立方米
- (环境)“死亡之海”里的零碳沙漠公路
- 今年河北将培育1000名“头雁”
- 福建电子口岸:给中国港口装上“智能大脑”
- 高端数控机床:国产替代大势所趋,核心环节龙头梳理
- 立大功!数名“美间谍”海关被捕,用行李藏上亿“中国顶尖技术”
- 身价930亿谷歌创始人离婚出轨老婆闺蜜,拒付华裔妻子赡养费
- 女士收款码频繁收到转账上热榜不是诈骗!网友:小时候幻想每人…
- 饮酒驾车和醉酒驾驶的惩罚标准如何
- 吃什么能解酒最快最有效的方法