当前位置:首页 > 海外 > 正文

农业银行魏坤:快速推进算力基础设施高质量发展,已成金融机构重要课题

  • 海外
  • 2024-12-19 20:52:02
  • 6

专题:第21届中国国际金融论坛

  第21届中国国际金融论坛于2024年12月19日-20日在上海召开,主题为“金融高质量服务新质生产力发展”。中国农业银行数据中心技术管理部总经理魏坤出席并演讲。

农业银行魏坤:快速推进算力基础设施高质量发展,已成金融机构重要课题

  以下为演讲实录:

  各位领导各位专家大家好,我是农业银行数据中心的魏坤,很高兴借此机会与各位同仁共同探讨一下“新形势下金融机构如何更好地开展算力基础设施的建设工作”。

  当下算力作为新质生产力的核心要素,已经成为社会经济高质量发展的重要驱动。因此快速推进算力基础设施的高质量发展,已经成为金融机构的一个重要课题。今天我将结合金融算力基础设施内外部的发展要求,着重围绕我行的工作实践,给大家做一个简要的汇报。

  去年10月,国家6部委印发了《算力基础设施高质量发展行动计划》,这里的算力是广义的算力,具体包括信息计算力、网络运载力以及数据存储力行动计划提出了算力基础设施高质量发展,应遵循多元供给、优化布局、需求牵引、强化赋能、创新驱动、汇聚合力、绿色低碳安全可靠这四个原则。

  我感觉这四点原则总结得非常好,就是简要而又全面,他为我们金融业的算力基础设施的建设提供了非常清晰的一个指导方向。

  在内部业务需求方面,对于我们这种大型商业银行而言,用户数量非常庞大,就拿农行来说,我们现在有8亿多的个人客户,还有1000万的企业客户,掌银的月活已经超过了2.4亿。

  此外银行的业务复杂度还是非常高的,各类金融服务层出不穷,并且随着金融业数字化转型步入深水区,业务产品和服务模式持续快速的创新,对通用与智能算力的多元供给,算力资源的快速交付,还有基于业务量的灵活的弹性伸缩等服务能力,提出了更高的要求。

  更重要的是大型商业银行作为社会经济系统的压舱石,它的稳定性是头等大事,安全稳定是不可打破的底线。基于以上的内生需求,农行的行党委提出了平稳、高效、安全、精准、敏捷、简单这十二字方针,这和算力基础设施高质量发展行动计划里面,刚才提到那4条原则是非常契合的。

  综合分析国家的政策要求和内生业务发展需求。那么如何打造高质量金融算力技术措施,概括起来需要回答这四个问题。

  第一个是如何优化算力布局,匹配国家的“东数西算”的战略;

  第二个是如何开展高可用建设,构建可靠安全的金融IT架构;

  第三个是如何以原生创新驱动满足资源供给的敏捷高效;

  第四个是如何落实双碳战略,构建绿色低碳的基础设施;

  下面我来汇报一下农行针对这四个问题的回答。

  为了有效应对算力基础设施面临的新形势和挑战,农行主动融入和构建新发展格局,坚持统筹高质量发展和高水平安全,扎实开展提质增效,降本三维工程,全面打造了“东西协同,总分协同”的高效算力基础设施,大力推动云原生数据库等技术引入落地,初步建成了算力一体协同,然后架构可靠安全,全栈深入深度云化,运营敏捷高效,运转绿色低碳的现代化计算运载及存储中心,为农行的业务发展提供了更为精准高效的算力支持。

  下面我分别对这五方面的工作进行汇报。在布局方面,农行积极落实国家的“东数西算”的战略,综合考量业务和技术发展趋势,灾备体系布局,启动了内蒙古数据中心的建设,将大数据以及AI算力全部由西部数据中心承接,充分利用西部的算力资源来支撑东部的数据处理,实现算力布局的提质。

  去年我们在完成大数据规模化迁移工程以及分行数据全面上云以后,农行算是初步完成了算力布局和信息系统部署的优化,至此基本实现了东西部算力高效互补,总分行一体协同联动。

  此外在算力布局条例的基础上,我们也加速构建高效灵活的算力调度体系,持续优化提升通用算力和智能算力的协同供给能力。通过智能编排、弹性调度等策略,实现了算力的高效流动,达到算力需求和供给的平衡,能够快速满足上层应用多元化的算力需求。

  在架构建设方面,这里面有两个重点,一个是可靠,一个是安全。在可靠上我们是构建了一套非常可靠的一个高可用架构。农行是按照日常生产、同城灾备、异地容灾、节点保障,这几个维度的需求,计划构建了设备级、园区级以及区域级的多层级高可靠的算力架构,持续推进双活加灾备的容灾工程建设,打造了全天候、全场景、全链路的容灾业务连续性保障体系。

  我们针对高等级的应用现在已经全部高标准地完成了同城的双活建设,为事件处置等提供了快速高效的应急手段。在历年的人行压力测试演练中,我们的同城以及异地的切换的速度一直保持同业领先。

  第二大方面就是安全,我们是打造了全周期、全覆盖、全资产一体化的立体纵深网络安全防御体系。

  (1)是构建了全生命周期贯通的研发运营安全体系,将安全防控左移。

  (2)是构建了全覆盖的四横一纵的机房架构,实现对总分行境外机构,子公司深度赋能。

  (3)构建了基于全量资产的新一代脆弱性管理平台,实现主动安全防护。

  (4)构建了企业级一体化安全运营中心,实现威胁发现、监测预警,应对处置效率的显著提升,坚持坚实地保障了农行全量的个人客户和企业客户的资金与信息安全。

  农行还开展了全栈的深度云化。我们是整合了IaaS和PaaS平台,在技术架构业务应用、架构安全领域全面落地了云原生技术,打造了业内首个全域通过云原生成熟度优秀级评估的云平台,建成了三地六中心加分行的分布式云,再加边缘设备的分布式算力网络,支撑农银集团分布式核心业务,集团的子公司的业务,电子银行业务、办公业务等全业务场景。

  目前农行的云原生已经全面建成,IaaS的云化率达到了99%,容器云的云化率达到了92%。目前已经承载了一千多个系统模块,有14万个容器在稳定地运行。

  基于刚才提到的云原生2.0的体系,农行实现了各类资源的敏捷高效供给能力。在算力体系打造方面,以一云多芯的金融云平台为依托,提供CPU、GPU算力资源的统一管理和灵活的调度能力,构建了混合池化、算力拆解的异构算力体系。

  在高速存储方面,我们基于NoF+技术构建了无损以太网络,实现了与传统光纤交换网络相当的一个IO吞吐表现,深入探索并实施了数据库加全闪存的存算分离架构解决方案,有效地提升了数据处理的速度和效率。在支持存算分离架构和AIGC大模型训练等方面,展现出了资源和投入之间的良好平衡。

  在激发数据要素的潜能方面,以上云和存算分离为重点,打造企业级数据能力中枢,建设数据处理架构和数据存储和计算统一的规范化实时数仓,提升数据服务的实效,为农行智慧银行建设提供坚实的数据支撑。在这个企业级的网络架构方面,我们创新应用基于SRV6的IPV6+的网络技术,实现了三个协同:首先是云网协同,实现了骨干网与内网络的无缝衔接,云间协同实现了数据中心之间的资源共享和灵活调度,云端协同实现了端到端的网络服务贯通和服务质量保障。

  最后是在智能运维赋能方面,我们基于AIOps的理念,聚焦监控应急变更等领域,构建涵盖多维分析,运行风险预测、故障智能诊断、无阈值告警,指标化运营等方面的AI运营体系,有效提升全局的分析能力和应急处置效率。

  基于以上的技术创新应用,农行的算力基础设施能够有效地对各类算力业务场景进行支撑,可以实现5分钟拆解4000核的资源快速交付,提供业务峰值60万TPS的性能支撑,以及跨层跨域的千卡调度的智算能力。

  在绿色低碳方面,农行积极响应国家的双碳战略,根据不同地区的气候特点,资源情况等因素,因地制宜地选取合适的绿色低碳技术。我们新机房采用了间接蒸发冷却、氟泵双循环、光伏发电等技术,节能技术应用水平处于行业内的领先水平,同时结合云原生+AI的效能管理理念,进一步实现了降本增效。第一个是引入研究生弹性扩缩融合智能推荐的算法,智慧调度提升资源的使用率。第二个是通过对数据中心制冷系统运行数据进行加工整合训练,建立制冷能效AI预测的模型,实现能效的智能寻优,有效节约用电成本。第三个是试点打造无人机房,并在无人维护时打造黑灯机房,实现PUE的进一步下降。

  在最后我想针对金融算力基础设施的未来发展,谈一下自己的理解。

  未来金融算力基础设施作为向社会提供公共服务的重要主体之一应持续关注安全稳定,多元算力,然后智能算网、绿色低碳四个方向:

  一是针对金融机构的关键信息基础设施的这个测评工作已经逐步落地了。金融机构要履行好关基运营者的职责,依据关基条例的各项要求,进一步强化算力网络的安全保障。

  二是目前各行都在开展金融行业的大模型的引入和试点应用,后续随着各类AI场景的落地和深化,金融业应更加注重高性能计算以及大规模数据处理能力的提供,同时要增强智能算、网和储在建成后的运营能力。

  三是算力网络,经历了算网融合的发展,最终将演进为云网一体。未来金融业的算力基础设施应更加注重网络协同,通过对算力设施网络资源以及业务场景的协同感知,智能化的将业务调度到合适的节点,实现算网资源统一编排,统一运维,统一优化。

  四是绿色高效的数据中心建设已经成为行业的共识。金融业需要进一步引入绿色能源,采用源网荷储一体化技术,积极地推动算力基础设施绿色低碳发展。

  以上是我的分享,请各位领导专家批评指正,谢谢。

  新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。

有话要说...