收藏 分销(赏)

某银行数据库一键巡检体系.docx

上传人:二*** 文档编号:4512628 上传时间:2024-09-26 格式:DOCX 页数:6 大小:67.21KB
下载 相关 举报
某银行数据库一键巡检体系.docx_第1页
第1页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、某银行数据库一键巡检体系背景与挑战随着我行业务数字化、互联网化的不断开展以及分布式技术的全面落 地,行内数据库体量迅速攀升,数据库的运维难度陡然剧增,运维本钱不断 增大,现有的运维体系难以维系,对数据库运维巡检工作提出了巨大的挑战。1. 应对方案互联网的开展、信息平安性提高等因素导致的数据库体量膨胀,不仅是 数据库运维工作的挑战,更是运维手段变革的机遇。庞大的数据库数量导致 运维人员分身乏术,人力本钱的上升也导致无限扩大运维团队的不现实性, 一个全面智能、高效快捷的运维工具成了应对目前挑战的最优解。立足于生 产实际情况,结合现有的DBPaaS数据库统一管理平台运维平台的巡检工具 被提上了研究日

2、程。一个真正满足运维巡检需求的工具,应该具备以下的特 性: 扩展性:完美支持DB2、Oracle. MySQL等传统商用数据库,还支持横向拓展, 在未来能够简单、快速地支持更多的开源、国产数据库,不需要在特定数据 库查询工具间频繁切换。兼容性:工具需要兼容支持数据库的各个主流版本,在数据库技术不断开展演 进过程中,数据库版本迭代迅速,缺陷层出不穷,且各版本之间差异明显, 新的工具需要能够分辨数据库版本,执行不同命令进行巡检。全面性:对数据库进行全面、彻底的检查,在数据库核心关键检查指标的基础上, 对不同数据库的特殊架构和特性,进行针对性巡检。易用性:工具的目标是将运维人员从繁重、重复的运维巡检

3、工作中解放出来,不 是让运维人员重新投入其他的重复工作中,易用性是必然的要求。在运维难度不断增加、人力本钱不断上升的今天,一个巡检结果准确、巡检 指标全面、巡检操作智能的巡检工具是必然的运维方向。立足于我行多年运 维经验基础之上,充分研讨和精细雕琢之后,决定完成自动化巡检体系建设。 自动化巡检体系建设主要分为自动化巡检报告和一键巡检两个重要组成部 分,并与DBPaaS数据库统一管理平台有机结合,致力于将运维人员的工作 回归运维本质,向运维智能化、自动化方向迈进。3.键巡检智能巡检报表体系在批量巡检、数据整理方面优势突出,但在单库实时 性能检测的支持上不够完善上略有缺乏。为了弥补巡检体系的缺乏,

4、提升整 个运维体系的完整性,我行从DBA实际运维侧重点实际角度出发,总结出 一批能标识数据库性能、容量和可用性方面的核心关键,并辅以数据可视化 手段,设计了一键巡检系统,进一步提高运维效率、节省运维时间。关键指标一键巡检立足于数据库实时情况,对关键指标进行系统分类,便于针对 性运维。在一键巡检功能中将关键指标分为可用性状态、数据库服务能力、 容量、性能四大模块:可用性状态:围绕数据库最核心指标进行巡检,假设状态不正常说明出现严重问题,需 要紧急维护。指标名称作用数据库状态最核心指标,数据库是否可以正常连接实例状态实例为数据库提供了运行时环境,状态异常会导致数据库无法访问表空间状态明确是否存在异

5、常的表空间表状态明确库中是否存在异常表DB2许可认 证明确商业数据库LICENSE认证是否过期,需要及时更新最近备份状明确数据库是否备份成功,防止出现数态据库宕机之后数据库无法恢复数据库服务能力:决定数据库响应能力的核心指标,并根据历史数据,采用科学方式计算 出指标基线参考值,辅助运维人员合理判断数据库情况。指标名称作用TPS这些指标显示了当前数据库繁忙程度和相应时间,过高将导致数据库出现执行SQL慢等情况,需时刻关注RSPTQPSRQPS总连接数显示当前数据库连接数量,展示了数据 库可能承受的最大压力活动连接数活动连接数是决定当前数据库压力的核 心指标活动连接率该指标显示了数据库中有效连接的

6、数 量,分析是否存在大量无效连接过多占 用数据库资源容量:包含大表、表分区等可能影响导致数据库容量飙升的指标,需要经常关 注,防止数据库容量异常变化。指标名称作用连接数/配置上线连接数+上限,发现连接数是否到达警戒 值实例内存使 用率/数据库 内存内存是数据库运行的关键指标,缺乏会 导致数据库无法使用,需根据实际情况 调整日志空间使用率数据库操作都需要日志存储,方便数据 库维护操作,日志使用空间过高需要及 时扩充文件系统使用率大主机文件系统剩余空间缺乏将导致数据库无法操作DMS表空间 使用率大DMS表空间需要DBA手动维护,表空间满 会导致数据库无法操作,需要关注使用 率并及时扩充表空间大小表

7、分区接近限制值分区表是分散存储数据、提高查询效率 的方式,但需要关注即将到达限制的分 区表,防止无法使用大表大表是导致容量变大的核心原因之一, 大表数量过多需要考虑清理性能:锁等数据库正在执行的消耗性能操作,评估数据库当前运行状况。指标名称作用CPU、内存主机是数据库的依托,主机的性能是影 响数据库性能的重要因素Bufferpool缓存是提高SQL执行效率的有效保障, 命中率过低需要重点关注有效读比例有效读比例反响了数据查询效率,大量无效的查询消耗数据库性能造成锁信息死锁等问题需要快速响应,很有可能导致表锁,最终影响业务SQL执行执行时间长SQL数量执行时间长的SQL占用数据库大量资源, 如果

8、过多会导致数据库整体性能下降事务大事务和长事务过多,都是异常的现象,需要及早处理表相关表重组等耗时操作需要密切关注数据可视化关键指标的梳理是一键巡检的第一步,作为一个实时巡检工具,数据可 视化展示也是重点之一。DBPaaS平台结合我行多年运维经验整理出一套准 确、合理的指标评判标准,为不同指标设定合理的阈值范围,针对不同指标 的不同特性,采用恰当合适的数据刻画方式、科学合理的页面布局,清晰明 确的标记出数据库的潜在风险和性能缺陷,方便运维人员迅速感知出问题 所在。一键巡检界面以红、黄、绿三种颜色划分各个数据库巡检指标评估情 况,运维人员可以据此判断当前指标数据是否合理,辅助完成分析工作。关联下

9、钻分析依赖DBPaaS平台强大的数据存储能力和丰富详尽的监控指标项,一键 检查页面中罗列的数据库各项核心巡检项,均与DBPaaS平台中相关指标进 行深度关联,支持通过点击下探连接查看关联数据明细,方便运维人员对数 据库异常项和问题点进行根因分析和诱因定位。一键巡检样例图中可以看出数据库最近没有数据库备份,但不知具体 备份情况,可以点击进入下列图所示的详情页面,可看到最近的备份情况,明 确备份失败还是未按时备份。ai巡检是发现问题的手段,处理问题是运维的核心。一键巡检功能还提供 了一键处理功能,在界面图形化处理,维护数据库平稳、高效的运行。 一键巡检参考运维的场景化需要,将处理分为连接处理场景、事务处理场景 等场景,并在将来不断丰富运维场景,做到一键式运维,脱离反复的巡检工 作。4.小结一键巡检在投入使用后,得到运维人员的一致好评,在实时运维工作中 发挥了巨大作用,基本告别脚本运维的情况。和智能巡检体系有机结合,相 互补充,形成完整的巡检运维体系。DBPaaS管理平台中对于单库的内容过 多、过细,导致巡检困难,和一键巡检相关联,直观的表达了数据库整体状 况,简化了运维流程,降低了运维难度。

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 通信科技 > 数据库/数据算法

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服