收藏 分销(赏)

某银行数据库一键巡检体系.docx

上传人:二*** 文档编号:4512628 上传时间:2024-09-26 格式:DOCX 页数:6 大小:67.21KB 下载积分:5 金币
下载 相关 举报
某银行数据库一键巡检体系.docx_第1页
第1页 / 共6页
本文档共6页,全文阅读请下载到手机保存,查看更方便
资源描述
某银行数据库一键巡检体系背景与挑战 随着我行业务数字化、互联网化的不断开展以及分布式技术的全面落 地,行内数据库体量迅速攀升,数据库的运维难度陡然剧增,运维本钱不断 增大,现有的运维体系难以维系,对数据库运维巡检工作提出了巨大的挑战。 1. 应对方案 互联网的开展、信息平安性提高等因素导致的数据库体量膨胀,不仅是 数据库运维工作的挑战,更是运维手段变革的机遇。庞大的数据库数量导致 运维人员分身乏术,人力本钱的上升也导致无限扩大运维团队的不现实性, 一个全面智能、高效快捷的运维工具成了应对目前挑战的最优解。立足于生 产实际情况,结合现有的DBPaaS数据库统一管理平台运维平台的巡检工具 被提上了研究日程。一个真正满足运维巡检需求的工具,应该具备以下的特 性: 扩展性: 完美支持DB2、Oracle. MySQL等传统商用数据库,还支持横向拓展, 在未来能够简单、快速地支持更多的开源、国产数据库,不需要在特定数据 库查询工具间频繁切换。 兼容性: 工具需要兼容支持数据库的各个主流版本,在数据库技术不断开展演 进过程中,数据库版本迭代迅速,缺陷层出不穷,且各版本之间差异明显, 新的工具需要能够分辨数据库版本,执行不同命令进行巡检。 全面性: 对数据库进行全面、彻底的检查,在数据库核心关键检查指标的基础上, 对不同数据库的特殊架构和特性,进行针对性巡检。 易用性: 工具的目标是将运维人员从繁重、重复的运维巡检工作中解放出来,不 是让运维人员重新投入其他的重复工作中,易用性是必然的要求。 在运维难度不断增加、人力本钱不断上升的今天,一个巡检结果准确、巡检 指标全面、巡检操作智能的巡检工具是必然的运维方向。立足于我行多年运 维经验基础之上,充分研讨和精细雕琢之后,决定完成自动化巡检体系建设。 自动化巡检体系建设主要分为自动化巡检报告和一键巡检两个重要组成部 分,并与DBPaaS数据库统一管理平台有机结合,致力于将运维人员的工作 回归运维本质,向运维智能化、自动化方向迈进。 3.—键巡检 智能巡检报表体系在批量巡检、数据整理方面优势突出,但在单库实时 性能检测的支持上不够完善上略有缺乏。为了弥补巡检体系的缺乏,提升整 个运维体系的完整性,我行从DBA实际运维侧重点实际角度出发,总结出 一批能标识数据库性能、容量和可用性方面的核心关键,并辅以数据可视化 手段,设计了一键巡检系统,进一步提高运维效率、节省运维时间。 关键指标 一键巡检立足于数据库实时情况,对关键指标进行系统分类,便于针对 性运维。在一键巡检功能中将关键指标分为可用性状态、数据库服务能力、 容量、性能四大模块: 可用性状态: 围绕数据库最核心指标进行巡检,假设状态不正常说明出现严重问题,需 要紧急维护。 指标名称 作用 数据库状态 最核心指标,数据库是否可以正常连接 实例状态 实例为数据库提供了运行时环境,状态 异常会导致数据库无法访问 表空间状态 明确是否存在异常的表空间 表状态 明确库中是否存在异常表 DB2许可认 证 明确商业数据库LICENSE认证是否过期, 需要及时更新 最近备份状 明确数据库是否备份成功,防止出现数 态 据库宕机之后数据库无法恢复 数据库服务能力: 决定数据库响应能力的核心指标,并根据历史数据,采用科学方式计算 出指标基线参考值,辅助运维人员合理判断数据库情况。 指标名称 作用 TPS 这些指标显示了当前数据库繁忙程度和 相应时间,过高将导致数据库出现执行 SQL慢等情况,需时刻关注 RSPT QPS RQPS 总连接数 显示当前数据库连接数量,展示了数据 库可能承受的最大压力 活动连接数 活动连接数是决定当前数据库压力的核 心指标 活动连接率 该指标显示了数据库中有效连接的数 量,分析是否存在大量无效连接过多占 用数据库资源 容量: 包含大表、表分区等可能影响导致数据库容量飙升的指标,需要经常关 注,防止数据库容量异常变化。 指标名称 作用 连接数/配置 上线 连接数+上限,发现连接数是否到达警戒 值 实例内存使 用率/数据库 内存 内存是数据库运行的关键指标,缺乏会 导致数据库无法使用,需根据实际情况 调整 日志空间使 用率 数据库操作都需要日志存储,方便数据 库维护操作,日志使用空间过高需要及 时扩充 文件系统使 用率大 主机文件系统剩余空间缺乏将导致数据 库无法操作 DMS表空间 使用率大 DMS表空间需要DBA手动维护,表空间满 会导致数据库无法操作,需要关注使用 率并及时扩充表空间大小 表分区接近 限制值 分区表是分散存储数据、提高查询效率 的方式,但需要关注即将到达限制的分 区表,防止无法使用 大表 大表是导致容量变大的核心原因之一, 大表数量过多需要考虑清理 性能: 锁等数据库正在执行的消耗性能操作,评估数据库当前运行状况。 指标名称 作用 CPU、内存 主机是数据库的依托,主机的性能是影 响数据库性能的重要因素 Bufferpool 缓存是提高SQL执行效率的有效保障, 命中率过低需要重点关注 有效读比例 有效读比例反响了数据查询效率,大量 无效的查询消耗数据库性能造成 锁信息 死锁等问题需要快速响应,很有可能导 致表锁,最终影响业务SQL执行 执行时间长 SQL数量 执行时间长的SQL占用数据库大量资源, 如果过多会导致数据库整体性能下降 事务 大事务和长事务过多,都是异常的现象, 需要及早处理 表相关 表重组等耗时操作需要密切关注 数据可视化 关键指标的梳理是一键巡检的第一步,作为一个实时巡检工具,数据可 视化展示也是重点之一。DBPaaS平台结合我行多年运维经验整理出一套准 确、合理的指标评判标准,为不同指标设定合理的阈值范围,针对不同指标 的不同特性,采用恰当合适的数据刻画方式、科学合理的页面布局,清晰明 确的标记出数据库的潜在风险和性能缺陷,方便运维人员迅速感知出问题 所在。一键巡检界面以红、黄、绿三种颜色划分各个数据库巡检指标评估情 况,运维人员可以据此判断当前指标数据是否合理,辅助完成分析工作。 关联下钻分析 依赖DBPaaS平台强大的数据存储能力和丰富详尽的监控指标项,一键 检查页面中罗列的数据库各项核心巡检项,均与DBPaaS平台中相关指标进 行深度关联,支持通过点击下探连接查看关联数据明细,方便运维人员对数 据库异常项和问题点进行根因分析和诱因定位。 一键巡检样例图中可以看出数据库最近没有数据库备份,但不知具体 备份情况,可以点击进入下列图所示的详情页面,可看到最近的备份情况,明 确备份失败还是未按时备份。 ••ai 巡检是发现问题的手段,处理问题是运维的核心。一键巡检功能还提供 了一键处理功能,在界面图形化处理,维护数据库平稳、高效的运行。 一键巡检参考运维的场景化需要,将处理分为连接处理场景、事务处理场景 等场景,并在将来不断丰富运维场景,做到一键式运维,脱离反复的巡检工 作。 4.小结 一键巡检在投入使用后,得到运维人员的一致好评,在实时运维工作中 发挥了巨大作用,基本告别脚本运维的情况。和智能巡检体系有机结合,相 互补充,形成完整的巡检运维体系。DBPaaS管理平台中对于单库的内容过 多、过细,导致巡检困难,和一键巡检相关联,直观的表达了数据库整体状 况,简化了运维流程,降低了运维难度。
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 通信科技 > 数据库/数据算法

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服