自动补齐隐患负责人、隐患发现时间等信息;入库操作幂等;支持半结构化的巡检结果入库,不同巡检的隐患结果包括不同的属性,比如巡检A的隐患有“中间件类型”,巡检B有“主库CPU核数”,以上不同结构的数据均可解析入库;针对表粒度的隐患项,如果分库分表的表出现隐患,会自动合并成一个逻辑表隐患入库 。
巡检脚本Git仓库:用来管理巡检脚本 。为了方便DBA添加巡检,在系统建设过程中,我们增加了多个公共函数,用来降低开发新巡检的成本,也方便将老的巡检脚本迁移到新的体系中 。
3. 应用层
集成到数据库运维平台:作为隐患明细展示、配置巡检展示、管理白名单等功能的入口 。为了提高隐患治理效率 。我们做了以下设计 。
隐患明细展示页面会标注每个隐患出现的天数,便于追踪隐患出现原因 。配置新的巡检展示时必须要同时制定隐患解决方案,确保隐患治理有章可循,避免错误的治理方式导致“错上加错” 。
隐患运营后台:这个模块主要目的是推进隐患的治理 。
运营报表,帮助管理者从全局角度掌握隐患治理进展,报表包括隐患趋势、存量分布、增量分布、平均治理周期等核心内容,进而由上到下推动隐患治理;报表数据同样是通过Crane定时任务计算获得 。隐患治理催办功能,用来督促DBA处理隐患 。催办内容中会带有隐患具体内容、出现时长、处理方案等 。催办形式包括大象消息、告警,具体选用哪种形式可根据巡检关键程度做相应配置 。
外部数据服务:主要是将巡检隐患数据提供给美团内部其他平台或项目使用,让巡检数据发挥更大的价值 。
【mysql数据库系统表有哪些 数据库使用教程】对接先知平台,美团SRE团队开发的主要面向研发人员(下称RD)用户的风险发现和运营平台,平台接收各服务方上报的隐患数据,以RD视角从组织架构维度展示各服务的风险点,并跟进RD处理进度 。巡检系统会把需要RD参与治理的隐患,比如大表、无唯一键表等,借助先知平台统一推送给RD进行治理 。运维周报,主要面向业务线RD负责人和业务线DBA,以静态报告形式展示业务线数据库运行情况以及存在的问题,巡检隐患是报告内容之一 。
四、巡检项目
巡检项目根据负责方分为DBA和RD,DBA主要负责处理数据库基础功能组件以及影响服务稳定性的隐患 。RD主要负责库表设计缺陷、数据库使用不规范等引起的业务故障或性能问题的隐患 。也存在需要他们同时参与治理的巡检项,比如“磁盘可用空间预测”等 。目前巡检项目共64个,类目分布情况如下图所示:
图3 巡检项类目分布
集群:主要检查集群拓扑、核心参数等集群层面的隐患;机器:主要检查服务器硬件层面的隐患;Schema/SQL:检查表结构设计、数据库使用、SQL质量等方面的隐患;高可用/备份/中间件/报警:主要检查相关核心功能组件是否存在隐患 。
下面,我们通过列举几个巡检任务来对巡检项做简单的说明:
五、成果
美团MySQL巡检系统已稳定运行近一年时间,基于新巡检体系上线的巡检项49个 。通过巡检体系持续运行,在团队的共同努力下,我们共治理了8000+核心隐患,近3个月隐患治理周期平均不超过4天,将隐患总数持续保持在极小的量级,有效地保障了数据库的稳定 。
图4 隐患运营-团队内各虚拟小组隐患平均治理周期
下面的隐患趋势图,展示了近一年中隐患的个数,数量突然增长是由于新的巡检项上线 。从整体趋势上看,隐患存量有非常明显的下降 。
图5 隐患运营-隐患总量趋势情况
- u盘结构损坏 u盘做系统详细步骤
- 苹果平板4怎么更新系统 苹果平板ipad最新款
- 困在系统里的外卖骑手 需要更好的制度管理
- linux 查看系统配置命令 linux查看运行内存使用情况
- mysql联合查询语句 关联两个不同数据库查询
- js数据库信息交互 js调用数据库数据
- 温度探测器的工作原理 远程温湿度实时监测系统操作
- 怎样修复系统盘 怎样修复系统
- 小型库存管理软件排行 免费的出库入库软件系统
- 电脑u盘制作pe系统哪个工具好 u盘安装系统详细步骤