GB/T28827.4-2019

信息技术服务运行维护第4部分:数据中心服务要求

Informationtechnologyservice—Operationsandmaintenance—Part4:Servicerequirementsfordatacenter

本文分享国家标准信息技术服务运行维护第4部分:数据中心服务要求的全文阅读和高清PDF的下载,信息技术服务运行维护第4部分:数据中心服务要求的编号:GB/T28827.4-2019。信息技术服务运行维护第4部分:数据中心服务要求共有51页,发布于2020-03-01
  • 中国标准分类号(CCS)L77
  • 国际标准分类号(ICS)35.080
  • 实施日期2020-03-01
  • 文件格式PDF
  • 文本页数51页
  • 文件大小3.84M

以图片形式预览信息技术服务运行维护第4部分:数据中心服务要求

信息技术服务运行维护第4部分:数据中心服务要求


国家标准 GB/28827.4一2019 信息技术服务运行维护 第4部分:数据中心服务要求 Informationtechnologyservice一Operationsandmaintenance- Part4:Servicereguiremmentsfordatacenter 2019-08-30发布 2020-03-01实施 国家市场监督管理总局 发布 币国国家标准化管理委员会国家标准
GB;/T28827.4一2019 目 次 前言 范围 2 规范性引用文件 术语和定义、缩略语 3.1术语和定义 3.2缩略语 数据中心运行维护对象和内容 4.1概述 4.2数据中心运行维护对象 4.3数据中心运行维护内容 数据中心运行维护管理要求 5.1数据中心运行维护管理框架 5.2目标管理 服务管控 5.3 5.4故障管理 5.5数据保护 5.6安全管理 12 附录A(资料性附录数据中心运行维护人员建议 14 附录B(资料性附录)数据中心运行维护工具建议 16 附录c(资料性附录数据中心运行维护服务文档示例 17 概述 17 例行报告 17 事件报告 17 C.故障总结报告 18 C.5发布检查列表 18 C.6应急预案 19 附录D(资料性附录数据中心运行维护交付内容 20 D.1机房基础设施 0 D2物理资源 26 D3虚拟资源 32 D.4平台资源 38 D.5应用 43 45 D.6数据 参考文献 48
GB;/T28827.4一2019 前 言 GB/T28827《信息技术服务运行维护》分为6个部分: 第1部分:通用要求; 第2部分:交付规范 第3部分:应急响应规范; 第4部分;数据中心服务要求 第5部分:桌面及外围设备服务要求; 第6部分;应用系统服务要求 本部分为GB/T28827的第4部分 本部分按照GB/T1.1一2009给出的规则起草 本部分由全国信息技术标准化技术委员会(SAC/TC28)提出并归口 本部分起草单位;广州南天电脑系统有限公司、上海软中信息技术有限公司、金税信息技术服务股 份有限公司、东教云科技有限公司、电子技术标准化研究院、神州数码系统集成服务有限公司广州 市中南民航空管通信网络科技有限公司,建设银行股份有限公司广州分行、上海市国有资产信息中 心、上海有乎网络股份有限公司、昆明理工大学、四川易诚智讯科技有限公司、软件评测中心、上海 翰结信息科技有限公司、 广州银联网络支付有限公司、上海上科信息 、云南电网有限责任公司信息中心、 技术研究所,上海计算机软件技术开发中心,威睿信息技术()有限公司、移动通信集团广东有 限公司、广东南粤银行股份有限公司、兴业银行股份有限公司、四川三海世纪信息技术有限公司、北京中 科仙络咨询服务有限公司、北京银信长远科技股份有限公司北京荣之联科技股份有限公司、北京德信 永道信息技术服务有限公司、昆明市智慧城市建设投资有限公司 本部分主要起草人;范勇、,宋俊典、熊健淞、姜、周平、赵昱祥、段培超、刘例、王宇颖、杜远,宋炜炜、 张军,周它,马烈张树玲、陈宏峰、向华伟、肖新华,朱东亮、祝江、,尹兴、吕锋、邵童林、符俊环,谢冬梅 熊云涛、侯韶新、黄雨莎、杨琳、林越彰、陈明、汤维、赵广涛、陈杨、郭浩、杨泉、查红军、王萌、刘汉华 尹正茹、马腾江、李浩宇
GB;/T28827.4一2019 信息技术服务运行维护 第4部分:数据中心服务要求 范围 GB/T28827的本部分提出了数据中心的运行维护简称:运维)管理框架,规定了数据中心运行维 护的对象、交付内容和管理要求 本部分适用于数据中心运行维护相关方 规范性引用文件 下列文件对于本文件的应用是必不可少的 凡是注日期的引用文件,仅注日期的版本适用于本文 件 凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件 GB/T28827.1一2012信息技术服务运行维护第1部分;通用要求 信息技术服务运行维护第2部分;交付规范 GB/T28827.22012 GB/T28827.3一2012信息技术服务运行维护第3部分应急响应规范 GB/T29264一2012信息技术服务分类与代码 术语和定义、缩略语 3.1术语和定义 GB/T28827.1一2012,GB/T28827.22012,GB/T28827.32012和GB/T292642012界定的 以及下列术语和定义适用于本文件 3.1.1 数据中心datacenter 根据特定工艺设计的场地(机房)机房基础设施信息系统硬件(物理和虚拟资源入,软件和信息资 源(数据)以及相应的规章制度组成的集合体 注1;数据中心场地、机房基础设施可参考GB/T2887一2o011 注2;数据中心场地、机房基础设施、相关环境和人员的安全要求可参考GB/T9361一2011,GB/T24001-2016以 及GB/T28001一201l 注3数据中心可以是集中的,也可以是分散的,用于实现信息技术资源的统一配置和调度 注4:数据中心提供业务系统基础运行环境以及物理或虚拟的网络、服务器等计算资源和存储资源保障,输出应用 服务和数据服务 3.1.2 businesssystem 业务系统 由计算机硬件(物理和虚拟资源)、网络和通讯设备、计算机软件、信息资源、信息用户和规章制度组 成的以收集(或获取),处理、存储、分配信息为目的的人机一体化系统 注1:业务系统的目的是以信息化手段实现业务过程数字化,支撑企业管理,实现企业价值 注2业务系统由一个或多个应用组成
GB/T28827.4一2019 3.1.3 应用applieaton 业务系统中,使用各种程序语言编写的应用程序集合 注;应用在各设备资源,虚拟资源,平台资源等资源的支撑下,满足用户业务需求 3.1.4 托管服务 coocation 为客户的服务器、存储和网络设备提供空间电力、制冷、网络接人和物理安全等的服务 3.1.5 服务级别协议serviceelevelagreement 服务提供商与服务需方之间签署的记录服务和约定服务级别的协议 [GB/T24405.1一2009,定义2.13] 3.1.6 外部事件extermalevents 为运行维护对象提供支撑的、协议获得的、不可控的、非自主运维的服务资源出现异常引发的事件 注服务资源,例如互联网,市电、租赁的机房等 3.1.7 系统事件systemevents 在运行维护对象范围内的、自主管理或运维的系统资源服务异常引发的事件 3.1.8 安全事件seeurityevents 由于安全边界破坏,安全措施或安全设施失效,造成的安全等级下降或信息被非法盗用等需方(数 据中心)利益被侵害的事件 3.1.9 虚拟资源virtualresouree 通过使用虚拟化技术对数据中心的计算、存储、网络等物理资源进行虚拟化,并通过管理软件动态 部署,提供给用户使用的虚拟化集中管理资源 3.1.10 虚拟机virtualmachine 通过软件模拟的具有完整硬件系统功能的,运行在一个完全隔离环境中的计算机系统 3.1.11 宿主机host 运行虚拟化软件,并为虚拟机运行提供环境的物理机器 3.1.12 标准作业规程standard loprautingprwdue;soP 执行正常操作期间更改基础设施配置的方法和程序 3.1.13 )rocedure;MOP 维护作业规程 maintenanceoperatingpn 规范和明确维护过程中的操作步骤和程序 3.1.14 应急作业规程emergeneyoperatingpredure;EoP 针对可能发生严重后果的紧急场景预先建立的作业方法和程序 3.1.15 s;SCP 机房配置规程 site configurationpreeduresr 机房相关设施在正常工作状况下的标准设置方法和程序,包括;设备配置参数,运行设置参数等
GB;/T28827.4一2019 3.1.16 电能使用效率 eleetrieeneryusageeffeetiveness;EEUE 为同一时间周期内数据中心总电能消耗量与信息设备电能消耗量之比 3.1.17 ARMarchiteetureserver ARM服务器 采用基于ARM体系架构的处理器作为CPU的服务器 3.1.18 x86architeetureserver x86服务器 采用基于x86体系架构的处理器作为CPU的服务器 3.2缩略语 下列缩略语适用于本文件 ACL;访问控制列表(AccessControlList) ARM:一种RISC微处理器(AcornRISCMachine ATS:自动转换开关(AutomaticTransferSwitch BAs;楼宇自动化系统BuildingAutomationSystem) BGP:边界网关协议(BorderGatewayProtocol CMDB:配置管理数据库(ConfigurationManagementDataBase CPU:中央处理器((Central Unit DDC;显示数据通道(Dsplay 2 hannel DDoS:分布式拒绝服务(DistributedDenialofService) E(OP:应急作业规程mergency peratingProcedure EEUE;电能使用效率(ElectricEnergyUsageEffectiveness) HBA:主机总线适配器(HostBusAdapter) laas;基础设施即服务(InfrastruetureasaService) 1/O输人/输出(Input/Output) 1oPs;每秒进行读写(I/O)操作的次数(Input/OutputOperationsPerSecond oT:物联网(InternetofThings P;互联网协议(InternetProtoeol PS:人侵检测防御(IntrusionPreventionSystem) IT;信息技术(InformationTechnology KP:关键绩效指标KeyPerformancelndicator) MOP;维护作业规程(MaintenanceOperatingProcedure) OLA;运营级别协议(OperationalL.evelAgreementb) OSPF:开放最短路径优先路由协议(Open shortestPathFirs) PaaS;平台即服务(PlatformasaService) Qos;服务质量(Quality ofSerwices Disks RAID;磁盘阵列(Re sdundantArraysoflnexpensive RPO.恢复点目标Recovery PointObjective) RTO恢复时间目标(Recovery TimeObjeetive) SaaS软件即服务(SoftwareasaServiee' AreaNetwork sAN;存储区域网络(Storage ionProcedures) SCP:机房配置规程(SiteConfigurat
GB/T28827.4一2019 SLA;服务级别协议(ServieeLevelA Agreement berviceLevelIndicator) SLI服务级别指标Se SLO;服务级别目标ServieeLevelObjective SLR;服务级别要求Service LevedlRequiremen Procedure sOP:标准作业规程(Sta tandardOperating sQL;结构化查询语言( StructuredQueryLanguage Protocol STP:生成树协议 Spanning UC:支撑合同(Underpit nningContract UPS;不间断电源(Uninter btedPowerSupply terrupte VLAN:虚拟局域网(VirtualL.ocalAreaNetwork VPN;虚拟专用网(VirtualPrivateNetwork VRRP;虚拟路由冗余协议(VirtualRouterRedundaneyProtocol WAF;wEB应用防火墙WebApplieationFirewal 数据中心运行维护对象和内容 4.1概述 数据中心作为机房基础设施、物理资源、虚拟资源,平台资源、应用和数据的集合体,与组织业务、第 三方服务、监管要求、终端及loT设备相互关联,通过相关业务要求、监管要求、服务交互、服务支撑的 互动,最终实现服务价值 数据中心业务关系全景图如图1所示 组织业务 数据中心运行维护对象 Dc. Dc2 DCN 终端及loT 图1数据中心业务关系全景图 为满足企业业务系统的集中管理,数据中心建设运行应以满足组织业务为目标,遵守国家相关法律 法规,接受相关行业管理部门的指导与监督,实现与第三方服务的互动,通过与终端及loT设备的互 联,支撑业务系统的应用 组织根据业务需求、运营效率、管理水平,风险防范等要求,建设一个或多个、同城或异地的数据中 心,或者租用第三方的数据中心服务
GB;/T28827.4一2019 4.2数据中心运行维护对象 4.2.1概述 数据中心运行维护对象包括机房基础设施、物理资源,虚拟资源、平台资源、应用和数据;同时,组织 应根据六类对象的应用模式和服务模式,构建并开展云服务和业务系统服务的运行维护 数据中心运 行维护对象如图2所示 运行维护交付内容 调研评估 例行操作 响应支持 优化改养 运行维护对象 数据 应用 平台资源操作系统、数据库、中间件 业 虚拟资源网络资源、计算资源、存储资源 服 务 务 物理资议网络、服务器、存储 务 务 出 机房基础设施电气系统、通风空调系统、消防系统、智能化系统 图2数据中心运行维护对象 4.2.2资源分层视角 按照数据中心运行维护的资源分层视角,运行维护对象分为六个层次,包括: 机房基础设施: a 1)电气系统;包括高低压供配电系统、电源系统、照明系统、电缆及母线槽、防雷与接地等, 22) 通风空调系统;包括空调水系统,空调风系统、机房空调系统等; 消防系统:包括消防供配电设施、火灾自动报警系统、应急照明与疏散指示系统、应急广播 3 系统、消防供水设施及消火栓系统、自动灭火系统、防烟排烟系统、防火分隔设施、建筑灭 火器、空气(氧气)呼吸器等 4 智能化系缆;环境和设备监控系统、安全防范系统、综合布缆系统等 b 物理资源 网络;包括局域网广域网、互联网,网络线路(包括专线、拨号网络、VPN),路由器、交换 机、防火墙、人侵检测,负载均衡,语音以及通信传输设备等; 22 服务器:包含ARM服务器、x86服务器、小型机和大型机等; 33 存储:包括磁盘阵列、磁带库、光盘库等
GB/T28827.4一2019 虚拟资源: 网络资源;如虚拟网络设备、虚拟链路,虚拟机网络等; 1 2 计算资源;如虚拟机、虚拟机宿主机等; 33 存储资源;:如虚拟存储卷、存储控制器、存储链路等 d 平台资源:支撑应用系统运行的环境,如操作系统、数据库、中间件等 应用 1 指实现业务功能的各种软件,如财务软件、人力资源管理软件、办公自动化软件等 22 数据中心应用于自身管理的工具软件,如监控软件、流程管理软件、安全分析软件等 f 数据 1 业务数据:业务系统采集,分析并存储的各种信息载体等; 运维数据;数据中心运行维护过程中,产生的各类运维信息,运行状态日志,故障处理文档 22 等信息; 33 安全数据:在业务运行和运维过程中与安全相关的数据 4.2.3服务分类视角 按照数据中心运行维护的服务分类视角,数据中心的服务分为托管服务、laaS服务、Paas服务 SaaS服务和业务系统服务五大类,各类服务对应的维护对象包括 托管服务运行维护对象包括;机房基础设施以及物理资源 a) b) IaaS服务运行维护对象包括机房基础设施、物理资源、虚拟资源和平台资源的相关组件 e PaaS服务运行维护对象包括;机房基础设施、物理资源、虚拟资源,平台资源和应用的相关 组件 SaaS服务运行维护对象包括机房基础设施、物理资源、虚拟资源、平台资源,应用和相关数据 d 资源 业务系统服务运行维护对象包括;向用户提供端到端的全面服务,涉及以上所列的各个 层次 4.3数据中心运行维护内容 数据中心运行维护内容是指针对运行维护对象的调研评估、例行操作、响应支持和优化改善 按 GB/T28827.2一2012的规定,数据中心运行维护交付内容包括 a)调研评估;对运行维护对象的运行状况进行分析和评估,并提出方案建议 b) 例行操作 监控;对运行维护对象的动态指标、静态指标,运行状况和发展趋势等进行记录、分析和 1 告警 2 预防性检查;对监控记录、运行条件和运行状况进行检查和趋势分析,发现其脆弱性,以消 除或改进; 3 常规作业;对运行维护对象进行的日常维护,包括定期维护,配置备份、数据备份,数据恢 复、定期重启等活动 响应支持 事件驱动响应;由于外部事件、系统事件或安全事件,导致运行维护对象整体或部分性能 下降,功能丧失,而触发的将运行维护对象恢复到正常状态的活动 服务请求响应;由于需方提出各类服务请求,引发的需要针对运行维护对象,服务级别做 出调整或修改的响应型服务,可能涉及服务级别、服务范围、技术资源、服务提供方式等的 变更
GB;/T28827.4一2019 33 应急响应;依据GB/T28827.3一2012规定的应急响应服务,执行数据中心EOP d) 优化改善 适应性改进:为保持运行维护对象在新环境中可持续运行而实施的优化改进 1 22) 增强性改进;采取改进措施,增强数据中心的安全性、可用性和可靠性 预防性改进;检测和纠正维护对象运行过程中潜在的问题或缺陷 33 S 数据中心运行维护管理要求 5.1数据中心运行维护管理框架 数据中心运行维护管理框架包含观察,分析决定和实施四个关键环节 数据中心运维过程中,通 过观察运维对象及其相关监管/业务目标、外联系统环境,分析数据中心运维的具体要求,制定相关的决 策方案并开展具体的实施,提升运行维护服务能力 数据中心运行维护管理框架如图3所示 决定 实施 观察 分析 方法和工具 方法、流程和工具 隐式指导和控制 隐式指导和控制 监管/业务目标 数据 +反馈 +反惯 反饿 保护 决策 实施测试) 运维对象 预案 障 外联系统环境 反饿 -反饿 对运维对象施和影响 图3数据中心运行维护管理框架 数据中心运维管理的关键内容包括 观察:目标是通过监控和信息采集,从环境中收集与数据中心运维有关的信息,其中 a 4.2给出了运维对象的定义和范围; 运维对象观察至少应包括;配置、容量、性能、可用性和故障等 2 33) 内外部环境观察至少应包括:业务目标、监管目标,以及外联系统的运行情况等; 小观察的工具至少应包括;监控工具、日志管理工具、流程管理工具等 分析:;目标是通过对数据中心运行数据加以综合评估,以准确了解运维对象发生了什么问题及 b 如何解决 为了能够做出更明智的决策,应提出管理要求,并建立管理要求之间的关联关系 管理要求的关键要索至少应包括;目标管理、服务管控、故障管理、数据保护和数据中心安全管 理,其中 5.2给出了目标管理的要求; 1 22 5.3给出了服务管控的要求; 33 5.4给出了故障管理的要求; 4 5.5给出了数据保护的要求;
GB/T28827.4一2019 5 5.6给出了数据中心安全管理的要求 决定:目标是制定相应的行动措施 根据观察和分析阶段掌握的信息,考虑实施的效率和风险 管理能力,定义和选择最适合的解决方案 决策可能对运维对象的影响会反馈到运维对象,进 行预案评估 实施目标是执行决定,并检验结果 当观察到实施的结果后,将信息反馈到运维对象并开始 d 新一轮的“观察,分析、决定和实施”循环 实施的关键要素至少应包括:人员、工具,文档和交 付内容的标准化和优化,其中 数据中心运行维护服务人员建议参见附录A 1 2)数据中心运行维护服务工具建议参见附录B; 数据中心运行维护服务文档示例参见附录C; 3 数据中心运行维护交付内容建议参见附录D. ! 5.2目标管理 5.2.1概述 数据中心运行维护的目标是明确组织业务和运维服务的相关性,为供需双方运维目标一致性的达 成提供支撑,包括但不限于业务关系可视化、分析运维服务需求,管理服务期望,确定运维服务目标、监 控服务质量,以及服务的评估.改善和终止 5.2.2业务关系可视化 明确组织业务和数据中心运维服务的对应关系,实现显性化的展现形式,至少应 a 在组织战略的指导下,对业务流程进行管理,确定各项业务流程的业务目标 b 从业务视角出发,结合组织架构、业务流程和应用功能,进行组织业务与IT服务的关联性 分析; 通过配置管理或相关监控工具,获取和展示业务与信息系统的关系 c d 定义组织业务与运维服务的关系形成服务目录,并以服务目录作为业务与IT服务的连接点, 有效地协调双方需求 5.2.3分析运维服务需求 明确组织业务对运维服务的需求和绩效指标,至少应 分析需方组织业务对IT服务的依赖程度; a b) 分析需方对各项IT服务的需求,形成服务级别需求; 将服务级别需求分拆到技术架构中的各运维对象,形成不同运维对象的运维需求; c 在服务目录的指导下提出服务级别要求(SLR)和关键绩效指标(KPI). d 定义服务目录中的服务内容和服务要求 5.2.4管理服务期望 评估服务级别需求的合理性,控制供需双方所期望的服务级别协议(SLA),至少应 a 综合评价供方服务能力,如IT服务的可用性、连续性,容量等,形成IT服务能力基线 b 评估某个IT服务停止时有无替代手段来维持业务的运行 分析供方现有服务能力水平,识别与需方IT服务需求间的差距 c d 将需方对IT服务的期望值和供方的服务能力进行权衡 协商供需双方对服务级别的理解,以确定最终或阶段性的服务级别需求
GB;/T28827.4一2019 5.2.5确定运维服务目标 分析供方现有服务能力水平,识别差距,形成确实可行的数据中心运维服务目标,至少应 在服务目录的指导下,形成服务级别协议,用于评价供方IT服务质量; aa 5 考虑IT服务所需成本与SLA之间的平衡,SLA的内容包括服务的容量、可用性以及业务维 系所需要的服务级别 识别组织内/外部的其他IT服务资源,确定分包或外包需求,形成运营级别协议(OLA)或支 撑合同(UC); 提供多种方案,让需方能够在权衡各项服务的重要性和成本的基础上做出选择,OLA的内容 d 则包括服务台的支持时间以及IT服务紧急停止时向业务部门通报的时间等 5.2.6监控服务质量 建立服务质量水平的监控机制,监控数据中心运维服务质量水平,至少应 定期监控运维服务过程中sLA所规定服务级别目标的达成状况; a b 建立服务评审机制,对SLA目标的达成状况等进行定量考核,对业务部门的满意度等指标进 行定性考核; 通过有效的手段对运维服务质量进行分析和展现 5.2.7服务的评估、改善和终止 定期评估服务的质量,根据业务需求的变化及时调整、改善服务能力或终止服务,至少应 建立服务评审机制,对SLA目标的达成状况等进行定量考核,对业务部门的满意度等指标进 行定性考核; 根据IT服务评估报告,分析未达成服务目标的原因,制定服务扩展与改善计划 b 制定和协商服务终止方案,就各方职责、中止时间、中止后的替代手段等达成共识 c d 制定服务下线计划,修订、发布服务目录,制定系统报废计划,协调相关部门按约定完成人员、 信息技术资源的调配 5.3服务管控 5.3.1概述 为保证数据中心服务管控,数据中心在运行维护过程中,应建立服务管控的机制和相关管理制度 包括系统可用性管理,容量管理、配置管理,变更和发布管理、知识管理和供应商管理等,提升运行维护 服务能力,满足sLA规定交付服务内容,并对运行维护服务结果、服务交付过程以及相关管理体系进行 监督、,测量和分析,并实施改进 系统可用性管理 5.3.2 为保证数据中心的可用性,数据中心在运行维护时,至少应 建立系统可用性的监管机制,对运维对象的运行状态进行监控和管理 a b 配备适合的管理工具,监视运维对象的可用性指标,并分析其与业务需求的匹配程度; 监控可用性指标,根据需求的变化评估系统配置、容量和供应商能力等,以降低业务运行风险, 提高运维效率; d 建立完善的EOP和应急响应管理机制,制定系统冗余和备份机制 持续改进运维服务能力,满足SLA的相关要求
GB/T28827.4一2019 5.3.3系统容量管理 为满足业务需求和SLA要求,应对系统容量进行管理,至少应 建立标准化的系统容量管理和资源分配机制,以快速响应业务的需求或及时回收资源 a b) 监控IT服务过程中SLA的达成状况,分析满足业务需求的程度,并根据系统容量变化进行适 时调整 保障系统容量与业务需求的适配,防止因容量不足造成的IT服务中断 c d 定期对系统容量需求进行评估,保证系统容量能满足当前及未来的业务需求 5.3.4配置信息管理 对软硬件资产信息和合同信息等组成要素进行统一管理,实现对配置信息的有效管理,建立数据中 心承载的业务与运行维护对象间的逻辑关系,至少应: 明确信息系统的管理目标和管理对象,以及关联关系,包括但不限于硬件和软件、,设计书、操 a 作手册等文档、SLA等合同文件,以及运维过程文档等; b 建立完善的CMDB,以及对应的管理流程机制; c 采用必要的技术手段和工具对配置信息收集、管理; d 持续完善IT服务的配置信息,并定期进行更新 5.3.5系统的变更与发布 通过高效、安全可控的方式,对系统的变更和发布进行管理,以降低业务的安全风险,至少应 评估系统变更的目的、内容、以及相关的影响,确保变更合规和可控 a b) 记录变更过程中各类操作活动,形成系统变更和发布日志 c 定期对变更过程的记录和日志进行归档,满足IT审计的相关要求 5.3.6知识管理 建立知识管理体系,制定技术操作手册或实施方案,采取必要的风险规避措施和回退手段,包括但 不限于制定设备及系统的sCP,MOP,SOP,至少应: a)制定与IT服务目录对应的技术操作手册; b) 明确各系统和基础技术领域的知识管理重点,并定期对技术和知识进行归纳总结 建立所有活动及运行维护对象状态的运行维护档案,形成服务文档 c 5.3.7供应商管理 建立供应商管理体系,对候选供应商进行调查,确认供应商提供的SLA能力,至少应 设立供应商协调管理机制和机构,明确供应商的筛选、能力认证和合作策略,实现供方自身的 a 服务能力和外部服务能力一体化的管理; 建立供应商的能力评估机制,对供应商的擅长领域、人员、能力、产品、客户满意度等进行评估 b 如涉及多地区/渠道销售的供应商需对其定点服务提供能力进行调查,如涉及供应商子公司则 需对其子公司负责领域进行调查 建立供应商的信息共享机制,包括但不限于共享窗口,流程,渠道和沟通机制 对提供云计算服务的供应商,应对其运营服务能力进行评估,保证与sLA要求一致 d 10
GB;/T28827.4一2019 5.4故障管理 5.4.1概述 为实现数据中心运行维护过程中的故障管理,应建立故障管理的机制,包括但不限于故障分类与分 级、故障分析与应对、故障事后评估和故障预防,以降低系统故障对业务的影响 5.4.2故障分类分级和定级 根据业务对恢复时间的需求、系统故障的影响范围及持续时间等因素,建立故障的分类分级方法, 定义故障类别和响应机制,至少应 建立故障分类分级方法,形成相关的分类分级制度和响应措施 a b)评估不同类别故障对业务的影响范围,确定故障级别,并上报相关部门备案 5.4.3故障分析与应对 建立故障分析的流程和机制,配备适当的故障管理分析工具,实现对故障的快速应对,至少应 构建系统故障知识库,分析不同故障之间的关联性,以应对不同场景和规模下的系统故障; a b 制定不同系统故障的应对方案,减低系统故障造成的影响 5.4.4故障事后评估 建立故障处理后的评估机制,评估故障处理的过程和效果,持续改进和优化故障知识库、故障分析 和应对流程,至少应 建立故障事后的评估机制和流程,对故障应对措施进行跟踪,确保故障应对措施的有效性; a 分析并明确系统故障处置流程中的问题,定期总结分析不同故障现象、原因、影响范围,处理过 b 程、解决方案和预防措施,持续优化故障分析和应对措施; 持续改进和优化故障管理知识库,制定针对不同类别故障的专项措施和解决方案 5.4.5故障预防 识别频繁出现的系统故障和重大故障,制定有效的规避和预防措施,至少应: 开展故障应对的组织保障机制,包括但不限于制度、流程、技术、人员意识等 aa b 借助技术手段和工具,分析频繁出现的故障和重大故障,建立故障预防性机制和措施 形成常见故障响应流程,开展必要的故障应对演练,支撑故障的快速处理 c d 评估故障的应对能力,制定预防性的对策以防止故障的发生 5.5数据保护 5.5.1概述 构建数据的分级分类机制,建立数据应用、管理、备份和恢复的安全保护管理机制和策略,对数据完 整性、保密性、隐私性、可信性等进行保护 5.5.2数据管理 构建数据管理体系,建立数据管理机制流程和策略,提升数据管理能力,至少应 明确数据管理的角色和职责,明确数据管理相关的职责权利,满足数据治理层面的要求 a b 定期评估数据管理组织机制、数据管理能力,为数据管理体系提供资源保障 建立数据分类分级机制,构建数据管理的流程和规范,必要时提供平台、工具、系统的支撑; 11
GB/T28827.4一2019 d 制定符合等保、监管、审计方面的监督机制,监督数据安全管理的绩效和符合性 e 制定符合自身管理需求的数据管理目标、方针和策略,并予以及时更新 5.5.3数据应用安全管控 建立数据应用安全管控措施,对数据应用的安全进行保护,至少应: 遵循等保、监管、审计方面的安全要求保障数据应用过程中安全 a 构建面向数据全生命周期的应用视图,识别不同应用场景下的数据安全和风险 b) 建立对数据访问的安全策略,通过相应的技术手段或机制,防止对未授权的重要数据、敏感数 据的访问和传输; 建立有效的管控机制和方法,保障数据应用和服务的安全可控、合规、隐私保护 d 5.5.4数据备份与恢复 制定数据备份与恢复的机制、策略,规范、流程和应急保障措施,对数据存储的安全进行保护,至 少应 建立符合数据分级分类要求的数据备份与恢复机制、策略,满足不同级别数据的存储安全保护 a 要求 b 制定数据备份、恢复规范和操作流程,保障不同数据存储过程的保密性、完整性、可用性和可追 溯性; 定期开展数据安全应急演练,保障备份与恢复机制和策略的有效性 5.6安全管理 5.6.1概述 数据中心在运行维护过程中,应满足法律法规、行业监管、标准规范的要求,确保信息资产的保密 性、可用性和完整性等,包括但不限于安全管理制度、安全管理岗位、安全状态监控、安全事件处理、应急 预案和演练、安全检查和优化 5.6.2安全管理制度 建立符合等保、监管,审计相关要求的安全管理制度,对信息资产,运维人员,事件活动进行管理,至 少应: 制定符合相应安全级别要求的安全管理制度,构建满足安全运维的组织机制、岗位角色、人员 a 职责和权限; 建立安全运维管理流程,明确安全运维操作规范和工作流程,支撑安全管理活动的实施; b 建立安全管理制度体系,包括安全策略、管理制度、操作规程、记录表单等 5.6.3安全管理岗位 建立符合安全管理制度的安全管理岗位,对数据中心安全管理的工作进行指导和管理,至少应 设立安全管理的岗位角色,定义岗位职责,配备相应数量的人员 根据安全管理岗位的职责, a 明确授权权限,建立相关授权审批程序和审批制度; b 加强安全管理人员之间、组织内部机构之间以及与外部的专家、组织、外联单位的合作与沟通, 定期进行安全的审核和检查,定期开展安全运维人员的安全技能培训和考核 指定专职专人负责安全管理专职岗位的人员录用、外部访问人员的权限管理,离岗人员权限应 及时终止或清除 12
GB;/T28827.4一2019 5.6.4安全状态监控 梳理影响系统安全性的关键要素,建立数据中心运维对象的安全指标体系并进行监控,至少应 明确安全状态监控的对象,构建对应的指标体系,通过必要的技术手段和工具,收集安全信息、 a 识别威胁和人侵行为; b)分析信息资产的安全监控数据,定期形成安全分析报告,包括但不限于状态分析、影响分析,趋 势分析等 5.6.5安全事件处理 制定安全事件处理流程的管理规范和制度,保障数据中心业务系统安全稳定地运行,至少应 分析和总结频繁发生的安全事件和重大安全事件,明确安全事件等级、影响程度以及响应优先 级,制定安全事件报告程序; b 制定安全事件应急预案响应机制处置流程和处置方案,满足不同级别的安全事件的要求 定期总结安全事件,总结安全事件处置经验和方法,形成安全事件处置报告 5.6.6应急预案和演练 制定有效的应急预案,并定期开展演练,至少应 分析安全事件的影响程度和范围,制定有效的应急预案 a b)定期开展应急预案的演练,保证应急预案的有效性 5.6.7 安全检查和优化 定期开展安全检查,以满足等保、监管、审计要求,并持续改进和优化,至少应 制定安全检查的计划和方案,明确安全检查的范围、对象和方法等; aa b)定期开展安全检查的实施,对检查活动进行记录,分析潜在的风险和威胁; 持续改进安全管理机制,优化安全管理的制度、处理流程、应急预案和实施方案 c 13
GB/T28827.4一2019 R 二 " 要 - 其 汉 嫩 要 最 心 E 迎 岂 T × 四 许 肾 聋 n 畔 乌 园 的 刻 艺 唰 盘 长 陈 掀 出 王 胎 证 昏 图 吴 购 你 买 每 当 临 e 橱 营 次 如 评 海 的 歌 雪 誉 迎<如 d 出 歌 野 到 哥 嘉 业 E " 二 欢 冷 曾 E 是 % 发 最 14
GB;/T28827.4一2019 海 海 E 尝 裳 篮 安 怅 饭 系 温 意 欢 客 吃 式 口 的 g 六 治 鸡 海 麻 设 再 如 当 + 芒 当 羔 识 森 s 品 奥 曾 曾 # 欢 迎口 每 S 奚 飘 凳 聪 营 头 尝 友 生 苦 异 s 15
GB/T28827.4一2019 录 附 B 资料性附录) 数据中心运行维护工具建议 数据中心运行维护工具建议见表B.1 表B.1数据中心运行维护工具建议表 工具建议 工具等级 目标 基础资源 应用 数据 业务 数据中心运行维护起始级工具应 监控类 起始级 关注基础资源的性能监测等; 管理类 关注基础资源的资产管理、配置管理等 数据中心运行维护发展级工具应 监控类 监控类 关注基础资源的性能、资源统一管理等; 发展级 关注应用运行状态,性能,可用率等 管理类 管理类 关注IT服务管理,应用配置管理等 监控类 监控类 监控类 数据中心运行维护稳健级工具应 关注数据中心资源的容量、可用性、可靠性RPo、管理类 管理类 管理类 稳健级 RTo),安全合规,关联分析等 控制类 关注基础资源的自动化管理等 分析类 分析类 分析类 数据中心运行维护优秀级工具应 监控类 监控类 监控类 监控类 关注业务资源灵活、端到端的、用户体验、连续性、快 速恢复能力等; 管理类 管理类 管理类 管理类 优秀级 关注IT服务的服务级别目标(SLO)、服务级别协议 (sL.A),服务级别指标(sLD等; 控制类 控制类 关注业务持续交付能力等; 分析类 分析类 关注业务可用性、性能、容量,和指标数据统计分析等分析类 数据中心运行维护卓越级工具应 监控类 监控类 监控类 监控类 关注数据中心运营服务能力、绩效、成本、风险、业务 管理类 管理类 管理类 管理类 卓越级 价值等; 控制类 控制类 控制类 控制类 关注业务目标和智能化的服务运营等; b 分析类 分析类 分析类 分析类 关注IT运营的服务运营水平(OLA)等 注:运行维护工具的等级对应数据中心服务能力成熟度的五个级别,较高的级别涵盖了低级别的全部目标 16
GB;/T28827.4一2019 录 附 C 资料性附录 数据中心运行维护服务文档示例 C.1概述 运行维护服务实施中,供方应按要求提交服务文档 服务文档通常分为例行报告、事件报告、故障 总结报告、发布检查列表和应急预案等 C.2例行报告 例行报告内容至少包括: 报告名称,报告周期 aa b 需方,供方相关信息 c 服务综述 d)运行维护对象(机房基础设施、物理资源、虚拟资源、平台资源、应用、数据): l)服务内容; 服务完成情况及下一步工作计划 2 33 服务工作量; sLA目标相关绩效表现(响应时间、平均故障修复时间、事件量问题数、变更实胞、故阵 4 时间次数、影响业务的时间次数等) sLA达成及未达成情况.安全违规及考核实能悄况 5 运行维护对象情况分析,隐患及相关的纠正和预防措施(或建议) 6 77 重大事件(故障)的分析(对需方业务的影响和成本分析、纠正和预防措施及落实跟踪情 况,相关变更和发布的绩效; 趋势分析和预警(响应事件量、问题数、故障时间/次数、影响业务的时间/次数): 8 基于sLA指标的控制要求,针对收集的数据(如;响应事件量、,问题数、故障时间/次数、影 9 响业务的时间/次数等)采用适当的统计分析技术(如统计过程控制图蒙特卡洛模拟等). 进行数据建模与分析,作为预测和控制的基础 改进/提升建议 10 c.3事件报告 事件报告内容至少包括 报告名称; aa 需方、供方相关信息; b 关键字; c d 事件状态; 事件描述; ee fD 事件的影响程度、范围; 事件级别; g 17
GB/T28827.4一2019 h 事件关闭条件 i 事件列表及已完成事项; 事件处理组织架构; j k 事件发生时间/地点; 事件受理时间 恢复时间; m n 事件处理结束时间; 事件处理过程时间轴; o p 事件处理情况/工作量; 事件发生频度; g 事件原因分析及建议; 后续改进计划 S 故障总结报告 故障总结报告内容至少包括 a) 报告名称; 需方、供方相关信息; b 目前状态; c 故障摘要描述; d 故障原因; e 触发条件; f) 解决方案概述 h) 监测 待办事项; 经验教训 j k) 故障处理过程时间轴 C.5发布检查列表 发布检查列表内容至少包括 发布对象; a 整体架构 b) 任务清单; c 流量、容量及性能需求预测; d 运行环境需求服务器、网络、安全等); e 风险评估及应对措施 f 过程监控和管理措施; 8 h 外部依赖条件; 发布计划 18
GB;/T28827.4一2019 C.6应急预案 应急预案内容至少包括: 应急预案对象; a b 职责分工,资源准备; c 预警和响应机制 d 应急处理流程; e 保障措施; fD 预案评审优化 19
GB/T28827.4一2019 附 录 D 资料性附录) 数据中心运行维护交付内容 机房基础设施 D.1.1运行维护对象 数据中心的机房基础设施运行维护对象应至少包括 电气系统;高低压供配电系统、电源系统、照明系统、电缆及母线槽、防雷与接地等; a b) 通风空调系统:空调水系统、空调风系统、机房空调系统等 c 消防系统;消防供配电设施、火灾自动报警系统、应急照明与疏散指示系统、应急广播系统、消 防供水设施及消火栓系统、自动灭火系统、防烟排烟系统、防火分隔设施、建筑灭火器、空气(氧 气)呼吸器等; d 智能化系统:环境和设备监控系统、安全防范系统、综合布缆等 D.1.2调研评估 根据数据中心运行维护需求,对机房基础设施的运行现状进行调查分析,建立各系统的SCP及 MOP,SOP等规范性文档 D.1.3例行操作 D.1.3.1概述 数据中心的机房基础设施的例行操作内容应包括监控、预防性检查和常规作业 D.1.3.2监控 在数据中心运行维护过程中,对机房基础设施进行监控时,应根据具体的运行维护对象,确定监控 内容和指标 根据数据中心的机房基础设施配置情况,各类机房基础设施监控的内容应至少包括表D1中的规定 注,由于数据中心的规模和应用类型不同,表D1不规定各类机房基础设施的监控指标和采集周期 表D.1机房基础设施监控内容 运行维护对象 监控内容 开关状态,电压,电流、频率、功率因数、有功功率、无功功率,故障信息以及相关保 高低压配电柜 护装置的工作状态、控制电压等 高/低压侧电压、电流、频率、功率因数、有功功率、无功功率,负载比例、电压谐波 变压器 总畸变率,电流谐波总畸变率、绕组温度、风扇开关状态 频率,功率因数、各相电压,电流将负载比例、发动机转速、机油/燃油压力、冷却液 发电机 电气系统 温度,油箱液位等 开关状态、电压、电流、频率、功率因数、有功功率、无功功率、负载比例、电池组电 UPS 压,电流、后备时间 电压,电流、内阻、温度 电池 开关状态,电压,电流、频率,功率因数、有功功率,无功功率,负载比例 直流电源 20
GB;/T28827.4一2019 表D.1(续》 运行维护对象 监控内容 运行/停止、故障/正常、手动/自动状态;冷冻水/冷却水供回水温度;负载率;燕发 制冷机组、冷却塔 器/冷凝器压力;报警 空调水系统 各类泵阀的运行状态、手动/自动状态;变频器频率,进出口压差 新风温湿度;送风温湿度 通风空调系统字调风系缆 直膨式机房空调回风温度/湿度;风量;压缩机、加湿器、风机、空调开/关机状态;报警 水冷机房空调 l回风温度/湿度;供/回水温度;风量;加湿器、风机、空调开/关机状态;报瞥 加、除湿设备 开/关机状态;室内湿度;报警 消防报警系统 手动/自动状态、告警信息 消防系统 各类系阀的运行状态、手动/自动状态;消防水箱液位、系统压力 消防水系统 环境和设备监控 智能化系统 系统、安全防范系统运行状态、网络通信、存储空间、告警信息 系统 D.1.3.3预防性检查 在数据中心运行维护过程中,对机房基础设施进行预防性检查时,应根据具体的运行维护对象,确 定性能检查内容和脆弱性检查内容 根据数据中心的机房基础设施配置情况,各类机房基础设施预防性检查的内容应至少包括表D,2 中的规定 注,由于数据中心的规模和应用类型不同,表D2不规定各类机房基础设施的预防性检查的指标和检查周期 表D.2机房基础设施预防性检查内容 运行维护对象 性能检查内容 脆弱性检查内容 接地电阻、零序电流、器件发热情 配电柜 况、保护装置状态、计量仪表显导线、器件发热情况,防浪涌器件情况等 示等 输人输出电压、电流、温控器绕组 变压器 负载比、电缆、母线连接发热情况,运行噪音等 温度,风扇运转情况 输出电压、电流、转速、冷却液温 发电机 负载比、油位,吸气,排烟通道,运行噪音等 度、仪表显示邻 电气系统 输人输出电压、电流、器件及导线 负载比、器件、导线连接发热情况,电池后备时间等、通 UPs 连接发热情况,通风情况(风扇、人 风情况,运行噪音等 气口、出气口、控制面板显示等 温度、导线发热情况 温度、导线连接发热情况;是否氧化;漏液检查,变形 电池 输人输出电压、电流、器件及导线 负载比、器件、导线连接发热情况,电池后备时间等、通 直流电源 连接发热情况、通风情况、控制面 风情况,运行噪音等 板显示等 21
GB/T28827.4一2019 表D.2(续 运行维护对象 性能检查内容 脆弱性检查内容 制冷机组、冷震动,运行噪音;压力、温度;控制 负载比、震动,运行噪音、漏水检查 却塔 面板信息 空调水系统 运行噪音各类仪表信息 运行噪音,压力,漏水检查 风机运行情况、风速,预处理系统 空调风系统 I过滤网检查、风压差检查 工作状态,上下水情况等 通风空 调系统直膨式机房高压压力、低压压力、风机运行情机房热点情况、冷凝漏水检查、室外风机运转情况、加湖 罐阳极棒检查,过滤网检查等 况,灰尘情况等 空调 冷冻水压力,温度,风机运行情况. 水冷机房空调 机房热点情况、室内机漏水检查、过滤网检查等 灰尘情况等 加,除湿设备控制面板信息、上下水情况等 漏水检查 消防报警系统工作状态、探头污染等 报警检查,电源状态等 水箱液位、系统压力等 消防系统消防水系统 各类泵阀工作状态、压力等 气体消防 俐瓶压力,有效期 启动瓶、管道开关、气体压力等 服务器、DDC状态、网络通信、存 lBAs系统 系统运行状态,工况选择,网值执行逻辑等 储容量等 动力环境监控服务器、网络通信、存储容量等 系统运行状态、阔值、联动告警逻辑、EEUE、负载比等 智能化 画面清晰度(不同照度情况下),录 视频监控系统 监控系统运行状态,监控死角问题等 系统 像硬盘磁带)容量、云台运行等 服务器、控制器,读卡器、门磁等工l门禁系统与消防系统和视频监控系统的联动检查(如果 门禁系统 作状态,记录存储容量等 有此功能),异常情况报警检查 综合布缆系统光纤,铜缆链路测试,性能测试等线缆识别标签的完整性,准确性 D.1.3.4常规作业 机房基础设施的常规作业包括基础类操作、,测试类操作和数据类操作 基础类操作:参照设备设施的相关手册和SCP,制定相应的SOP,MOP,并按sOP,MOP规定 a 的程序执行设备的日常运行、维护和保养等作业; b) 测试类操作;按相应的sOP,MOP对机房基础设施各系统功能、性能进行测试作业; c 数据类操作:按相应的sOP,MOP对机房基础设施运行日志、记录等数据进行备份清除,更 新等操作 在数据中心运行维护过程中,对机房基础设施进行常规作业时,应根据具体的运行维护对象,确定 操作内容和周期 根据数据中心机房基础设施配置情况,各类机房基础设施常规作业的内容应至少包括表D.3中 规定 注;由于数据中心的规模和应用类型不同,表D.3不规定各类机房基础设施的常规作业的周期 22
GB;/T28827.4一2019 表D.3机房基础设施常规作业内容 运行维护对象 数据类操作 基础类操作 测试类操作 配电柜 除尘,合闸,分闸等 互投测试等 运行记录备份 空载测试、带载测试、切换运行日志备份,报警记录备 更换三滤、清洁等 发电机 演练等 份、清除等 电气系统 旁路测试、电池放电测试、 运行日志备份,报警记录备 UPS 旁路、清洁等 周期性主/备切换、应急演 份、清除等 练等 周期性主/备切换、应急演运行日志备份,报警记录备 制冷机组、冷却塔启停机、主备切换 练等 份、清除等 空调风系统 启停机,清洗更换滤网等消防联动测试 运行记录备份(如果有 启停机、清洗更换滤网、清 通风空调 洗更换加湿系统、清洁冷凝漏水报警测试、周期性主运行日志备份,报警记录备 系统 直膨式机房空调 器,补充冷媒更换故障元器备切换,应急演练等 份、清除等 件等 启停机、清洗更换滤网、更漏水报警测试、,周期性主运行日志备份,报警记录备 水冷机房空调 换故障元器件等 备切换、应急演练等 份,清除等 探头清洗、更换故障元器 消防报警系统 联动测试、告警测试等 报警记录备份、清除 件等 消防系统 消防水系统 更换故障设备等 消防系启动测试 气体消防 更换失效钢瓶 启动测试 运行工况调整、完善DDC 运行数据导出,备份,运行日 控制逻辑及系统联动逻辑、控制测试,联动测试,告警 BAS系统 志备份,报警记录备份、清 传感仪表检定、更换故障元测试等 除等 器件等 传感仪表检定、阔值调整 运行数据导出、备份,运行日 漏水测试、温湿度测试、告 EEUE公式调整、更换故障 志备份,报警记录备份、清 动力环境监控 警测试等 元器件等 除等 智能化 器件灵敏度、画面清晰度出人记录导出,备份,监控图 系统 视频监控系统 视频监控头清洁,云台保养不同照度情况下),云台运像记录备份,清除,报警记录 行等 备份、清除等 门禁系统与消防系统和视 频监控系统的联动检查测运行日志备份,报警记录备 门禁系统 门禁授权等 试如果有此功能),掉电l份、清除等 测试 综合布缆系统 线路整理、跳接等 链路测试、性能测试 布线系统拓扑图数据更新 D.1.4响应支持 D.1.4.1概述 在数据中心运行维护过程中,对机房基础设施进行响应支持时,应根据不同的运行维护对象和系统 运行要求,确定事件驱动响应和服务请求响应的具体服务内容 23
GB/T28827.4一2019 D.1.4.2事件驱动响应 针对设备的软、硬件故障引起的业务中断或运行效率无法满足正常运行要求,而进行的响应服务 包括但不限于 电气系统 a 配电系统包括故障排查、投人备用电源回路,关闭非重要回路等 1 ? 发电机系统包括故障排查、启动发电机、油料补充、冷却液更换、电瓶更换等; 33 UPS系统包括故障排查,旁路系统、关闭非重要输出等; ! 直流电源系统包括故障排查、整流模块维修更换等; 5 防雷接地系统包括浪涌保护器复原,更换,接地电阻降阻等 b 通风空调系统;故障排查、关闭部分设备以维持数据中心温湿度指标,关闭新风系统等 消防系统;故障排查、系统启动,报警联动、疏散警示等 d 智能化系统 BAs系统包括故障排查,检测组件(设备).Dc.执行器更换等,软硬件升级等 动力环境监控系统包括故障排查,检测组件(设备)等更换等,软硬件升级等; 22 视频监控系统包括故障排查,摄像机或硬盘更换、检查告警、数据恢复等; 33 门禁系统包括故障排查、手动开启或关闭门禁系统、检查告警或监控记录等; 4 综合布缆系统;更换线缆、模块等 5 D.1.4.3服务请求响应 根据应用系统运行需要或需方的请求,而进行的响应服务,包括但不限于 电气系统 a 1) 配电系统包括增减回路、增减供电类型(如直流、110V),分支回路相位调整等; 发电机为指定负载供电等 2 UPs系统包括旁路操作,为指定负载供电等; 3 防雷接地系统包括新设备接地等 通风空调系统;调整温度、湿度参数等,调整新风量等 b 消防系统:增减设备、更新联动逻辑、检查及提供告警及监控记录、备份或清除记录等 c 机房监控与安全防范系统: d BAS系统包括数据中心扩容或改造时增减或调整相应的传感器、,DDC执行器等,更新点 表,调整阅值设定等;在季节转换时变更工况设置等; 2 动力环境监控系统包括增减或调整检测组件(设备)、数据中心扩容或改造时屏蔽告警,连 接新的被监控设备、更新系统EEUE计算公式等; 3 视频监控系统包括调整摄像机位置,增加摄像机,增加录像机容量等; 门禁系统包括增加、删减、变更门禁权限等; 4 5)综合布缆系统;链路跳接,跳线更换,布线扩容等 D.1.5优化改善 D.1.5.1概述 在数据中心运行维护过程中,对机房基础设施进行优化改善时,应根据数据中心容量的变化情况以 及不同的运行维护对象和系统运行要求,确定适应性改进、增强性改进和预防性改进的具体服务内容 24
GB;/T28827.4一2019 D.1.5.2适应性改进 根据数据中心容量的变化情况以及业务系统及其软硬件环境的运行要求,对机房基础设施进行必 要的调整,包括但不限于 电气系统:配电系统根据数据中心容量情况包括更换开关、导线以适配负载容量等,发电机包 括调整启动方式等,调整防雷接地系统等 b 通风空调系统:调整机组主备运行模式,适应数据中心容量变化;调整温湿度参数等、调整机组 位置、增减新风风量等 智能化系统: 调整BAS系统的控制逻辑,适应数据中心的工况、容量变化 22 调整环境和设备监控系统、视频监控系统和门禁系统,以数据中心容量,防护等级等的 变化; 调整综合布缆系统以适应应用系统的变化 D.1.5.3增强性改进 根据数据中心容量的变化情况以及业务系统及其软硬件环境的运行状况,对机房基础设施进行调 整.扩容或升级,包括但不限于 电气系统 a 1电力系统增容; 配电系统包括增加回路,增加ATs设备等 UPS系统包括增加主机数量、增加电池数量等; 3 防雷接地系统包括增加冗余引下线、接地装置,降低接地电阻阻值等 ! 通风空调系统;增减空调机组、改善气流组织[如增减气流增强装置、封闭冷(热)通道等],增加 b 新风机组,预处理装置等 消防系统;包括增加检测组件(设备)和喷头数量,更换高性能控制主机 智能化系统 d 环境和设备监控系统;增加检测组件(设备)密度、提高检测组件(设备)精度或更换功能更 完善的检测组件(设备)等,升级环境和设备监控软硬件等; 视频监控和门禁系统包括增加报警联动、增加终端数量、增加存储容量等; 22 综合布缆系统;线路扩容、提升布线系统级别等 33 使用物联网等技术对数据中心中的各类设备进行全生命周期的管理,包括但不限于设备 4 状态、位置、异动信息等 D.1.5.4预防性改进 根据业务系统及其软硬件环境的运行趋势,对机房基础设施的脆弱点实施改进作业,包括但不 限于 电气系统;配电系统包括更换开关、更换导线、调整回路等;发电机包括更换电瓶,更换或添加 aa 适应环境温度的防冻液和油料等;防雷接地系统包括焊接点加固、防腐处理等 b 通风空调系统;调整机组位置,调整出回风方式等 消防系统:消防系统包括消防系统预防性改进(按照当地消防管理部门管理要求) c d 智能化系统 1 BAS系统与工单系统的联动; 22 环境和设备监控系统与运维管理系统联动 25
GB/T28827.4一2019 安防系统的视频监控和门禁系统与消防系统联动,安防系统的门禁系统与工单系统、人员 3 定位系统联动等; 4 综合布缆系统弱电线缆与强电线缆的物理隔离,线缆整理,鼠患排查等 D.2物理资源 D.2.1运行维护对象 运行维护对象包括: a 网络:包括局域网、广域网、互联网、网络线路包括专线、拨号网络、VPN)路由器,交换机、防 火墙、人侵检测负载均衡,语音以及通信传输设备等 b)服务器:包含ARM服务器、x86服务器、小型机和大型机等; c 存储,包括磁盘阵列,磁带库,光盘库等 D.2.2调研评估 通过对物理资源的运行现状进行分析,根据需方运行维护的需求,提出服务方案 D.2.3例行操作 D.2.3.1监控 在数据中心运行维护过程中,对物理资源进行监控时,应根据具体的运行维护对象,确定监控内容 和指标 根据数帮中心的物理猴源配置情况.各类物理资源监控的内容应至少包插表D4中的规定 注由于数据中心的规模和应用类型不同,表D4不规定各类物理资源的监控指标和采集周期 表D.4物理资源监控内容 运行维护对象 监控内容 网络设备的健康状况、整体运行状态、各项硬件资源开销状况 链路健康状况如端到端时延变化.链路端口工作稳定性,链路负载情况,部署路由策略情况下 端到端选路变化、路由条目变化 管理权限用户的行为市计 网络 设备软件配置变动审计 设备日志审计 端口流量速率,丢包错包以及广播风暴等情况 管理权限用户的行为审计 安全事件审计 服务器整体运行情况 服务器电源工作情况 服务器CPU工作情况 服务器 服务器内存工作情况 服务器硬盘工作情况 服务器接口工作情况 26
GB;/T28827.4一2019 表D.4(续》 运行维护对象 监控内容 存储设备控制器工作情况 存储设备电源工作情况 存储设备数据存储介质工作情况 存储 存储设备接口工作情况 存储设备数据存储介质空间使用情况 存储设备读写迷率情况 存储设备读写命中率情况 D.2.3.2预防性检查 在数据中心运行维护过程中,对物理资源进行预防性检查时,应根据具体的运行维护对象,确定性 能检查内容和脆弱性检查内容 根据数据中心的物理资源配置情况各类物理资源预防性检查的内容应至少包括表D.5中的规定 注,由于数据中心的规模和应用类型不同,表D5不规定各类物理资源的预防性检查的指标和检查周期 表D.5物理资源预防性检查内容 运行维护对象 性能检查内容 脆弱性检查内容 设备机身,板卡或模块的工作情况 CPU使用峰值情况 内存使用峰值情况 系统版本是否需要升级或修复 FLASH(非易失内存)存储空间 设备链路的冗余度要求 板卡,风扇,温度等运行情况 安全事件周期性整理分析 主要端口的利用率 设备生命周期评估 网络 链路的健康状态,包括P包传输时延、IP包丢失 备件可用性周期性检查 率,IP包误差率,无效IP包(包括攻击性P包、欺 业务带宽是否满足业务高峰需求 骗性IP包、垃圾IP包等 网络边界防护控制评估 主要端口的状态,例如sTP,VRRP等协议 路由协议状态,例如0SPF/BGP等协议 检查其他的关健指标项,例如各类关键表项,会话 连接数等 服务器的资源分配情况和策略 服务器资源使用是否超过预定阀值 CPU使用峰值情况 服务器关键部件是杏满足运行冗余度要求 内存使用蜂值情况 服务器关键部件的微码版本是否需要升级 文件系统空间使用情况 服务器 服务器硬盘是否RAID保护 I/O读写情况 系统微码、操作系统版本一致性检查 网络流量情况等 硬件型号、系统版本兼容性检查 与存储的链路运行状态 接口链路状态是否有异常情况 硬件日志情况 27
GB/T28827.4一2019 表D.5(续 运行维护对象 性能检查内容 脆弱性检查内容 存储关键硬件部件是否满足运行冗余度要求 1/0读写速迷率情况 当前微码版本是否需要升级 读,写级存分配比例情况 存储配置备份机制是否完善 数据读、写命中率情况 存储管理软件是否需要升级或打补丁 存储 存储硬盘空间使用情况 存储空间使用比例是否达到预定告瞥阀值 存储系统日志情况 存储设备的离线记录检查 磁带读取和写人速率情况 存储介质的坏块记录检查 磁带池使用情况 系统微码版本一致性检查 D.2.3.3常规作业 在数据中心运行维护过程中,对物理资源进行常规作业时,应根据具体的运行维护对象,确定操作 内容和周期 根据数据中心的物理资源配置情况,各类物理资源常规作业的内容应至少包括表D.6中的规定 注:由于数据中心的规模和应用类型不同,表D.6不规定各类物理资源的常规作业的周期 表D.6物理资源常规作业内容 运行维护对象 常规作业内容 设备操作系统软件备份及存档 系统微码升级 设备软件配置备份及存档 监控系统日志备份及存档 监控系统日志数据分析与报告生成 网络配置变更文件的审核 网络 网络配置变更的操作 网络配置变更的记录 安全设备特征库升级 安全审计类分析报告 周期性关键设备主备切换/应急演练 系统微码升级 配置文件备份 过期日志和文件系统空间清理 服务器 服务器硬盘RAD配置检查(如有RAID控制器》 更换控制器电池(如有RAID控制器 系统重启 系统微码升级 更换控制器电池 介质读,写正常性测试 存储 配置文件备份 过期运行日志清理 链路端口访问测试 28
GB;/T28827.4一2019 D.2.4响应支持 D.2.4.1概述 在数据中心运行维护过程中,对物理资源进行响应支持时,应根据不同的运行维护对象和系统运行 要求,确定事件驱动响应和服务请求响应的具体服务内容 D.2.4.2事件驱动响应 针对物理资源的故障引起的业务中断或运行效率无法满足正常运行要求,而进行的响应服务,包括 但不限于 网络事件驱动响应 a 1)故障定位 停止、启动进程; 中断,连通网络连接; 3 关闭、启动端口; 4 网络备件更换; 5 6 更改、恢复配置 b服务器事件驱动响应 服务器重启 更换故障部件,包括主板、电源、CPU、内存、,硬盘等; 2 33 服务器关键部件微码升级; 4)服务器硬盘RAID配置修复 存储事件驱动响应 l存储重启; 配置文件恢复; 2 3 更换故障部件,包括电源,硬盘等; 微码升级 4 存储管理软件补丁安装; 5 6 数据修复 D.2.4.3服务请求响应 根据应用系统运行需要或需方的请求,而进行的响应服务,包括但不限于 网络服务请求响应 aa 增加、降低网络接人的数量或速度 1 2) 更改网络设备配置; 启动,关闭端口或服务 更换,更新或升级设备硬件或软件 4 b)服务器服务请求响应: l)服务器设备搬迁; 22 服务器设备停机演练; 3 服务器设备清洁维护等; 4) 服务器硬件扩容; 5 集群环境搭建和切换演练 29
GB/T28827.4一2019 存储服务请求响应 存储设备搬迁; 22 存储设备停机演练; 3 存储设备清洁维护 存储硬盘空间扩容; 4 存储结构调整 5 新增主机分配存储空间; 6 主机端多路径软件的安装配置 7 D.2.5优化改善 D.2.5.1概述 在数据中心运行维护过程中,对物理资源进行优化改善时,应根据不同的运行维护对象和系统运行 要求,确定适应性改进、增强性改进和预防性改进的具体服务内容 D.2.5.2适应性改进 根据业务系统及其软硬件环境的运行要求,对物理资源进行必要的调整,包括但不限于 网络适应性改进 a 1 路由策略调整; 2 设备或链路负载调整; 33 网络安全加固; 4 网络敏感数据加密; 5 监控对象覆盖范围调整; 6 局部交换优化; 77 局部冗余优化 b 服务器适应性改进 服务器硬盘RAID配置调整 1 2 服务器网络、光纤链路冗余调整; 3 服务器电源供电接人冗余调整 存储适应性改进 1 存储设备读写高速缓存(Cache)比例调整 2 存储设备RAI保护级别调整; 存储设备新增硬盘,包括新增磁盘扩展柜; 3 存储设备逻辑盘的容量调整; 存储设备分配主机的调整; 5 6 磁带池的配置调整; 光纤交换机存储网络区域(ZONE)规划调整 D.2.5.3增强性改进 根据业务系统及其软硬件环境的运行状况,对物理资源进行调整、扩容或升级包括但不限于 网络增强性改进: a 硬件容量变化,如网络设备硬件、软件升级、带宽升级等; 22 整体网络架构变动; 30
GB;/T28827.4一2019 33 安全设备特征库升级; 4 网络架构容量变化,如网络子系统的增减等; 5 系统功能变化,如新增功能区、新增安全系统、新增审计系统等 6 路由协议应用及部署调整; 77 整体安全策略收紧; 8 交换优化; 9 冗余优化 b)服务器增强性改进 )为本服务器从存储系统上分配更大空间; 22 服务器CPU个数增加; 33 服务器内存容量增加; 4 服务器磁盘空间扩容; 5 服务器网卡和HBA接口卡增加等 存储增强性改进 存储设备控制器、硬盘等部件的微码升级" 1 22 存储设备新增硬盘扩容,包括新增磁盘扩展柜; 存储设备高速缓存(Cache)容量增加 33 磁带池的容量调整,包括新增磁带; 4 磁带驱动器的新增; 5 存储设备光纤模块的升级; 6 光纤交换机的光纤模块升级, 77 光纤交换机的端口激活扩容,包括新增光模块; 8 9 存储设备管理软件的版本升级 D.2.5.4预防性改进 根据业务系统及其软硬件环境的运行趋势,对物理资源的脆弱点实施改进作业,包括但不限于 网络预防性改进 a 配置参数优化.例如关闭不必要的服务、打开缺省的增强功能、加快三层网络路由收敛速 度,加快二层网络生成树收敛速度等 网络安全优化,例如添加防火墙,IPS,wAF,DDoS等安全设备; 22 提高软件配置命令可读性 3 b)服务器预防性改进 检查服务器硬盘RAID配置,及时修复或更换故障硬盘 2 增加服务器网卡,光纤卡以及链路冗余情况 增加服务器电源供电模块冗余 3 存储预防性改进 收集磁盘空间的使用情况,及时清理垃圾数据或增加存储设备容量; 1 查看存储控制器电池的使用情况,及时更换新的电池 2 3 检查存储设备的电源是否老化,及时更换新的电源; 查看磁带驱动器的使用情况,及时清洗磁头; 4 5 查看存储设备的读写性能,适时调整存储控制器的高速缓存(Cache)容量 31
GB/T28827.4一2019 D.3虚拟资源 D.3.1运行维护对象 运行维护对象至少应包括 a 网络资源;如虚拟网卡,虚拟网络设备、虚拟链路、虚拟机网络等; b)计算资源:如虚拟机、虚拟机宿主机等; c 存储资源如虚拟存储卷,服务控制器、存储链路等 D.3.2调研评估 通过对虚拟资源的运行现状进行分析,根据需方运行维护的需求,提出服务方案 D.3.3例行操作 D.3.3.1监控 在数据中心运行维护过程中,对虚拟资源进行监控时,应根据具体的对象,确定监控内容和指标 根据数据中心的虚拟资源配置情况,各类虚拟资源监控的内容应至少包括表D.7中的规定 注由于数据中心的规模和应用类型不同,表D.7不规定各类虚拟资源的监控指标和采集周期 表D.7虚拟资源监控内容 运行维护对象 监控内容 虚拟网络资源分配状况 虚拟网络资源的健康状态 虚拟网络资源的链路状况,如端到端时延变化、链路端口工作稳定性、链路负载 网络资源 虚拟网络资源配置变动 虚拟网络资源操作日志 虚拟网络资源安全事件 虚拟网络控制器性能的监控 虚拟计算资鄙分配状况 虚拟计算资源群集容量状况、性能状况 虚拟机宿主机及虚拟机CPU负荷 虚拟机宿主机及虚拟机磁盘!/o负荷 虚拟机宿主机及虚拟机内存负荷 计算资源 虚拟机宿主机及虚拟机网络1/o负荷 虚拟机宿主机及虚拟机网络链路状态 主机及虚拟机管理代理进程 虚拟机宿 虚拟机宿主机及虚拟机计算资源分配 虚拟机宿主机及虚拟机系统日志异常 引发性能问题的虚拟机快照管理(如捕获,克隆》 32
GB;/T28827.4一2019 表D.7(续》 运行维护对象 监控内容 虚拟机宿主机使用存储的相关属性状态监控如多路径状态监控 自动化事件监控(发生自动迁移,虚拟机重启等自动化事件) 虚拟存储资源分配策略与空间使用状况 瘦供给模式下容量监控 服务控制器CPU负载情况 服务控制器内存消耗情况 服务控制器整体数据吞吐带宽,IoPs,响应时间和请求队列时间 器后端数据吞吐带宽、,IOPS,响应时间和请求队列时间 存储资鄙 储卷访问吞吐率,.IoPs,响应时间和请求队列时间 仲裁控制点磁盘、光纤链路、服务器等)健康性 服务控制 器前后端1/0链路 服务控制器后端分布式物理存储健康性 服务控制器各服务网络端口监听情况 服务控制器服务进程的运行状态 服务控制器日志 D.3.3.2预防性检查 在数据中心运行维护过程中,对虚拟资源进行预防性检查时,应根据具体的运行维护对象,确定性 能检查内容和脆弱性检查内容 根据数据中心的虚拟资源配置情况,各类虚拟资源预防性检查的内容应至少包括表D.8中的规定 注:由于数据中心的规模和应用类型不同,表D.8不规定各类物理资源的预防性检查的指标和检查周期 表D.8虚拟资源预防性检查内容 运行维护对象 性能检查内容 脆弱性检查内容 虚拟网络的资源分配情况 虚拟网络资源及控制器健康状态 虚拟网络资源CPU使用峰值情况 虚拟网络资源内存使用峰值情况 虚拟网络资源的链路冗余度要求 虚拟网络资源端口运行情况 虚拟网络资源使用度和调度情况评估 虚拟网络资源链路的健康状况,包括P包传 虚拟网络资源可用性周期性检查 网络资鄙 输延时、IP包丢失率、IP包误差率、无效IP包 虚拟网络资源安全事件周期性整理分析 包括攻击性IP包、欺骗性IP包、垃圾IP包 |虚拟网络资源及控制器是否存在软件bug问题 虚拟网络业务带宽是否满足业务高峰需求 虚拟网络资源存储空间 虚拟网络资源板卡风扇温度情况 虚拟网络路由协议状态,例如osPF邻居等 虚拟网络控制器网络资源调度情况 33
GB/T28827.4一2019 表D.8(续 运行维护对象 性能检查内容 脆弱性检查内容 虚拟计算资源的资源分配情况 |物理服务器关键硬件部件是否存在故障 计算资源的资源分配情况与分配策略 计算资源分配是否超过预定阀值 虚拟机宿主机及虚拟机CPU使用峰值情况当前虚拟机宿主机版本是否安装相关风险补丁 虚拟机宿主机及虚拟机内存使用峰值情况 虚拟机宿主机服务进程的健康状态 计算资源 虚拟机宿主机及虚拟机文件系统空间使用虚拟机宿主机文件空间使用是否达到预定阀值 情况 虚拟机宿主机系统数据安全防护设置是否满足 虚拟机宿主机及虚拟机I/O读写情况 要求 虚拟机宿主机及虚拟机网络流量情况等 虚拟计算资源安全隔离有效性 存储资源分配策略与空间使用率 服务控制器冗余度 服务控制器的数据吞吐带宽.IoPs,响应时间服务仲裁控制点健康性 存储资源 服务控制器微码版本 和请求排队时间 虚拟存储卷访问吞吐率、IOPS,响应时间和请存储资源分配策略避免过度分配 求队列时间 控制器存储虚拟化软件版本一致性 各服务控制器高速缓存(Cache)利用率,作为虚拟存储资源授权的全局性和统一性 后端存储优化依据 数据副本数 虚拟存储卷后端存储的性能匹配 数据保存的出错率 存储资源 服务控制器日志 数据传输的出错率 用户请求的错误率 数据副本的一致性 所有服务所接受的请求错误率 统计数据恢复的时间 D.3.3.3 常规作业 在数据中心运行维护过程中,对虚拟资源进行常规作业时,应根据具体的运行维护对象,确定操作 内容和周期 根据数据中心的虚拟资源配置情况,各类虚拟资源常规作业的内容应至少包括表D.9中的规定 注由于数据中心的规模和应用类型不同,表D9不规定各类虚拟资源的常规作业的周期 表D.9虚拟资源常规作业内容 运行维护对象 常规作业内容 虚拟网络资源的分配与回收 虚拟网络资源配置备份及存档 监控虚拟网络资源日志备份及分析 虚拟网络资源日志数据分析与报告生成 网络资源 虚拟网络资源配置变更文件的审核 虚拟网络资源配置变更的操作 虚拟网络资源配置变更的记录 虚拟网络控制器配置日常变更备份等 34
GB;/T28827.4一2019 表D.9(续 运行维护对象 常规作业内容 虚拟计算资鄙的分配与回收 虚拟计算资源扩容与配置更改 虚拟机模板的创建、保存,部署、维护 虚拟机映像的设计,创建、保存,部署、维护,销毁 虚拟化软件升级及许可管理 计算资源 虚拟机迁移与脚本维护 虚拟机备份,克隆与恢复 虚拟机创建及启动、停止、删除,回收、转换 虚拟计算资源日志文件备份和分析 虚拟计算资源的访问控制与权限管理 可靠性计划制定与演习 虚拟存储资源的分配与回收 sAN拓扑,端口存储网络区域(Z0ONE)配置维护 服务控制器配置备份和恢复 虚拟存储资源映像配置 存储资源容量配置 制定和实施异构存储资源数据快照,镜像和容灾计划 存储资谢内数据在线迁移 存储资源 数据分层管理 数据副本数管理 资源使用情况统计 用户使用情况统计 服务控制器微码升级 存储虚拟化软件版本升级 日志文件分析和备份 D.3.4响应支持 D.3.4.1 概述 在数据中心运行维护过程中,对虚拟资源进行响应支持时,应根据不同的运行维护对象和系统运行 要求,确定事件驱动响应和服务请求响应的具体服务内容 D.3.4.2事件驱动响应 针对虚拟资源及所依赖的硬件故障引起的业务中断或运行效率无法满足正常运行要求,而进行的 响应服务,包括但不限于 故障定位; a b 虚拟资源重新调配、紧急迁移、紧急扩容 解决虚拟资源所依赖的物理资源故障和缺陷,包括;服务器、网络及网络设备、虚拟网络控制 器、存储、仲裁控制点磁盘、光纤链路、服务器等)等; 35
GB/T28827.4一2019 虚拟资源紧急操作,如更换、中断、连通网络连接,关闭、启动端口,更改、恢复配置,停止及启动 d 进程,重启等 D.3.4.3服务请求响应 根据应用系统运行需要或需方的请求,而进行的响应服务,包括但不限于: 虚拟机、配置信息、数据的备份与恢复; a b 虚拟机创建、迁移,回收、变更 虚拟资源的容灾、高可用配置、计划实施与演练; 虚拟网络控制器配置变更下发 d 数据统一备份 数据访问性能优化 数据在线迁移与分级存储 g h 新增主机分配存储空间; 现有主机存储空间调整; 主机端多路径软件的安装配置; k 虚拟资源的扩容、调配、变更 增加、降低虚拟网络资源网络接人数量或速率; 更改虚拟网络资源配置; m n 启动、关闭端口或服务; 更换、更新或升级虚拟网络资源硬件或软件 o D.3.5优化改善 D.3.5.1概述 在数据中心运行维护过程中,对虚拟资源进行优化改善时,应根据不同的运行维护对象和系统运行 要求,确定适应性改进、增强性改进和预防性改进的具体服务内容 D.3.5.2适应性改进 根据业务系统及其软硬件环境的运行要求,对虚拟资源进行必要的调整,包括但不限于: 虚拟网络设备或链路负载调整 a b 虚拟网络安全策略调整; 虚拟网络监控对象覆盖范围调整 c 虚拟网络路由策略调整; d 虚拟网络交换及冗余优化: 虚拟网络资源调配; 虚拟网络控制器配置优化调整; g 虚拟机计算资源CPU、内存容量、硬盘容量、网络的调整 h 虚拟机计算资源迁移; 虚拟化计算资源调度的算法; 虚拟存储服务控制器前后端网络(SAN或IP)端口吞吐速率的调整 k 根据数据生命周期,进行存储资源分层调整; 数据存储平衡算法调整; m 虚拟存储卷保留份数调整; n 36
GB;/T28827.4一2019 虚拟存储卷镜像复制级别调整 D.3.5.3增强性改进 根据业务系统及其软硬件环境的运行状况,对虚拟资源进行调整、扩容或升级,包括但不限于 a 虚拟网络资源调整,如CPU、内存、端口的调配、扩容回收 b 虚拟网络资源网络架构变动 虚拟网络架构容量变化,如网络子系统的增减等; d 虚拟网络系统功能变化,如新增安全系统、新增审计系统等; 虚拟网络路由协议应用及部署调整; 虚拟网络整体安全策略收紧; 虚拟网络资源冗余优化 g 虚拟网络控制器软件版本升级 h 虚拟计算资源宿主机服务器和虚拟机计算能力扩容 虚拟计算资源宿主机服务器和虚拟机内存扩容; i k 虚拟计算资源宿主机服务器和虚拟机网络吞吐能力扩容 虚拟计算资源高可用性增强与演练; 虚拟计算资源容错机制增强与演练; m n 虚拟计算资源备份恢复测试; 虚拟存储服务控制器节点数量增加 o 虚拟存储服务控制器内存容量增加 P 虚拟存储服务控制器CPU性能增强; q 虚拟存储服务控制器前后端网络(sAN或IP)端口增加 虚拟存储服务控制器后端分布式物理存储的高速缓存(Caehe),容量等增加 虚拟存储服务控制器微码升级 u 安全设备特征库升级; 存储虚拟化软件升级 D.3.5.4预防性改进 根据业务系统及其软硬件环境的运行趋势,对虚拟资源的脆弱点实施改进作业,包括但不限于 虚拟网络配置参数优化,例如虚拟网络资源的VLAN,QosACL,带宽等; a b 虚拟网络部署路由策略情况下端到端选路变化、端口流量变化、路由条目变化 根据系统监控得到的信息替换可能存在问题的内存,CPU,硬盘,网络设备等 根据系统的压力增长趋势主动对物理服务器的数量进行必要的扩容 d 根据系统的发展趋势对网络系统采取必要的扩容; 收集存储资源空间的使用情况,及时清理垃圾数据或增加存储资源的容量; 监控服务控制器的负载情况,必要时增加硬件数量,或提高硬件规格; g 监控服务控制器的硬件出错率,替换存在问题的硬件; h 监控服务控制器后端分布式物理存储的硬件出错率,替换存在问题的硬件; 监控仲裁控制点磁盘、光纤链路、服务器等)的运行情况 j 服务控制器微码升级; k 网络安全优化,例如:添加防火墙、IPS,wAF,DDos等安全设备 存储虚拟化软件升级 m 37
GB/T28827.4一2019 D.4平台资源 D.4.1运行维护对象 运行维护对象包括操作系统、数据库、中间件 D.4.2调研评估 通过对平台资源的运行现状进行分析,根据需方运行维护的需求,提出服务方案 D.4.3例行操作 D.4.3.1监控 在数据中心运行维护过程中,对平台资源进行监控时,应根据具体的运行维护对象,确定监控内容 和指标 根据数据中心的平台资源配置情况,各类平台资源监控的内容应至少包括表D.10中的规定 注由于数据中心的规模和应用类型不同,表D.10不规定各类平台资源的监控指标和采集周期 表D.10平台资源监控内容 运行维护对象 监控内容 操作系统cPU使用情况 操作系统内存使用情况 操作系统磁盘使用情况 操作系统 操作系统网络接口状态和流量 操作系统光纤接口状态和流量 操作系统重要文件系统空间使用情况 操作系统日志情况 数据库主要进程运行情况 数据库连接是否正常 数据库表空间使用情况 数据库 数据库日志是否有异常 数据库会话数 数据库日常备份是否正常等 中间件运行状态 主要进程运行状态 中间件 应用服务运行情况 中间件通信网络连接情况 中间件日志是否有报错信息 D.,4.3.2预防性检查 在数据中心运行维护过程中,对平台资源进行预防性检查时,应根据具体的运行维护对象,确定性 能检查内容和脆弱性检查内容 38
GB;/T28827.4一2019 根据数据中心的平台资源配置情况,各类平台资源预防性检查的内容应至少包括表D.11中的 规定 注:由于数据中心的规模和应用类型不同,表D.l1不规定各类平台资源的预防性检查的指标和检查周期 表D.11平台资源预防性检查内容 运行维护对象 性能检查内容 脆弱性检查内容 操作系统CPU使用峰值情况 操作系统是香安装相关风险补丁 操作系统内存使用峰值情况 是否需要升级系统微码 操作系统硬盘使用情况 是否关闭不必要的服务进程或监听端口 操作系统 操作系统重要文件系统空间使用情况 关健机密系统数据安全防护设置是否满足要求 磁盘1/o读写情况 系统使用资源是否超过预定阀值 网络1/0读写情况等 操作系统版本一致性检t 数据库的顶级(ToP)sQL情况(如果数据库数据库是否安装相关风险补丁 数据库 表空间的使用是否达到了预定阀值 支持 数据库CPU使用情况 数据库关键文件是否做了镜像 数据库内存使用情况 数据库表空间使用情况 数据库备份策略是否合理 数据库锁情况 数据库是否存在异常用户(如果数据库支持) 数据库 数据库会话数和操作系统进程数情况 数据库版本一致性检查 数据库缓冲区(BUFER)等命中率情况 操作系统配置是否符合数据库运行的要求 数据库等待事件情况(如果数据库支持 中间件是否满足运行冗余度要求 中间件是否安装相关风险补丁 中间件的数据库连接密码配置文件是否存在 中间件服务器业务CPU使用峰值情况 明文 中间件 中间件服务器业务内存使用峰值情况 相关重要运行程序是否有保留备份 中间件服务器业务会话连接数情况 操作系统配置是否符合中间件运行的要求 系统使用资源是否超过预定阀值等 中间件版本一致性检查 D.4.3.3常规作业 在数据中心运行维护过程中,对平台资源进行常规作业时,应根据具体的运行维护对象,确定操作 内容和周期 根据数据中心的平台资源配置情况,各类平台资源常规作业的内容应至少包括表D.12中的规定 注由于数据中心的规模和应用类型不同,表D.12不规定各类平台资源的常规作业的周期 39
GB/T28827.4一2019 表D.12平台资源常规作业内容 运行维护对象 常规作业内容 操作系统版本升级和补丁安装 操作系统磁盘读、写正常性测试 操作系统输人,输出设备读写测试光驱、内置磁带机 操作系统配置文件备份 操作系统备份 操作系统 操作系统过期运行日志清理 网络通信正常性测试 操作系统临时文件清理 操作系统端口访问测试 周期性关键设备主备切换/应急演练 监听连接正常性测试 数据库正常登录测试 sQL执行正常性测试 表空间正常访问测试 数据库 表读写正常性测试 客户端连接测试 数据库备份 过期归档日志清除 备份配置文件 备份重要运行日志 中间件 清除过期目志 交易连接正常性测试 D,4.4响应支持 D.4.4.1概述 在数据中心运行维护过程中,对平台资源进行响应支持时,应根据不同的运行维护对象和系统运行 要求,确定事件驱动响应和服务请求响应的具体服务内容 D.4.4.2事件驱动响应 针对设备的软、硬件故障、误操作等引起的业务中断或运行效率无法满足正常运行要求,而进行的 响应服务 包括但不限于 操作系统事件驱动响应 a 1) 操作系统崩溃 2 操作系统CPU,内存等资源耗尽; 操作系统服务进程无效 3 操作系统文件系统空间不够; 44 操作系统接口无法通讯 5 6 操作系统无法识别外置存储空间 40
GB;/T28827.4一2019 b 数据库事件驱动响应: 数据库宕机、锁死; 数据文件坏块修复; 2 3 数据库重启; 数据库监听端口冲突; 4) 数据库备份恢复 5 数据库解锁 6 中间件事件响应驱动 服务进程假死; 应用服务掉线或重启; 配置文件恢复; 3 守护服务调整 4 D.4.4.3服务请求响应 根据应用系统运行需要或需方的请求,而进行的响应服务 包括但不限于 操作系统服务请求响应: 操作系统版本升级; 1) 操作系统死机修复; 2 3 操作系统文件系统损坏修复; ! 操作系统文件系统空间扩容; 5 操作系统IP地址修改; 操作系统参数调整; 6 7? 操作系统日志清理 数据库服务请求响应: b 数据库版本升级 1 22) 数据库灾难恢复; 数据清理和维护 3 中间件服务请求响应: 中间件新增应用服务; 1 中间件参数调整, 22 中间件软件版本升级 3 D.4.5优化改善 D.4.5.1概述 在数据中心运行维护过程中,对平台资源进行优化改善时,应根据不同的运行维护对象和系统运行 要求,确定适应性改进、增强性改进和预防性改进的具体服务内容 D,4.5.2适应性改进 根据业务系统及其软硬件环境的运行要求,对平台资源进行必要的调整,包括但不限于 操作系统适应性改进: a 操作系统交换区容量调整; 22 操作系统内核参数调整; 1
GB/T28827.4一2019 33 操作系统文件系统使用空间调整划分 b 数据库适应性改进: 1 数据库索引调整; 2 数据库执行sQL计划调整; 33 数据表参数调整; ! 数据库对象的调整; 5 主机操作系统内核参数调整; 6 数据库参数调整; 临时表空间用户表空间调整; 8 数据库物理部署的调整(迁移至新服务器或者数据库存储阵列调整); 9 调整数据库备份策略 中间件适应性改进 1 中间件参数配置优化; 22 数据库连接参数调整; 连接池参数调整, 33 4 相关操作系统参数调整 D.4.5.3增强性改进 根据业务系统及其软硬件环境的运行状况,对平台资源进行调整、扩容或升级,包括但不限于 操作系统增强性改进 a 操作系统版本升级; 1) 2 操作系统内存扩容; 操作系统磁盘空间扩容; 3 操作系统增加网卡,光纤卡数量 ! 操作系统参数调优 5 数据库增强性改进 b 1 数据库版本升级、打补丁 由于主机CPU个数、内存容量增加调整数据库相应的参数; 2 3 由于主机存储的增加调整数据库表空间容量; 数据库安全备份架构构建以提高可用性 4 数据库调优等 5 中间件增强性改进 中间件版本升级、打补丁 1 22 由于主机CPU个数、内存容量增加调整中间件相应的参数 D.4.5.4预防性改进 根据业务系统及其软硬件环境的运行趋势,对平台资源的脆弱点实施改进作业,包括但不限于 操作系统预防性改进 a 操作系统删除垃圾数据,释放数据空间 1 操作系统文件系统扩容 2 33 操作系统增加网卡,光纤卡冗余; ! 操作系统用户权限合理分配 5 操作系统进程服务端口调整 42
GB;/T28827.4一2019 b 数据库预防性改进 增加数据库表空间、数据文件空间使用范围 22 对数据库存在的无效对象处理; 33 数据库用户的权限合理分配或收回 中间件预防性改进 l)删除临时文件,释放数据空间; 22 监控主要参数以及时调优 33 应用备份策略调整; ! 定期备份 D.5应用 D.5.1运行维护对象 运行维护对象是应用,包括业务软件和管理软件等 D.5.2调研评估 通过对应用和相关资鄙的运行现状逃行分析根据需方运行推护的需求;.提出服务方案 D.5.3例行操作 D.5.3.1监控 在数据中心运行维护过醒中,对应用及相关资源进行监控时,应根据具体的运行维护对象,确定监 控内容和指标 要保障数据中心应用的正常运行,需要平台资源的配置和满足应用要求,同时需对应用系统本身的 资源和业务进行监控,监控内容包括不限于 平台资源监控;操作系统CPU、内存、磁盘、网络带宽、端口、1I/O、文件系统等,数据库库表空 a 间,连接数,文件数、用户数,中间件等,参见D.4平台资源 应用层资源监控;参见表D.13; b 应用层业务监控;通过日志和日志监控分析对应用层业务运行情况进行监控 c 注由于数据中心的规模和应用类型不同,表D.13不规定各类应用的监控指标和采集周期 表D.13应用监控内容 运行维护对象 监控内容 应用的请求和反馈响应时间 资源消耗情况 进程、线程状态 服务或端口响应情况 会话内容情况 应用 日志和告瞥信息 数据库连接情况 存储连接情况 作业执行情况 消息队列、共享内存 43
GB/T28827.4一2019 D.5.3.2预防性检查 在数据中心运行维护过程中,对应用进行预防性检查时,应根据具体的运行维护对象,确定性能检 查内容和脆弱性检查内容 根据数据中心的应用配置情况,各类应用预防性检查的内容应至少包括表D.l4中的规定 注;由于数据中心的规模和应用类型不同,表D.14不规定各类应用的预防性检查的指标和检查周期 表D.14应用预防性检查内容 运行维护对象 预防性检查内容 应用的请求和反馈响应情况 关键进程及资源消耗检查、分析 主机操作系统的漏洞扫描、补丁检查;数据库中间件等系统软件的补丁检查 系统病毒定期查杀 应用 应用软件的口令安全情况 应用软件的日志审计,分析 批处理作业的日志审计、分析 应用系统支撑环境的备份和恢复检查 D.5.3.3常规作业 在数据中心运行维护过程中,对应用进行常规作业时,应根据具体的运行维护对象,确定操作内容 和周期 根据数据中心的应用配置情况,各类应用常规作业的内容应至少包括表D.15中的规定 注由于数据中心的规模和应用类型不同,表D.15不规定各类应用的常规作业的周期 表D.15应用常规作业内容 运行维护对象 常规作业内容 补丁升级 版本升级 日志清理 启动或停止服务或进程 增加或删除用户账号 应用 更新系统或用户密码 建立或终止会话连接 作业提交 软件备份 应用参数配置修订 D.5.4响应支持 D.5.4.1概述 在数据中心运行维护过程中,对应用进行响应支持时,应根据不同的运行维护对象和系统运行要 44
GB;/T28827.4一2019 求,确定事件驱动响应和服务请求响应的具体服务内容 D.5.4.2事件驱动响应 针对应用故障而进行的响应服务 包括但不限于: 应用级启停; aa 5 系统级启停等 D.5.4.3服务请求响应 根据应用系统运行需要或需方的请求,进行及时响应和处理 例如: 按服务请求指示进行用户增加 aa b) 口令修改 参数调整等 c D.5.5优化改善 在数据中心运行维护过程中,对应用进行优化改善时,应根据不同的运行维护对象和系统运行要 求,确定具体服务内容 应用的优化改善服务包括但不限于 a 应用消息队列共享内存优化 b 应用鼠务能力优化,例如,应用进程数.应用线程数的优化 应用日志级别及日志空间的调整; c d 应用版本及配置的升级、打补丁; 日志代码优化升级、日志监控分析代码优化升级等 注:D.5.5中应用的优化改善服务通常指在软件运行中对软件有关性能、维护参数调整,对于应用自身功能增加、变 动等引起的优化改善活动不在范围内,参见GB/T20157 2006 D.6数据 D.6.1运行维护对象和活动 数据运行维护对象包括: 业务数据:业务系统采集、分析并存储的各种信息载体等; a b 运维数据;数据中心运行维护过程中,产生的各类运维信息、,运行状态和日志,故障处理过程等信息 安全数据:在业务和运维过程中与安全相关的数据 D.6.2调研评估 按D.1.2,D.2.2、D.3.2、,D.4.2、D.5.2给出的要求 D.6.3例行操作 D.6.3.1监控 在数据中心运行维护过程中,对数据资源进行监控时,应根据具体的运行维护对象,确定监控内容 和指标 根据数据中心的平台资源配置情况各类数据资源监控的内容应至少包括表D.16中的规定 注由于数据中心的规模和应用类型不同,表D.16不规定各类数据资源的监控指标和采集周期 45
GB/T28827.4一2019 表D.16数据监控内容 运行维护对象 监控内容 数据变化迷率 数据存储 数据对象使用频度 数据 数据有效性 数据安全 数据产生、存储,备份,分发,应用过程 D.6.3.2预防性检查 在数据中心运行维护过程中,对数据资源进行预防性检查时,应根据具体的运行维护对象,确定性 能检查内容和脆弱性检查内容 根据数据中心的平台资源配置情况,各类数据资源预防性检查的内容应至少包括表D.17中的 规定 注:由于数据中心的规模和应用类型不同,表D.17不规定各类数据资源的预防性检查的指标和检查周期 表D.17数据预防性检查内容 运行维护对象 预防性检查内容 数据完整性、一致性 数据的冗余 数据 数据存储空间 数据安全 D.6.3.3常规作业 在数据中心运行维护过程中,对数据资源进行常规作业时,应根据具体的运行维护对象,确定操作 内容和周期 根据数据中心的数据资源配置情况,各类数据资源常规作业的内容应至少包括表D.18中的规定 注由于数据中心的规模和应用类型不同,表D.18不规定各类数据资源的常规作业的周期 表D.18数据常规作业内容 运行维护对象 常规作业内容 对数据产生、存储、备份、分发,销毁等过程进行的操作 对数据安全等内容按事先规定的程序进行的例行性作业 数据提取 数据 数据验证 数据清洗 数据配置管理 46
GB;/T28827.4一2019 D.6.4响应支持 按D.1.4,D.2.4,D.3.4、D.4.4、,D.5.4给出的要求 D.6.5优化改善 按D.1.5、D.2.5、D.3.5、D.4.5、,D.5.5给出的要求 在数据中心运行维护过程中,应根据不同的业务数据特性和应用范围,对数据进行梳理、优化,并提 出改善建议,对数据的优化改善往往会涉及对应用的变更 数据的优化改善服务包括但不限于 数据存储方案; a b 数据重构方案 47
GB/T28827.4一2019 参 考文献 [1]GB/T2887一2011计算机场地通用规范 [2幻 GB/T9361一2011计算机场地安全要求 [3幻 GB/T20157一2006信息技术软件维护 [[4]GB/T24001一2016环境管理体系要求及使用指南 [5]GB/T24405.1一2009信息技术服务管理第1部分;规范 [们 GB/T28001一2011职业健康安全管理体系要求 48

信息技术服务运行维护:数据中心服务要求GB/T28827.4-2019解读

随着信息技术的飞速发展,越来越多的企业开始意识到数据安全和数据中心的重要性。随之而来的就是对数据中心运营和维护的要求越来越高。为了规范数据中心服务,保证数据中心的安全和稳定,国家发布了《信息技术服务运行维护》标准。

作为该标准的重要组成部分,GB/T28827.4-2019《信息技术服务运行维护 数据中心服务要求》明确了数据中心服务的要求和规范,包括数据中心的建设、运行、维护、监控等方面。

数据中心服务要求GB/T28827.4-2019的重要性

在企业日常的信息化建设和运营过程中,数据中心扮演着至关重要的角色。数据中心的稳定运行和安全保障,是确保企业信息化顺利运行的基础。

数据中心服务要求GB/T28827.4-2019的出台,有利于统一数据中心服务的标准和规范,提高服务质量,降低数据中心故障率,保障企业信息系统的可靠性和安全性。

数据中心服务要求GB/T28827.4-2019的应用情况

GB/T28827.4-2019标准的发布,对推动数据中心服务的规范化、标准化具有积极的促进作用。目前,越来越多的企业开始将该标准应用到自己的数据中心服务中,以提高服务质量和安全性。

同时,该标准也被广泛应用于政府机构、金融机构等重要领域,在保障信息安全方面发挥了重要作用。

结论

GB/T28827.4-2019《信息技术服务运行维护 数据中心服务要求》的出台,标志着我国数据中心服务已经进入规范化、标准化的时代。该标准的应用不仅有利于提高数据中心服务的可靠性和安全性,也为企业信息化建设和运营提供了更加有力的支撑。

未来,我们相信随着技术的不断发展和标准的完善,数据中心服务将会越来越好地服务于社会各行各业的信息化建设和运营。

信息技术服务运行维护第4部分:数据中心服务要求的相关资料

    和信息技术服务运行维护第4部分:数据中心服务要求类似的标准

    梯子第5部分:伸缩梯
    上一篇 本文分享国家标准梯子第5部分:伸缩梯的全文阅读和高清PDF的下载,梯子第5部分:伸缩梯的编号:GB/T17889.5-2019。梯子第5部分:伸缩梯共有23页,发布于2020-03-01
    信息安全技术智慧城市安全体系框架
    本文分享国家标准信息安全技术智慧城市安全体系框架的全文阅读和高清PDF的下载,信息安全技术智慧城市安全体系框架的编号:GB/T37971-2019。信息安全技术智慧城市安全体系框架共有25页,发布于2020-03-01 下一篇
    相关推荐