收藏 分销(赏)

云服务器运维之Windows篇.pdf

上传人:Stan****Shan 文档编号:1240593 上传时间:2024-04-19 格式:PDF 页数:64 大小:6.71MB
下载 相关 举报
云服务器运维之Windows篇.pdf_第1页
第1页 / 共64页
云服务器运维之Windows篇.pdf_第2页
第2页 / 共64页
云服务器运维之Windows篇.pdf_第3页
第3页 / 共64页
云服务器运维之Windows篇.pdf_第4页
第4页 / 共64页
云服务器运维之Windows篇.pdf_第5页
第5页 / 共64页
点击查看更多>>
资源描述

1、 推荐语 数字经济是未来的发展方向,智能创新是经济腾飞的翅膀。云计算在云厂商、开源社区、各行各业技术团队的共同努力下,作为数字经济的技术基础设施,伴随着 5G、人工智能、智慧城市等新技术、新业态、新平台蓬勃兴起。云上技术和业务创新恰逢其时,必将助推各行各业的业务向数字化转型。其中云服务器带来的技术和架构优势,使得企业和开发者得以高效选择、运行、维护基础设施,并充分享受数据可靠性保障、弹性扩展等云计算特性带来的技术红利。本书作为阿里云专业云服务器团队宝贵经验的总结,将 Windows 云服务器的原理、运维、迁移上云最佳实践和内核调试等集于一身,相信一定可以帮助广大技术人员在拥抱云服务器的道路上走

2、得更顺、更稳。李津 阿里巴巴集团副总裁 阿里云全球技术服务部总经理 云计算是这个时代最伟大的发明之一。在云计算之前各种 IT 设备是通过各种标准化接口来进行整合的。标准化意味着将一个武功高手变成了一个普通的士兵,而云计算的出现很好地解决了如何让每个士兵变成高手,同时可以实现规模化的难题。利用这些标准化的技术,云计算通过将各种物理设备服务化,由最“牛”的一批专家来进行设计、架构、研发,使得这些技术完成了从简单整合到深度融合的过程。用户在使用云计算的时候,和过去相比体验更好,性能更好,更加安全,成本反而更低。在云上,由于客户数量非常多,场景也非常繁杂,本书作者作为阿里云技术专家,经常会遇到一些比较

3、刁钻的问题,凭借对 Windows 服务器的原理和架构设计的了解,通过长期规模化的运维,解决了诸多技术问题。他们期望将诊断过程中所积累的经验分享给更多的技术人。蒋江伟 阿里巴巴集团副总裁 阿里云基础产品事业部总经理 推荐语 V 基于云原生+Windows 系统,构建安全、敏捷、开放的企业 IT 架构,重塑核心业务并最终帮助企业提升核心竞争力,是绝大多数企业用户上云面临的核心课题。在过去的十多年中,我们持续陪伴千行百业的云上企业用户拥抱云原生技术,积累了大量的实践经验。本书从 Windows 云服务器的技术原理、内核调优、实践三方面,结合真实案例进行了全面细致的阐述。相信从事数字化转型的架构师、

4、开发者和运维人员,都能从本书中有所收获。张卓 阿里巴巴集团研究员 阿里云全球技术服务部平台技术负责人 由于传统的企业 IT 生态惯性,企业在上云的过程中,云上 Windows 的镜像、运维、服务就变成不可或缺的一个云客户服务场景。本书的作者都是在阿里云一线耕耘多年的云计算资深技术和服务专家,将无数客户实际场景问题的解决方案和实战经验凝聚成本书。如果您想了解和学习云上 Windows 运维的专业知识,千万不要错过本书。蒋林泉 阿里云基础产品事业部神龙计算平台负责人 随着数字新基建的不断深入,信息技术基础设施已经成为企业在数字化转型浪潮中的核心竞争力。为了应对快速变化的市场,传统 IT 架构正在向

5、云计算架构转变。阿里云全球技术服务部将 Windows 云服务器的技术原理与客户侧疑难诊断案例相结合,希望帮助广大企业在落地云服务器的进程中做好充分的技术准备,最大化实现数字化转型的价值。万谊平 阿里云智能公共云专家服务负责人 前言 云计算具有低成本、数据安全高、易扩展、弹性好等优点,是一个支持在网络上存储大量数据的低成本解决方案,越来越多的客户选择迁移上云。企业客户在把线下业务迁移到云上之后,需要解决的关键问题就是如何用好云上资源,如何解决弹性的问题,如何运维云服务器,云上服务器遇到问题后该如何解决。目前在云上对 Windows 服务器的需求正在飞速增长,掌握 Windows 运维的重要性不

6、言而喻。相对于 Linux 系统,Windows 底层系统属于黑盒,故其操作和运维存在较大的难度,当前市面上也鲜有关于 Windows 运维诊断的书籍。本书从 Windows 各个模块出发,向读者介绍各模块的技术原理以及如何在实战中解决遇到的各类Windows 问题。因此本书不仅适合希望高效运维 Windows 服务器的工程师阅读,对希望了解 Windows 组件、内核原理的工程师也有非常重要的借鉴意义。关于本书 本书是阿里云上 Windows 服务器运维及实践的技术结晶,分别展开介绍了云服务器的运维、监控、问题排查、内核调试等方面,从技术原理到线上真实案例,是众多阿里云技术专家多年在云服务器

7、领域的经验与总结。本书共 11 章,分为三篇,第一篇为基础篇,主要介绍在阿里云上使用 Windows服务器的运维操作和最佳实践,包括使用云助手批量运维服务器、使用 Windows服务器自助诊断功能,以及使用 Windows 镜像及迁移上云的最佳实践。第二篇为进阶篇,主要讲述 Windows 各组件技术原理以及线上有代表性的真实案例,包括 Windows 服务器的启动、登录过程,远程桌面连接的使用和排查,激活 Windows 服务器,系统时间同步和 Windows 更新补丁的过程。前言 VII 第三篇为终极高手篇,主要介绍非常有用的调试工具和调试方法,包括用性能调试工具 WPA 分析 CPU、内

8、存等系统性能瓶颈问题,内核调试工具 WinDbg 的安装使用,以及通过内核调试工具排查服务器蓝屏、异常死机等问题。致谢 首先,感谢“阿里云数字新基建系列”丛书的编委会,感谢各位专家顾问,包括:李津、蒋江伟、张卓、蒋林泉、万谊平、张雯、王超,感谢他们在本书编写过程中给予的指导和建议;同时感谢所有在本书编写和编辑过程中给予帮助的同事,包括阿里云全球技术服务部的江冉、李一帅、杨牧原、石斌、陈伟宸、李苏民、陈阳、赵宇飞、杨雪城,阿里云产品事业部的郑旭东、李刚、王俊杰、赖奕安、尤金鑫、白辉万、胡龙胜、梁栋,感谢你们的支持,使这本书顺利完成。其次,感谢阿里巴巴技术委员会的导师们,如果没有你们的技术视野和技

9、术领导力,本书的内容不可能有这样的高度。同时感谢我的家人蒋宇聪在本书编写过程中给予的支持。最后,感谢电子工业出版社博文视点的张彦红、李玲等老师,感谢你们的审阅、建议和支持,如果没有你们在图书的编辑和出版过程中给予的帮助和支持,本书不会有这样的专业度。本书作者代表 杨洋 2021 年 11 月 目录 第一篇 基础篇 第一篇 基础篇 第 1 章 Windows 概述.2 1.1 Windows 操作系统的发展历史.2 1.2 Windows 操作系统历代版本.6 1.3 Windows 服务器在云上的应用.7 第 2 章 Windows 服务器运维与监控.8 2.1 Windows 服务器运维.8

10、 2.1.1 概述.8 2.1.2 运维架构.8 2.1.3 运维实践.10 2.2 使用云助手运维 Windows 服务器.17 2.2.1 Windows 服务器常用自动化运维技术.17 2.2.2 使用云助手运维云上实例.18 2.2.3 云助手云上运维最佳实践.23 2.3 Windows 服务器自助诊断.32 2.3.1 Windows 自助诊断的优势.32 2.3.2 Windows 自助诊断的范围.33 2.3.3 用户自助诊断.35 2.3.4 自助诊断技术架构.37 2.4 Windows 服务器监控.38 2.4.1 概述.38 目录 IX 2.4.2 监控规划.39 2.

11、4.3 监控与告警实践.41 第 3 章 Windows 最佳实践.47 3.1 自定义镜像最佳实践.47 3.1.1 创建镜像.49 3.1.2 Windows 导入镜像.50 3.2 Windows 镜像迁移上云实践.52 3.3 安全最佳实践.53 第二篇 进阶篇 第二篇 进阶篇 第 4 章 系统启动和登录.56 4.1 启动过程.56 4.1.1 启动过程总览.57 4.1.2 BIOS 初始化.57 4.1.3 MBR.57 4.1.4 OS 引导.58 4.1.5 OS 初始化.58 4.2 注册表和驱动.60 4.2.1 注册表结构.60 4.2.2 核心注册表.60 4.2.3

12、 驱动.62 4.2.4 服务.62 4.2.5 驱动和服务注册表.63 4.3 系统启动异常排查方案.64 4.3.1 查看系统引导日志.64 4.3.2 挂载 Windows PE 系统盘排查启动问题.66 云服务器运维之 Windows 篇 X 4.4 系统启动异常案例.70 4.4.1 案例 1:启动报错“No bootable device”.70 4.4.2 案例 2:启动卡在“正在准备 Windows”数小时.73 4.4.3 案例 3:启动遇到蓝屏报错.80 第 5 章 Windows 远程连接.83 5.1 Windows 远程连接基本原理.83 5.1.1 远程桌面服务.8

13、3 5.1.2 远程桌面协议.84 5.2 Windows 远程连接端口和组策略.86 5.2.1 远程连接端口.86 5.2.2 客户端远程连接 Windows 服务器.87 5.2.3 远程连接组策略.90 5.3 远程连接问题案例分析.92 5.3.1 案例 1:远程连接报错“出现了内部错误”.92 5.3.2 案例 2:远程连接遇到 36870 报错日志.97 第 6 章 系统时间和 NTP.100 6.1 时间同步原理.100 6.1.1 时间是如何工作的.101 6.1.2 系统开机时读取时间.102 6.1.3 系统运行时如何更新时间.103 6.2 NTP 服务和原理.104

14、6.3 时间异常问题排查分析.107 6.3.1 Windows 时间变快.107 6.3.2 Windows 时间跳变检查.109 第 7 章 Windows 服务器激活和 KMS.113 7.1 激活与 KMS 概述.113 目录 XI 7.1.1 激活概述.113 7.1.2 KMS 概述.114 7.2 KMS 的工作原理.116 7.2.1 KMS 激活关键步骤.116 7.2.2 KMS 激活的 TCP 通信机制.117 7.3 激活问题排障方案.117 7.3.1 服务层面.118 7.3.2 网络层面.120 7.3.3 系统层面.121 7.3.4 其他排障方法.124 7.

15、4 激活问题实战案例.125 7.4.1 激活失败,提示 70 没有权限.125 7.4.2 Windows 服务器激活报错 0 xC004F074.128 第 8 章 Windows 服务器更新.130 8.1 Windows 服务器更新原理.130 8.1.1 更新概述.130 8.1.2 WSUS 概述与更新原理.131 8.1.3 WSUS 的配置.133 8.2 更新问题排障方案.135 8.2.1 链路方面.135 8.2.2 服务方面.136 8.2.3 日志排查.137 8.3 更新问题实战案例.140 8.3.1 补丁安装报错 80070005.140 8.3.2 补丁更新失

16、败.140 8.3.3 补丁更新失败回滚.141 云服务器运维之 Windows 篇 XII 第三篇 终极高手篇 第三篇 终极高手篇 第 9 章 Windows 内存性能分析.144 9.1 Windows 内存性能介绍.144 9.1.1 物理内存.144 9.1.2 虚拟内存.145 9.1.3 内存分类.147 9.2 Windows 内存性能问题案例.148 第 10 章 Windows 性能分析工具.153 10.1 下载并安装 WPT 工具集.153 10.2 使用 WPT 进行系统卡顿诊断.154 10.2.1 使用 WPR 收集性能数据.154 10.2.2 使用 WPA 分析

17、性能数据.157 10.3 使用 WPT 定位内存泄漏.160 第 11 章 Windows dump 内核调试.163 11.1 Windows dump 的基本原理.163 11.1.1 内存转储类型.163 11.1.2 生成内存转储文件.165 11.2 云服务器 dump 介绍和使用.169 11.2.1 生成 ELF 内存转储文件.170 11.2.2 生成 DMP 格式内存转储文件.171 11.2.3 分析标准的 Windows 内核转储文件.171 11.3 Windows 调试工具.172 11.3.1 安装 WinDbg 工具.172 11.3.2 配置调试符号.173

18、11.3.3 WinDbg 常用命令.175 11.4 内存转储实例分析.180 第一篇第一篇 基 础 篇基 础 篇 第1章 Windows 概述 Windows 第一代操作系统在1985 年发布,在此之后的30 多年时间中,Windows操作系统更新迭代了很多版本。截至 2021 年 9 月,用于个人计算机(PC)的Windows 系统的最新版本是 Windows 10,用于服务器的 Windows 系统的最新版本是 Windows Server 2019。本章主要介绍 Windows 操作系统的发展历史、历代版本以及 Windows 服务器在云上的实际应用运维等。1.1 Windows 操

19、作系统的发展历史 Windows 又称为 Windows 操作系统、微软 Windows 操作系统,是由微软公司推出的用于 PC 和服务器的操作系统。微软公司在 1983 年宣布研制 Windows,在 1985 年发布了第一代 Windows 操作系统,又称为 Windows 1.0。Windows 1.0 是微软公司的第一代图形用户界面操作系统,运行在 MS-DOS之上,运行组件包括计算器、日历、时钟等。1980 年西雅图计算机产品公司的一名程序员编写出 86-DOS 操作系统,1981 年微软公司买下 86-DOS 著作权,并更名为 MS-DOS。第 1 章 Windows 概述 3 W

20、indows 2.0 发布于 1987 年,提升了用户交互及内存管理功能。Windows 2.0实现了虚拟内存,使得应用程序可以使用大小超过物理内存的虚拟内存。早期版本的 Windows 通常被看作运行在 MS-DOS 系统中的图形界面,因为它们都运行在 MS-DOS 系统之上。Windows 3.0 发布于 1990 年,进一步改进了用户交互界面,提升了虚拟内存空间,Windows 3.0 推出后的 6 个月之内卖出了 2 万份 Windows 3.0。之后的新版本增加了对多媒体及 CD(全称为 Compact Disc,又称为激光唱片)光盘的支持。Windows 3.0 需要至少 1MB

21、的物理内存,68MB 的硬盘剩余空间,Windows 1.0、Windows 2.0 和 Windows 3.x 都是 16 位的操作系统。Windows 95 发布于 1995 年。Windows95 仍然基于 MS-DOS,但是引入了对32 位应用程序的支持,同时改进了用户交互界面,增加了开始菜单、任务栏等界面元素。之后在 1998 年发布了 Windows 98,2000 年发布了 Windows 2000 和Windows Me 版本。Windows XP 是基于 Windows NT的操作系统,发布于 2001 年。Windows XP主要有两个版本:家庭版和专业版,家庭版主要面向个

22、人用户,专业版主要面向企业。Windows XP 是截至 2021 年 9 月支持周期最长的操作系统,直到 2014 年才停止支持。Windows XP 对应的服务器版本 Windows Server 2003 发布于 2003 年。2005 年微软公司又发布了 Windows Server 2003 R2 版本。Windows XP 的图形界面如图 1-1 所示。Windows NT(New Technology,新技术)不同于 MS-DOS,是微软公司推出的另一系列操作系统,最早发布于 1993 年,Windows XP 之后的操作系统版本都是以 Windows NT 为基础的,包括 Wi

23、ndows 7、Windows 8 及 Windows 10。云服务器运维之 Windows 篇 4 图 1-1 Windows XP 的图形界面 Windows Vista 发布于 2006 年,该版本操作系统对安全功能进行了很多改进,Windows Vista 对应的服务器版本 Windows Server 2008 发布于 2008 年。Windows 7 发布于 2009 年,其对应的服务器版本 Windows Server 2008 R2 于2009 年同一时间发布,该版本操作系统的性能更加稳定。Windows 7 共有 6 个版本,其中家庭高级版和专业版主要面向个人、家庭用户和小型

24、企业,旗舰版主要面向高端用户和软件爱好者。其他三个版本不零售,其中入门版和家庭普通版通过 OEM(Original Equipment Manufacturer,原始设备供应商)渠道提供,企业版仅通过与微软公司有软件授权合约的公司进行批量许可出售。Windows 7 的图形界面如图 1-2 所示。图 1-2 Windows 7 的图形界面 第 1 章 Windows 概述 5 Windows 8 发布于 2012 年,该版本操作系统在用户图形界面上做了很大改动,移除了开始按钮和开始菜单栏,Windows 8 对应的服务器版本 Windows Server 2012 发布于 2012 年。Win

25、dows 8.1 作为 Windows 8 的升级版,于 2013 年发布。Windows 8.1 的图形界面如图 1-3 所示。图 1-3 Windows 8.1 的图形界面 微软公司在 2014 年宣布研制 Windows 10,在 2015 年发布了 Windows 10 操作系统。该版本操作系统设计了一个新的开始菜单,包含了 Windows 7 中传统的开始菜单以及 Windows 8 的应用程序磁贴形式。Windows 10 对应的服务器版本Windows Server 2016 于 2016 年发布,最新版本的服务器操作系统 Windows Server 2019 于 2018 年

26、发布。Windows 10 的图形界面如图 1-4 所示。图 1-4 Windows 10 的图形界面 云服务器运维之 Windows 篇 6 1.2 Windows 操作系统历代版本 Windows 操作系统支持多种架构,包括 x86、x64、IA-64(Intel Itanium Architecture,英特尔安腾架构)等,早期版本的 Windows,比如 Windows 1.0、Windows 2.0 和 Windows 3.0 只支持 16 位架构,Windows 95 之后开始支持 x86 架构,Windows Server 2003 之后的服务器版本均支持 x64 架构,Wind

27、ows 2000 开始支持 IA-64 架构。Windows 操作系统历代版本及支持的架构如表 1-1 所示。由于 IA-64 实际使用相对较少,表 1-1 仅介绍各 Windows 操作系统版本对 16 位、x86 及 x64 架构的支持情况。表 1-1 Windows 操作系统历代版本及支持的架构 年 份 16 位 架 构 x86 架构 x64 架构 1985 年 Windows 1.0 1987 年 Windows 2.0 1990 年 Windows 3.0 1995 年 Windows 95 Windows 95 1998 年 Windows 98 Windows 98 2000 年

28、 Windows 2000 2000 年 Windows 2000 2001 年 Windows XP 2003 年 Windows Server 2003 Windows Server 2003 2006 年 Windows Vista Windows Vista 2008 年 Windows Server 2008 Windows Server 2008 2009 年 Windows 7 Windows 7 2009 年 Windows Server 2008 R2 Windows Server 2008 R2 2012 年 Windows 8 Windows 8 2012 年 Windo

29、ws Server 2012 Windows Server 2012 2013 年 Windows 8.1 Windows 8.1 2013 年 Windows Server 2012 R2 Windows Server 2012 R2 2015 年 Windows 10 Windows 10 2016 年 Windows Server 2016 Windows Server 2016 2018 年 Windows Server 2019 Windows Server 2019 x86 是指一系列基于 Intel 8086 处理器的指令集架构,其中 32 位架构又称为 IA-32(Intel

30、32)或者 x86,本书中出现的 x86 均表示 32 位架构。x64 表示 64 位架构。第 1 章 Windows 概述 7 1.3 Windows 服务器在云上的应用 Windows 服务器在云上的应用非常广泛,目前各云计算厂商均支持 Windows操作系统,包括阿里云、华为云、腾讯云、AWS(Amazon Web Services,亚马逊云科技)、谷歌云以及微软公司自己的云计算 Azure 等。目前各云计算厂商支持的 Windows 操作系统版本大多是 Windows 服务器版本,部分云厂商支持 Windows 10。以阿里云为例,官方支持的 Windows 操作系统版本为 Windo

31、ws Server 2019、Windows Server 2016、Windows Server 2012(R2)、Windows Server 2008(R2)、Windows Server 2003,由于微软公司已经停止对Windows Server 2008(R2)和 Windows Server 2003 的支持,阿里云最新版本的官方镜像已经不包含 Windows Server 2008(R2)和 Windows Server 2003 版本,对于之前创建的 Windows Server 2008(R2)和 Windows Server 2003 服务器,建议尽快升级到高版本的 Wi

32、ndows 服务器。Windows 服务器的使用及运维在云上和在本地有一些不同之处,第 2 章将会具体介绍在云上如何高效运维和监控 Windows 服务器,第 3 章将会具体介绍在云上使用 Windows 服务器最佳实践。第2章 Windows 服务器运维与监控 本章将重点介绍 Windows 服务器在云上的运维手段及结合云产品的监控方式,将为读者呈现一个不一样的 Windows 服务器云上运维、监控视角,帮助读者在实际企业运营过程中利用云厂商提供的产品实现 Windows 服务器的全方位掌控。2.1 Windows 服务器运维 2.1.1 概述 相比于传统的 Windows 服务器,云上 W

33、indows 服务器有着更好的可运维性,因为大部分云厂商会针对 Windows 服务器体系进行设计,使得云特性与 Windows服务器巧妙结合,本节将重点介绍运维架构设计、运维应急方案、运维实战案例。2.1.2 运维架构 Windows 服务器属于闭源系统,由于其提供的管理 API 较多,所以在可运维 第 2 章 Windows 服务器运维与监控 9 性上可圈可点,加上云上运维的维度与产品众多,极大地拓宽了 Windows 服务器云上运维的选择面。在考虑 Windows 服务器运维架构时,首先要了解云上使用 Windows 服务器主要涉及的维度:整机维度:与 Linux 系统无异,以阿里云 E

34、CS 为例,即代表着机器本身的开关机状态、平台维护状态、平台安全问题等,包括 ECS 快照、镜像管理等。系统维度:与平台级维度无关,主要对 VNC 界面(虚拟连接控制台,是各个云厂商提供的基于平台的带外管理界面)、远程登录(RDP,即远程桌面协议)、性能监控等进行设计。业务维度:围绕业务本身的生命周期设计修复、灾备、应急等流程。底层维度:针对云厂商的特性选择云产品进行保障,比如设计一定的事件监控与告警机制,对于相关高可用业务设置自动运维。SLA 维度:针对以上所有的维度来说,运维体系中还有最重要的一环就是可用性基线(或称标准),主要用于评定整体运维的质量与制定持续改进的方向,这一维度也可以通过

35、云监控的自定义大盘配合报警服务来实现。综上所述,Windows 服务器运维架构如图 2-1 所示。图 2-1 Windows 服务器运维架构 云服务器运维之 Windows 篇 10 2.1.3 运维实践 2.1.3.1 整机维度实践 在 Windows 服务器运维的整机维度实现方面,推荐以下方案:(1)采用云盘。采用云盘可以在 Windows 服务器上实现类似于微软故障转移集群迁移的效果(该效果一般由平台触发),相当于拥有了支持在线迁移的“共享存储”功能(不具备多路径功能)。(2)定期快照策略:有了云盘,同时就具备了快照功能。快照是整机维度运维的灵魂。根据业务重要性,兼顾成本来设计快照的周期

36、尤为重要。阿里云上提供了比较完整的快照策略设置方法。在 Windows 服务器场景下建议尽可能在每个月的第二周及第四周的周二的 UTC 时间 17:0018:00 前做一次快照,因为这个时间段微软会进行补丁推送,补丁下发到云厂商的更新服务器上大致也是在这个时间段。很多服务器可能因此会进入更新周期,若刚好是业务高峰期,可能影响业务。在快照场景下如果影响业务,可以立即恢复快照。阿里云创建快照策略界面如图 2-2 所示。变更前快照策略:正如“定期快照策略”所述,Windows 服务器有着特殊的补丁更新机制,且大部分补丁非热补丁(无法做到在线不关机升级)。然而补丁更新后会直接变更某些系统核心文件,对于

37、稳定性来说存在较大风险,在确保安全的情况下建议每次进行 Windows 服务器变更(比如补丁更新)前都进行一次快照,当因为变更导致系统异常时可进行回滚,从而保证运维 SLA。滚动镜像迭代:镜像更新体现了“母盘思维”。操作系统的快速部署、快速恢复都离不开镜像。特别是在扩容场景下,鉴于 Windows 服务器的闭源性以及变更复杂度,建议每次完成平台级变更时都进行镜像的更新,以便于下一次的快速部署与恢复。而阿里云 OOS 提供的镜像更新功能就可以很好地轻量迭代镜像,如图 2-3 所示。第 2 章 Windows 服务器运维与监控 11 图 2-2 阿里云创建快照策略界面 图 2-3 阿里云 OOS

38、提供的镜像更新功能 云服务器运维之 Windows 篇 12 2.1.3.2 系统维度实践 相对于整机维度,系统维度比较单一,一般从三个角度出发进行落地:状态:建议使用阿里云云监控的事件告警功能,该功能提供了较为完善的事件列表,初始设计时可以以全部严重级别事件来进行告警,如图 2-4 所示,然后在日常运营过程中根据实际情况逐步收敛告警。图 2-4 云监控事件告警 第 2 章 Windows 服务器运维与监控 13 性能:状态维度类似布尔值(是与否),而性能维度类似数值(涉及阈值),关于这一层面的落地会在 Windows 服务器监控一节详细描述。安全:安全维度在 Windows 服务器运维领域容

39、易被忽略,而阿里云则提供了一个比较便利的方式来构建 Windows 服务器安全屏障,阿里云云安全中心的 Windows 系统漏洞界面如图 2-5 所示。图 2-5 阿里云云安全中心的 Windows 系统漏洞界面 2.1.3.3 业务维度实践 由于业务维度从可用性角度来说与 Linux 无异,这里重点阐述变更类的运维,在业界可选的业务维度运维的产品很多,包含很多自动化、批量化脚本下发工具,但是其标准化成本很高,导致 Windows 服务器业务运维的成本呈现指数级增长。而在云上的Windows服务器运维比传统环境下的业务运维体验要好得多,这里以ECS为例,运维编排服务提供了基于 Windows

40、Powershell 的命令下发功能,如图 2-6所示。云服务器运维之 Windows 篇 14 图 2-6 运维编排服务 相比于 Windows 服务器的计划服务,运维编排服务提供平台级的运维下发服务,基本排除了系统本身的影响,提高了业务级的运维能力,与 Windows 服务器自带的计划任务、组策略等系统级运维方式相辅相成。此外,除了批量操作方面实现变更的运维,日常的 Windows 服务器运维排障也建议采用一定的运维手段来进行监控(将在 2.2.3.1 节中详述)。2.1.3.4 底层维度实践 底层维度的运维实践主要是建立系统事件(比如内部系统崩溃时的告警)与平台事件的优先级。一般来说,平

41、台事件优先于系统事件,因为底层传递的信息会比系统内传递的信息纬度更高、更加精准,虽然在感知灵敏度上比系统本身的告警要低一些,但是综合考虑,平台事件更具备可运维性,也减少了大量的排障成本。平台事件的入口如图 2-7 所示。第 2 章 Windows 服务器运维与监控 15 图 2-7 平台事件 除了平台事件的设置(可参考 2.1.3.2 节相关告警设置),对于底层维度运维来说,对控制台面板的关注尤为关键,建议按以下步骤设置 Windows 服务器面板:(1)对于所有 Windows 服务器类型的 ECS 进行打标(如统一加标签“Windows服务器”)。(2)对于所有 Windows 服务器类型

42、的 ECS 进行云监控中的应用分组。(3)在企业内部创建的 ECS 规范中声明好创建 Windows 服务器 ECS 应选择的标签与应用分组。ECS 的控制台面板支持通过标签进行检索,但缺点是只能进行分地域查看,若要实现全地域查看,可以使用“资源组”功能,将 Windows 服务器归入同一资源组中,然后在资源管理器中进行状态检查,实现底层运行状态观察与运维(如微软公司提供的 System Center Operations Manager 解决方案)。2.1.3.5 SLA 维度实践 Windows 服务器的 SLA 可用性运维可以通过多种方式在云平台落地,从云上的角度出发,这里有两个实践建议

43、:(1)安全可用性:阿里云直接提供了“安全基线”功能,定期进行基线检查即可从平台维度保证安全方面的 SLA 不下降,如图 2-8 所示。(2)探活可用性:在 2.1.3.3 节中讲到提前对 Windows 服务器做应用分组,这不仅可在云监控中发挥作用(2.4 节会详细讲到),还可以针对应用分组进行可用云服务器运维之 Windows 篇 16 性监控(路径为“云监控”“应用分组”单击对应应用分组即可进入对应分组的可用性监控设定界面),如图 2-9 所示。图 2-8 基线检查 图 2-9 “创建可用性监控”界面 第 2 章 Windows 服务器运维与监控 17 2.2 使用云助手运维 Windo

44、ws 服务器 云助手是为云服务器 ECS(Elastic Compute Service,弹性计算服务)打造的云原生自动化运维工具,通过免密码、免登录、无须使用跳板机的形式,在 ECS实例上实现批量运维、执行命令(Shell、Powershell 和 Bat)和发送文件等操作。典型的使用场景包括:安装或卸载软件、启动或停止服务、分发配置文件和执行一般的命令(或脚本)等。云助手是一款开源的项目,欢迎访问项目地址,见链接 1(本书正文中提及的见“链接 1”“链接 2”等时,可添加封底【读者服务】处客服好友,发送“五位书号”获取链接)。2.2.1 Windows 服务器常用自动化运维技术 Windo

45、ws 一般有如下自动化运维方案:(1)WinRM(Windows Remote Management,Windows 远程管理):是 Windows环境下基本的运维通道。(2)Ansible:新出现的自动化运维工具,集合了众多运维工具的优点,实现了批量系统配置、批量程序部署、批量运行命令等功能。(3)Powershell DSC(Desired State Configuration,配置管理平台):基于Powershell 配置管理 Windows。云助手是阿里云的云原生自动化运维系统,相较于其他运维方案,云助手有如下优势:(1)安全性。云助手通过底层设备识别实例的唯一性。支持任务历史审计。

46、(2)兼容性。云服务器运维之 Windows 篇 18 兼容云上的各类系统版本。支持云上统一的 OpenAPI 接口。(3)稳定性。支持高并发请求,可同时运维数十万台服务器。具有高可靠性。2.2.2 使用云助手运维云上实例 使用云助手,可以实现批量自动化运维实例。ECS提供控制台、CLI(Command-Line Interface,命令行界面)和 OpenAPI(Open Application Programming Interface,开放式应用程序接口)三种方式通过云助手实现运维操作,本节将介绍控制台和OpenAPI 两种方式。更详细的介绍可以参见阿里云官网的帮助中心中的云助手相关教程

47、。2.2.2.1 控制台方式 登录 ECS 实例控制台,见链接 2(本书正文中提及的见“链接 1”“链接 2”等时,可添加封底【读者服务】处客服好友,发送“五位书号”获取链接)。在左侧导航栏中,选择“运维与监控”“发送命令/文件(云助手)”,如图 2-10 所示。图 2-10 ECS 实例控制台 第 2 章 Windows 服务器运维与监控 19 在弹出的云助手控制台中,单击“创建/执行命令”,如图 2-11 所示。图 2-11 云助手控制台 在弹出的“创建命令”对话框中,填写需要执行的命令或脚本并选择需要运维的实例,单击“执行”按钮,如图 2-12 所示,云助手会立即将命令或脚本传送至指定实

48、例上运行。图 2-12 “创建命令”对话框 云服务器运维之 Windows 篇 20 单击云助手控制台的“命令执行结果”选项卡,可以查看所有命令的运行状态。单击某条命令右侧的“查看”按钮,可以查看命令详细执行情况和输出结果,如图 2-13 所示。图 2-13 云助手命令执行结果 2.2.2.2 OpenAPI 方式 以Python语言为例,在已安装aliyun-python-sdk-ecs 2.1.2或以上版本的Python开发环境中,执行以下示例脚本,可以自动化运维一例或者多例 ECS。#coding=utf-8#If the Python sdk is not installed,run

49、sudo pip install aliyun-python-sdk-ecs.#Make sure youre using the latest sdk version.#Run sudo pip install-upgrade aliyun-python-sdk-ecs to upgrade.from aliyunsdkcore.client import AcsClient from aliyunsdkcore.acs_exception.exceptions import ClientException from aliyunsdkcore.acs_exception.exception

50、s import ServerException from aliyunsdkecs.request.v20140526.RunCommandRequest import RunCommandRequest from aliyunsdkecs.request.v20140526.DescribeInvocationResults Request import DescribeInvocationResultsRequest import json import sys import base64 import time import logging#Configure the log outp

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      联系我们       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号  |  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服