- 云基础设施
- 虚拟网络边界
- 虚拟防火墙
- 虚拟专用网络
- 虚拟服务器
- 云存储设备
- 就绪环境
- 云管理机制
- 远程管理系统
- 资源池化管理
- 服务等级协议管理系统
- 资源备份
- 云监控
- 自动化运维
- 服务目录管理
- 租户及用户管理
- 容量规划及管理
- 其他云管理机制
- 特殊云机制
- 自动伸缩监听器
- 负载均衡器
- 故障转移系统
- 其他特殊云机制
- 参考资料
云基础设施
云基础设施是构成云技术架构基础的核心构件块,主要针对计算、存储、网络三大核心资源。
虚拟网络边界
虚拟网络边界是由网络设备(如虚拟防火墙、虚拟专用网络)建立,将一个网络环境与通信网络的其他部分隔离开,形成的逻辑上的隔离边界。它用于包含并隔离一组相关的、可能物理上分布式的 IT 资源,实现非授权用户/非用户/其他云用户的角色区分,控制被隔离 IT 资源的可用带宽。
虚拟防火墙
虚拟防火墙技术是在一台物理防火墙硬件上,逻辑划分出多个独立的虚拟的防火墙实体。每个虚拟防火墙都如同独立设备,拥有独立的管理员、安全策略、认证库等。在默认情况下,不同虚拟防火墙之间相互隔离。各虚拟防火墙独立维护安全区域、资源对象、包过滤策略、NAT 策略等,可限制每个虚拟防火墙的资源占用(如会话数)。该技术可以解决业务多实例问题,实现物理资源的逻辑分割与安全隔离。

虚拟专用网络
虚拟专用网络在公用网络(如互联网)上建立加密、认证的专用、安全通信隧道,实现远程用户或分支安全访问内部网络。主要特点有:
| 虚拟专用网络的特点 | 说明 |
|---|---|
| 安全保障 | 通过加密和身份验证,保证数据传输的私密性和完整性,防止窃听和篡改 |
| 服务质量保证 | 可为不同业务数据提供不同等级的 QoS,优化广域网带宽利用,防止阻塞 |
| 可扩充性和灵活性 | 支持多种数据类型和传输媒介,便于增加新节点 |
| 可管理性 | 需对安全、设备、配置、访问控制、QoS 等进行统一管理 |

虚拟服务器
虚拟服务器是一种模拟物理服务器的虚拟化软件(同“虚拟机”VM),它通过虚拟机监视器实现硬件抽象、资源调度和虚拟机管理。一台物理服务器上可运行多个独立的虚拟服务器(多客户操作系统),实现资源共享。同一物理机上的虚拟机之间完全隔离,一个虚拟机崩溃不影响其他虚拟机。整个虚拟机环境(包括OS、应用、配置)被封装为一个独立的实体(如映像文件),便于备份、移动、复制。同时,将物理硬件标准化为虚拟硬件,提高了兼容性。

虚拟服务器的主要优点有:
| 虚拟服务器的优点 | 说明 |
|---|---|
| 实时迁移 | 虚拟机可在运行时在不同物理主机间平滑、透明地迁移,支持硬件异构,提高系统可用性(如硬件维护时业务不中断)。 |
| 快速部署 | 通过复制预封装的虚拟机映像,应用部署从传统耗时数天缩短至分钟级,且自动化程度高,不易出错。 |
| 高兼容性 | 应用运行平台与底层物理硬件分离,提高了应用的兼容性和可移植性。 |
| 提高资源利用率 | 将多个低负载应用整合到同一台物理服务器,大幅提升 CPU 等资源利用率。 |
| 动态调度资源 | 可根据负载情况,在线、灵活地调整分配给虚拟机的 CPU、内存等资源,无需物理变更硬件。 |
云存储设备
云存储设备是专门为云配置设计的、可被虚拟化的存储设备。其数据组织单位如下:
| 数据组织单位 | 说明 |
|---|---|
| 文件 | 分组存放于文件夹中的数据集合 |
| 块 | 可被独立访问的最小数据单位,最接近硬件 |
| 数据集 | 基于表格的、以记录形式组织的数据集合 |
| 对象 | 将数据及其元数据组织为基于 Web 的资源,可通过标准 HTTP 操作进行访问 |
当数据委托给外部云提供者很容易出现安全问题,目前多数公有云服务商支持有限。在用户操作安全方面,如果缺乏版本控制可能导致文件被错误覆盖后无法恢复,若无备份或回收站机制,误删后数据可能永久丢失。同时,因存储海量用户数据,云存储设备是黑客攻击的重要目标,服务商需提供强大的安全防护方案来保障数据安全。
就绪环境
就绪环境是 PaaS(平台即服务)交付模型的核心定义组件,位于云架构中间层(介于 IaaS 和 SaaS 之间)。它是云平台上预安装好的一组 IT 资源(如数据库、中间件、开发工具、运行环境),云用户可远程使用和定制,以进行应用开发、部署和运行。以 Oracle PaaS 框架为例,就绪环境的体系结构如下:
| 就绪环境组件 | 说明 |
|---|---|
| iPaaS 集成平台即服务 | 基于 SOA、ESB 等架构,提供云内/云与企业间的集成平台。 |
| aPaaS 应用平台即服务 | 基于 Java 等技术架构,提供应用的部署与运行环境平台,是主要实现层。 |
| dPaaS 数据平台即服务 | 提供可伸缩的数据存储与共享平台,支持多租户下的高效安全数据访问。 |
| 硬件资源池 | 为上层 PaaS 平台提供所需的高性能硬件资源系统。 |

云管理机制
云管理机制的产生主要源于私有云和混合云的复杂管理需求,企业内部 IT 环境异构(多种设备、厂商、架构并存),且云服务需求各异,需要一个统一平台进行综合管理和治理。与传统 IT 管理的区别如下,可见云管理需要实现建立、配置、维护、监控。
| 对比 | 传统 IT 管理 | 云管理 |
|---|---|---|
| 管理对象 | 管理具体的网络、服务器、OS、数据库等 | 管理 IaaS、PaaS、SaaS 等各种云服务的端到端交付与运维 |
| 管理特色 | 手动、竖井式管理 | 以自服务、自动化、多租户共享为核心 |
| 管理规模 | 百节点级 | 扩展到万节点以上的规模 |
| 管理手段 | 基于事件、私有接口的离散工具整合 | 充分自动化、面向服务的整合 |
远程管理系统
远程管理系统为外部的云资源管理者提供的统一工具和用户界面,用于配置和管理所有基于云的 IT 资源。它建立一个集中入口,接入底层各种控制功能。

远程管理系统有两种主要入口:
| 远程管理系统入口 | 说明 |
|---|---|
| 使用与管理入口 | 通用管理入口,集中管理异构云资源,并提供资源使用报告。 |
| 自助服务入口 | 允许云用户搜索、选择、申请云服务商提供的服务和 IT 资源,实现自助式资源开通。通常也提供标准 API 供用户定制自己的控制台。 |
云用户可执行的主要管理任务有:
- 配置与建立云服务。
- 按需供给和释放 IT 资源。
- 监控服务状态、性能和使用情况。
- 监控 QoS 和 SLA 履约情况。
- 管理租赁成本与账单。
- 管理用户账户、安全凭证和访问控制。
- 进行容量规划与资源供给评估。
资源池化管理
资源池化管理是云管理平台的关键,目的是将企业内分散、异构的物理资源,按不同维度逻辑整合成统一的资源池,实现灵活、高效的资源分配。资源池建设需考虑五个核心因素:
| 资源池建设 | 说明 |
|---|---|
| 资源种类 | 处理异构硬件环境(如 x86 与小型机、不同 CPU 品牌),需合理规划不同种类的资源池 |
| 应用架构 | 根据应用的层次化架构(如 Web 层、应用层、数据层)需求,设计对应的资源池 |
| 应用等级保障 | 为满足不同 SLA 需求,需提供不同服务等级的资源服务 |
| 管理需求 | 根据运维管理需要划分区域,如生产区、灾备区、测试开发区、管理操作区等 |
| 安全域 | 实现与传统网络一致的逻辑或物理隔离,满足不同应用的安全合规要求 |
服务等级协议管理系统
服务等级协议 SLA 是服务提供者和用户之间的协定,用来保证服务的品质。服务等级协议管理系统是 SLA 的监控器,用于专门观察云服务运行时的性能指标,确保其履行 SLA 中约定的服务质量要求。服务等级协议管理系统涉及服务提供者、服务客户、服务代理三种角色,生命周期为:提供者发布带 SLA 的服务 → 客户通过代理发现服务并协商 SLA → 签订合同并绑定服务 → 运行时通过 SLA 监控器进行监督。

使用 SLA 监控器的注意事项有:
| SLA 监视器注意事项 | 说明 |
|---|---|
| 第三方监控 | 对于关键业务,可采用第三方审计监控,以确保公正性、合规性,明确责任归属。 |
| 转换 SLA | 企业应选择与业务成果匹配的 SLA,而非盲目追求基础设施级别的高指标,以免成本激增。 |
| 确保告警装置 | 需确保具备通过 Web 门户、邮件等方式的定期报告和及时告警机制。 |
| 确保高效后备设施 | 在签署 SLA 前,需明确服务商对数据保护、灾难恢复等责任的划分,避免责任被推给用户。 |
资源备份
资源备份技术通过为同一 IT 资源创建多个实例,来增强服务的可用性和性能,是保障高可靠性的关键措施。相比传统架构,云计算集中部署资源,能动态、弹性、高效地满足备份需求,避免用户重复建设。

针对不同的云计算应用类型,资源备份的实现方式有:
- 私有云/数据中心: 可利用云存储进行云端备份,降低本地数据丢失风险。主流公有云商提供备份方案,如数据库镜像、文件备份。
- 公有云平台: 通常内置异地多副本备份机制,可将数据(如数据库快照)自动复制到不同可用区或区域,也可直接部署跨区域的数据实例实现实时复制。
云监控
云监控的目标是保证应用和服务性能,辅助容量规划,确保遵守 SLA。公有云一般是提供商负责核心资源监控,用户主要通过自服务监控其租用的资源。私有/混合云则需要管理员需通过统一监控平台掌握全局,同时支持用户自服务监控。云监控管理员的监控内容有:
| 管理员的监控内容 | 说明 |
|---|---|
| 基础架构监控 | 涵盖物理环境、虚拟化层、操作系统、集群、资源池、虚拟机等的状态、性能(CPU、内存、存储、网络) |
| 应用资源监控 | 可扩展至数据库连接池、消息队列等上层应用状态 |
| 机房环境监控 | 对支撑云数据中心的物理机房本身进行监控 |

云监控系统包括以下核心功能,同时也通过测量 IT 资源使用量(如请求数、数据量、带宽),为计费系统提供数据。
| 云监控系统功能 | 说明 |
|---|---|
| 数据采集 | 通过多种接口(Webservice, FTP, API 等)采集容量、性能、网络、日志等数据 |
| 数据处理与分析 | 对数据进行加工、关联分析,提供动态性能基线,作为智能告警阈值 |
| 告警事件管理 | 对告警进行统一过滤、压缩、关联分析、自动化处理、升级,并能处理大事件量风暴 |
| 能耗监控 | 因云计算集中能耗巨大,需监控能耗并为构建节能策略提供依据 |
自动化运维
为了应对云环境下资源激增、复杂度高、成本与合规压力,需要改变传统手动、被动、易错的运维方式。自动化运维的目标是通过基于策略的集成式自动化平台,降低运营成本,提高质量与合规性,管理物理和虚拟服务器。自动化运维涵盖四个方面:
| 自动化运维内容 | 说明 |
|---|---|
| 配置 | 自动化执行服务器打补丁、配置、更新、报告等任务,确保变更的一致性与准确性。 |
| 合规 | 自动化定义、应用并保持服务器配置符合监管、安全、运营策略,自动生成并部署纠正指令。 |
| 补丁 | 提供补丁自动下载、核查、安装、报告功能,支持多操作系统,消除安全漏洞隐患。 |
| 自动发现 | 自动扫描动态变化的云环境,发现服务器、网络、存储的配置信息及拓扑关系,解决资产维护的不确定性。 |
服务目录管理
服务目录管理定义了 IT 服务使用者与 IT 资源之间的标准接口。管理员的管理内容有:
| 服务目录管理内容 | 说明 |
|---|---|
| 服务全生命周期管理 | 支持服务的创建、发布、变更、下架等全过程管理。用户只能请求已发布并授权的服务。 |
| 服务定义与计费 | 定义服务名称、描述、资源规格、费用,并设定计费策略和计量标准。 |
| 服务实例管理 | 提供界面管理服务实例的创建、变更、终止。支持用户申请资源调整、软件安装、网络/磁盘变更等。 |
| 审批流程设定 | 可为不同服务设计灵活的审批流程(串行/并行、多级),支持委托审批,并保留完整审计日志和通知。 |
租户及用户管理
云平台允许创建租户(私有云中常见,公有云中称 Account/Org),对于不同租户的资源进行逻辑隔离,通过 VPC 等技术实现。基于用户、用户组、角色的权限模型,控制其对页面和资源的访问。在配额管理中,公有云通过计费限制使用,私有云中需设置配额来限制租户/用户可使用的最大资源量(CPU、内存、磁盘、云主机数量),防止资源滥用。

容量规划及管理
在弹性、动态的云环境中,预测资源瓶颈,指导何时、何地、扩容何种资源,避免服务中断,是采购和节能的重要依据。该部分需要从各类监控系统中抽取性能数据,进行分析与预测,支持 what-if 分析、时间序列分析,绘制趋势预测图等,并提供容量面板、分析与规划报告。需要分析的内容包括:
- 分析特定业务增长(如访问量变化)对容量的需求及性能瓶颈点。
- 分析系统在当前配置下的最大业务容量。
- 评估基础设施扩容(水平/垂直)对业务 KPI 的影响。
- 基于硬件基准评估不同硬件对系统容量的影响。
其他云管理机制
计费管理系统:专门用于收集、处理资源使用数据,并基于此进行结算(对提供商)和计费(对用户)的系统。该系统依赖按使用付费监控器在运行时收集详细的资源消耗数据,将数据存储于专用的使用计量库中。最后从库中提取数据,用于生成账单、发票以及各种分析报告。
服务模板管理:也称为服务蓝图,是一种可视化、架构式定义服务的方式,描述了服务的部署视图、所需资源及组成关系。服务模板管理可以通过拖拽原子服务(软件包、OS、网络配置)组装复杂服务,实现前后端解耦。服务组件属性(如数据库端口)可参数化,允许用户在申请时自定义,平台自动注入实现,提供端到端灵活性。新增部署模式时,仅需定义新蓝图并挂接,无需改动原有服务逻辑,大大提升服务管理能力。
云 CMDB 及流程管理:传统 CMDB 用于存储与管理 IT 配置信息,是 ITIL 流程的基础。云环境下资源是动态、自助开通、频繁变更的,手动维护 CMDB 数据不再可行。因此 云 CMDB 必须依赖自动发现能力,持续地发现云环境中动态变化的资源信息,如虚拟化架构、虚拟机、配置等。与业务系统数据自动调和,生成准确的配置项,并填充到 CMDB 中,形成统一、实时的资源台账。
特殊云机制
特殊云机制可被视为对云基础设施的扩展,用于满足 IT 资源与解决方案的特定使用需求。
自动伸缩监听器
自动伸缩监听器是一种服务代理,用于监听和追踪云服务与用户间的通信,或监控 IT 资源(如 CPU、请求数)的使用率。根据预定义参数,监听器自动触发 IT 资源的伸缩,在负载超过或低于资源分配时,将自动通知云用户或管理员。它的工作原理如下:
- 当监控指标持续超出预设阈值时,监听器会触发通知,告知云管理平台(VIM)。
- VIM 平台负责执行实际的伸缩操作(如启动/关闭虚拟机实例)。
- 若扩展需求在当前物理服务器无法满足,VIM 可执行虚拟机在线迁移。
阿里云弹性伸缩 ESS
负载均衡器
负载均衡器是一种运行时代理,将工作负载智能、高效地分发到多个 IT 资源上,以优化资源使用、避免过载、最大化吞吐量。
负载均衡器有如下几种工作模式:
| 负载均衡器的工作模式 | 说明 |
|---|---|
| 非对称分配 | 将较大的工作负载分配给处理能力更强的 IT 资源 |
| 负载优先级 | 根据请求的优先级进行调度、排队或分配 |
| 上下文感知分配 | 根据请求的具体内容,将其分配到不同的 IT 资源 |
负载均衡器的实现方式有:
| 负载均衡器的实现方式 | 说明 |
|---|---|
| 软件负载均衡 | 在服务器上安装负载均衡软件,成本低,配置简单,适用于中小型系统。 |
| 硬件负载均衡 | 使用专用的硬件负载均衡设备,性能高、更稳定,但成本高。适用于大型、高流量网站,也常用于满足合规要求。 |
| 本地负载均衡 | 对同一数据中心内的服务器集群进行负载均衡。 |
| 全局负载均衡 | 对跨地域、广域网分布的多个服务器集群进行负载均衡。可根据用户IP地理位置,将其导向最近的节点。 |
| 链路集合负载均衡 | 将多条物理网络链路捆绑为一条逻辑链路,共同承担流量,提高总吞吐量,不增加额外带宽成本。 |
故障转移系统
故障转移系统通过集群和冗余技术,提供高可用性和高可靠性。该系统由多台计算机(节点)组成集群,集群对外通常暴露一个虚拟 IP 地址和主机名,客户端无感知后端具体节点。。当某个活跃节点发生故障时,系统能自动将工作负载切换(故障转移)到备用节点,保证服务不中断。与负载均衡的区别在于:负载均衡保护新请求;故障转移处理正在进行的请求或会话,防止因单点故障而丢失。

故障转移系统有两种基本配置:
| 故障转移系统的基本配置 | 说明 |
|---|---|
| 主动-主动 | 所有节点同时主动处理工作负载,并保持同步。当某节点失效,负载均衡器将其从调度列表中移除,流量被分发到其他活跃节点。 |
| 主动-被动 | 只有活跃实例处理请求,待机实例处于空闲或最小化运行状态。活跃实例故障时,流量被重定向到待机实例,该实例接替成为新的活跃实例。 |
其他特殊云机制
资源集群将多个 IT 资源实例组合成一个组,使其能像单个逻辑资源一样被管理和使用(N 合 1)。资源集群的主要类型有:
| 资源集群主要类型 | 说明 |
|---|---|
| 服务器集群 | 多台物理服务器通过共享存储等方式组成集群,支持虚拟机在线迁移,提高可用性。 |
| 数据库集群 | 多个数据库实例保持数据同步,提供数据冗余和高可用。 |
| 大数据集集群 | 将海量数据分区分布在多个节点上,每个节点可独立处理部分负载,减少节点间通信,适合大规模数据分析。 |
多设备代理是一种网关或包含网关的组件,用于在运行时进行数据转换,以解决不同设备、程序在协议、数据格式上的兼容性问题,使得云服务能够被更广泛的用户程序和设备访问。转换层次可涉及传输协议、消息协议、存储设备协议、数据模型/模式的转换,例如 XML 网关、云存储网关、移动设备网关。

状态管理数据库是一种专门的存储设备,用于临时存储软件程序的状态数据。它主要作为替代内存缓存的方案,程序将状态数据“卸载”到此数据库中,从而显著降低运行时内存占用。通过使用使软件程序及其周边基础设施具备更大的可扩展性。
参考资料
《云计算导论(第2版)》,吕云翔、柏燕峥、许鸿智、张璐、王佳玮 编著,清华大学出版社

