12.1.2 NSX 对底层物理网络提出的要求
有了基于骨干-枝叶节点的 Folded CLOS 架构的数据中心网络, NSX 还对网络的其他一些 功能提出了要求,以便部署在底层物理网络上的 NSX 网络虚拟化平台可以运行得更好。这些 物理网络需要具备的特性应该是:简单性、可扩展性、高带宽、容错、 QoS。
1.简单性 简单性,意味着组成整个数据中心网络的骨干节点和枝叶节点的交换机配置必须是简 单的,这样才能消除数据中心物理网络的复杂性,并提高可扩展性,为逻辑网络的运行提 供良好的底层平台。有些企业认为复杂的配置才能实现安全性和更多高级的网络功能,然 而这样只会造成部署、运维和扩展的复杂性。将底层物理网络进行最精简的配置,高级功 能和安全性等配置则使用 NSX 网络虚拟化平台中的逻辑网络来配置。
这是因为一旦 NSX 网络虚拟化平台搭建完成,网络功能全部在逻辑网络内部完成,那么物理网络的配置、策 略修改就应该非常少(除非数据中心进行扩容)。因此,只有使用简单的物理网络配置,并 将复杂配置引入虚拟网络内部才是 NSX 网络虚拟化平台希望看到的。 对于枝叶节点交换机,其连接服务器的接口(数据中心如今使用的一般是 10GE 的以 太网接口)应该使用最少量、最精简的配置—一般使用 802.1Q Trunk 来承载多个 VLAN, 使得交换机上连接该 ESXi 主机或基于其他 Hypervisor 服务器的 10GE 接口,可以为下属的 所有虚拟机提供连接性。
例如如果在同一台 ESXi 主机中需要同时承载 VXLAN 流量、管 理流量、存储流量和 vMotion 流量,那么在交换机接口配置一条简单的 802.1Q Trunk 就可 以实现这样的功能。现今的数据中心中,枝叶节点交换机一般都会使用三层交换机提供默 认网关功能,在其之上创建的 VLAN 则会配置 SVI(Switch Virtual Interface)地址。推荐 在一个机柜中部署一对 ToR 交换机作为枝叶节点交换机,将每个连接服务器的接口配置为 802.1Q Trunk,并跨越这一对枝叶节点交换机配置链路聚合。
现今,很多网络设备厂家都可 以提供这种跨越设备的链路聚合技术,如 Cisco 公司的 vPC(virtual Port-Channel)技术、 Arista Networks 公司的 MLAG(MultiChassis Link Aggregation)等。对于不支持跨设备链路 聚合技术的交换机,则可以配置 VRRP 或 HSRP 这些传统冗余热备协议。 枝叶节点交换机连接骨干节点交换机的接口则称为上行链路(Uplink)接口。通过这 些接口连接的上连链路,是点对点的路由链路,而不是 802.1Q Trunk 链路。
可以使用动态 路由协议来配置其连接性,并在其路由全连通的情况下配置大二层协议。机柜中的每台 ToR 交换机都会通报其几个前缀(通常是一个 VLAN 或一个子网的前缀)。整个数据中心网络 会根据从其他交换机收到的前缀计算等价路径,实现 ECMP。 骨干节点交换机只有连接到枝叶交换机的接口。所有接口都会配置为点对点路由链路, 作为枝叶节点交换机上行链路的“另一端”的接口。骨干节点交换机之间通常不需要进行连接。一旦骨干节点交换机和枝叶节点交换机之间的链路出现故障,动态路由协议将迅速 收敛,确保不会将受影响的流量引入已与该机柜的连接断开的骨干节点交换机。
2.可扩展性 与可扩展性有关的因素包括网络架构中支持的机柜数量、数据中心中任意两个机柜之 间的带宽、枝叶节点交换机与另一机柜通信时可以选择的路径数,等等。 其中,支持的机柜数量由所有骨干节点交换机中的可用端口总数以及可接受的超额比 例决定。 关于带宽,由于不同的机柜可能运行不同类型的应用,因此对带宽的要求也不尽相同。 例如,机柜内的服务器如果是文件服务器或其他存储系统,那么这类机柜产生的流量可能 会比数据中心中的其他机柜多。此外,与用于连接到外部环境的边缘机柜不同,计算机柜 (即包含了数据中心内部工作负载和运行应用的虚拟机的机柜)的流量级别可能会有更高的 带宽要求。为了满足不同的带宽要求,链路的速率和链路数量也会有所不同。可以针对每 个机柜的带宽做出调整,而不影响到骨干节点交换机或枝叶节点交换机的体系结构。 与骨干节点交换机之间的链路的数量,决定了从此机柜到其他机柜的流量可以选择的 路径的数量。任何两个机柜之间的路径跳数都是一致的, 可以很容易基于 ECMP 进行流量 选路。
3.高带宽 在基于骨干-枝叶架构的数据中心交换机拓扑中,如果发生链路超额,则通常会发生在 枝叶节点交换机位置—即枝叶节点交换机可提供服务器连接的端口总带宽超过了其上行 链路的总带宽。超额比的计算方式非常简单:可供连接到给定枝叶节点交换机的所有服务 器的总带宽量除以聚合的上行链路带宽量就是超额比率。例如,一台有着 20 个可连接服务 器的 10Gbit/s 端口的交换机,总共最多产生 200Gbit/s 的下连链路带宽。如果它的上行链路 是通过 8 个 10Gbit/s 端口连接到骨干节点交换机,即总共 80Gbit/s 的上行链路,则超额比 率就是 2.5:1。 现今的数据中心交换机一般使用 40Gbit/s 的端口作为骨干节点与枝叶节点的互连端 口,这样就可以将 10Gbit/s 的端口全部用于连接服务器的端口,无需将它们链路聚合后再 作为上连接口。 根据机柜中服务器的功能,可以配置更多或更少的上行链路,以向该机柜提供更多或 更少的带宽。换句话说,每个机柜的超额比可能不同。在 NSX 网络虚拟化环境中,建议超 额比不要超过 5:1。 从数据中心体系结构的角度看,带宽设计必须遵循一条规则:从枝叶节点交换机 到每个骨干节点交换机的上行链路数量必须相同。如果到骨干节点交换机 A 有两条上 行链路,而到其他骨干节点交换机 B、 C 和 D 只有一条上行链路,这样的设计就是不合理的,这样一来,将会有更多流量通过骨干节点交换机 A 发送到枝叶节点交换机, 造成流量不均衡。
4.容错 随着网络环境的规模越来越大,构成数据中心整体架构的交换机就越来越多,数 据中心交换机的一台或它的一条链路出现故障的可能性也就越大。因此,应当设计一 套具有较强恢复能力的网络架构,它可以承受单条链路或单个设备的故障,并不会产 生大范围影响。 如果骨干节点交换机和枝叶节点交换机之间一条的链路出现故障,机柜之间的流 量就可以继续通过剩余的骨干节点交换机,进行三层路由处理,通过路由协议选择其 他路径。 如果骨干节点交换机本身无法工作了,那么,整个网络系统应在性能有一定损失的情 况下(例如,数据中心中总共有 4 台骨干节点交换机,因为一台故障导致损失 25%的性能) 保证业务流畅,而网络的功能没有任何损失。因此骨干节点交换机至少应安装两台。同理, 对于枝叶节点交换机,也需要在每个机柜安装两台, 以保证冗余性。 任何一台枝叶节点交 换机发生故障,对于这个机柜而言,只是影响 50%的性能而已,并不会对这个机柜需要提 供的业务产生任何影响。 支持多路径的 Folded CLOS 架构可以很好地处理网络设备、服务器或链路故障,无需 网络管理员手动进行网络维护或操作。如果网络管理员必须对交换机进行软件升级等操作, 则也可以断开其链路进行单独操作,路由协议会自动选择其他链路处理业务流量,使得整 个网络不会受到任何影响。
5.服务质量(QoS) 在网络虚拟化环境中,需要跨越物理网络基础架构传送各种类型的流量,包括租户、 存储和管理流量。每种流量都具有不同的特征,这样一来,它对物理网络基础架构中的 QoS 也有不同的要求。通常状况下,虽然管理流量较少,但它对于控制物理和虚拟网络的状态 却至关重要; IP 存储流量一般较大,且一般位于数据中心内部;云运营商可能会为租户提 供各种级别的服务,每个租户都有着自己特殊的流量要求。因此,针对不同流量也具有应 有不同的服务质量(QoS)配置。 在虚拟化环境中,在 Hypervisor 上可以配置一个可信的边界,这意味着它会为不同 的流量类型设置相应的 QoS 值。
在这种情况下,物理网络可以“信任” 这些值。不需要 在连接服务器的枝叶节点交换机端口上重新进行 QoS 级别分配。如果物理交换环境中存 在拥塞点,网络就会检查 QoS 值,以确定应如何设定流量的顺序或优先级,并且将一些 流量丢弃。当虚拟机连接到基于 VXLAN 的逻辑网络时,来自其内部数据包头部的 QoS 值就会被复制到 VXLAN 的头部,这样一来,外部物理网络也能够基于外部包头中的标记设定流量的优先级。 大部分的 QoS 配置可以由 NSX 网络虚拟化平台完成,并由物理网络“信任”,但是还 是有一些需要直接由物理网络来处理 QoS,比如 IP 存储的流量。 这是因为 NSX 作为一个 网络虚拟化平台,对存储的流量并没有很好的可视性。此外,由于服务器无法提供 E1 等专 门的语音接口, 当 IP 语音流量需要拨打外线或其他站点时,需要通过物理语音网关路由器, 这种 QoS 也不会配置在 NSX 网络虚拟化平台内部。 在物理网络中,可以支持两种类型的 QoS 配置,一种是在二层进行处理的 CoS, 另一种是在三层进行处理的 DSCP。
就 QoS 配置原理而言,物理网络和逻辑网络是一 致的。 12.2 Arista Networks 网络平台与 NSX 的融合 介绍完如何在现代数据中心里设计物理网络的 Underlay,以更加有效地支持 NSX 网络 虚拟化平台之后, 下面来讨论物理网络设备厂家的解决方案如何与 NSX 网络虚拟化平台进 行融合。 NSX 网络虚拟化平台不关心底层物理网络架构(当然我们推荐的是 Folded CLOS 架 构), 而且也不关心底层物理网络的品牌,它只关心服务器、虚拟机之间的 IP 是否可达(只 需要 MTU 值大于 1600)。换言之, NSX 网络虚拟化解决方案可以运行在任何物理网络厂商的 设备平台之上。然而各大物理网络设备厂商的技术、解决方案和协议可能都不尽相同,各自也 有各自支持 NSX 网络虚拟化平台的方式和方法。
在 NSX 的生态系统中,物理网络设备厂商的 名单非常之长,不可能将所有物理网络厂商的数据中心解决方案一一罗列,因此,只讲解典型 的两家物理网络硬件厂商的解决方案。 本节会介绍新兴数据中心网络品牌 Arista Networks 是如何支持 NSX 网络虚拟化平台 的。 Arista Networks 公司是一家成立仅 10 多年的网络产品公司,专注于数据中心高速交换、 SDN 和网络虚拟化解决方案,为数据中心和云计算环境搭建可扩展的高性能和超低延迟网 络,是业内最早支持 100GE 端口的硬件网络厂商之一。 Arista Networks 与 VMware NSX 合 作非常紧密,并联合提出了融合解决方案。
12.2.1 Arista Networks 网络平台介绍
与其他厂商的产品相比, Arista Networks 数据中心交换机系列提供了更高的端口密度 和极低的网络延迟,具备极强的可编程性,可以与 OpenStack、 Openflow、 VMware NSX 无缝集成。此外, Arista Networks 交换机的 EOS 软件可以提供跨所有平台的单一二进制映 像、状态故障修复、零接触服务开通、延迟分析和可访问的 Linux Shell 等。
最终,管理员可以实时响应事件并实现业务自动化,并进行可预测的故障管理。 Arista Networks EOS 软 件提供的这些高级功能如下。 LANZ(Latency Analyzer):这个功能支持网络在发生丢包前就可以进行识别,提 供主动式拥堵管理和通知,并对网络拥堵进行缓冲,可以对实时队列深度分析和 进行流式处理,并对延迟、突发数据和数据包丢失进行追踪。 网络追踪(Network Tracers):这个功能提供了网络中应用的可视性。它包括下述 功能。
VM Tracer 使网络工程师可以获知物理网络端口上有哪些 VMware ESXi 主机 和虚拟机。 MapReduce Tracer 追踪直接连接到 Arista Networks 交换机的 Hadoop 工作负载 并与之互动,以确保在发生节点故障时或拥堵链路中更快地重新平衡负载和进 行网络收敛。这是 Arista Networks 针对大数据应用开发的功能。 Health Tracer 提升了硬件和软件层面的基础架构弹性,提高了总体服务可用性。 Path Tracer 监视和检测网络中所有路径发生的问题,如二层、三层网络的 ECMP。 DANZ(Data Analyzer):实现对应用和网络性能的可视性,提供高级流量监视和 精确过滤,可以捕获所有 10/40/100GE 网络流量以对其记录和分析。
零接触预配置( Zero-Touch Provisioning, ZTP):使用标准协议自动化基础架 构的预配置,通过编写高级脚本提供定制功能,降低了部署成本并加快新服务 的上线时间,消除了人工操作导致的错误配置。它可以结合 VM Tracer 完成虚 拟化数据中心的部署的自动化。 零接触更换(with Zero-Touch Replacement, ZTR):自动化地更换交换机的预配置, 缩短了停机时间,消除了人为错误。 DevOps 集成:在本地支持 Puppet、 Chef 和 Ansible,将 Puppet/Chef 命令行工具扩 展到 EOS CLI,并允许网络状态存储、提供配置版本控制。 Arista Networks 数据中心交换机主要有如下型号。 7500E 系列:模块化核心(骨干节点)交换机,支持 10GE、 40GE、 100GE 接口板 卡,但不支持 RJ45 接口。 7300X 系列:模块化核心(骨干节点)交换机,不支持 100GE 接口,但是支持 40GE 和 10GE 接口板卡,包括 10GE RJ45 接口。
7050/7150 系列: ToR(枝叶节点)交换机。 在数据中心部署 Arista Networks 交换机有两种典型的部署方式。如图 12.5 中的左图所 示,当骨干节点交换机为两台时,使用 MLAG 技术将两台核心交换机、两台 ToR 交换机看成一个整体,实现跨设备的链路聚合。如图 12.5 中的右图所示,当骨干节点交换机大于 两台时,一般使用 VXLAN 技术实现基于物理硬件交换机的 Overlay。当然,如果不使用 Overlay,也可以配置基本的 ECMP。无论数据中心中是否使用 NSX 网络虚拟化环境,都 建议使用这两种拓扑模型。
Arista Networks 数据中心交换机产品,由于其高速、低延迟的特点,加上极强的可编程性、可视性和可从网络层面对各种应用流量进行追踪和分析的特点, 因此非常适用于一些“杀手级” 的云应用的底层网络。这些应用包括:
高频金融交易应用;
高性能计算(HPC);
集群、分布式计算;
视频点播;
网络存储访问;
Web 分析、 在线地图系统、数据库搜索查询。