高可用性需求是数据中心最重要的需求之一,因为数据中心承载着网络中的重要事务数据,所以事务的高可用性(即事务的连续性)遭到极大重视。不同等级的数据中心对网络的高可用性有着不同的要求,但设备和链路的冗余规划是最基本最遍及的要求,而差异首要在于网络毛病对事务康复的快慢影响。对数据中心而言,高可用性涉及到网络、服务器、存储、电力、制冷等多个方面的要素,本文首要论述数据中心网络架构的高可用需求以及典型测验事例。
1 数据中心HA规划需求
1.1 数据中心HA规划的重要性
网络中节点和链路的毛病总是无法完全避免的,所以进步网络可用性的重要办法之一是全体架构的冗余规划,经过设备或链路失效时的备份接收,尽量削减体系的毛病康复时刻。
表1是不同等级的可用性与总毛病时刻(以一年为时刻段)的对应联系表:
表1 不同等级可用性与一年内的总毛病时刻的对应联系
为什么数据中心网络的可靠性如此重要呢?简略来说,有以下几个方面原因:
1、事务的多样性和高度会集性
无论是从机房规划、事务品种,仍是架构杂乱性方面,今日的数据中心都在快速扩展。高功用服务器、虚拟化和高速以太网等新技能都着眼于将多种流量类型,如数据、存储、视频和语音等汇聚在单一的网络架构中。事务的高度会集使得网络毛病的影响和丢掉扩展,然后也进步了对网络可靠性的需求。
2、超大型数据中心对高可靠性的需求
超大型数据中心,尤其是一些重载型数据中心,其对网络的利用率及链路带宽的运用具有很高的比率。按一条60%利用率的10GE链路来看,即便中止0.1秒也会丢掉600M左右的数据。假如依照5个9的规范核算,一年累计中止5.256分钟即 315.36秒,一条10GE链路将丢掉大约1.892T的数据。越是要害的方位,网络毛病的影响将越加严峻,当然对HA的才能要求越高。
3、高速链路带来的丢包危险
相同重要的是,现在数据中心边际端口正变得越来越快。正如服务器中的千兆以太网接口推进了交流机的万兆以太网的布置相同,服务器万兆接口的遍及也将推进数据中心中心网对40GE和100GE以太网的火急需求。带宽的添加天然会对中心网带来更大的HA危险。40GE或100GE的链路毛病带来的丢掉愈加严峻,假如链路承载了要害事务的重要数据,这样的丢掉将是不行承受的。用户对可用性的要求跟着设备功用的进步,只会越来越严苛。
4、云核算对基础设施高可靠性需求的进步
现在云核算正逐步成为一种实践,而且越来越多的私有云和公共云的布置运用都现已充沛证明了其存在的含义。基础设施即服务(IaaS)的吸引力也在不断添加。有多种才能能够增强IaaS云的可用性,例如实时搬迁、动态资源调度和主动重启等。虚拟机的实时搬迁产生了额定的网络流量,这关于现已处于高负荷状况的网络提出了额定的需求,所以实践的成果或许导致功用或可用性的进一步恶化。网络延时和丢包会导致虚拟机搬迁的失利,在实时搬迁过程中丈量虚拟机的停机时刻,以及大规划虚拟机搬迁的成功率等都是数据中心HA的新重视要害。
1.2 大局测验与数据中心HA
跟着数据中心网络的不断改动和开展,一个要害的问题是:怎样才能尽或许的了解实在网络的HA毛病切换目标?这种状况下,大局性的测验办法有助于确保完成杂乱的相关功用和多设备的组合运用。“大局测验”不只能够测验单个数据中心组件,而且能够丈量整个数据中心的才能,并产生有含义的成果。大局测验还能够包括TCP/IP的一切层次,而且能够丈量经过数据中心网络恣意途径的流量。在一个数据中心环境中,大局的HA测验意味着不只是只对单个网络组件的HA功用进行测验,还要确保每一个组件与数据中心其它新旧组件配合起来协同运作的可靠性和全体的HA才能。
大局测验的特色是依据实在运用的流量模仿来衡量网络的全体目标,经过对流量特征的结构模仿,准确核算网络的功用、功用和HA各项目标。依据测验定论剖析评价网络全体架构的合理性、扩展性等,为网络优化供给数据参阅。经过选用大局性的全体计划验证和功用丈量办法,能够使这种杂乱体系的测验评价愈加简化。
2 大局的HA测验办法
2.1 流量模仿
数据中心的事务流量首要分为服务器之间的内部流量和用户端与服务器之间的外部流量,也称为“东西向”流量和“南北向”流量。对应RFC规范中界说的测验流量类型则是“非网格型”和“部分网格型”,两者的组合能够看作“全网格型”。因为转发途径和设备的处理办法不同,HA测验中需求一起重视这两类流量的毛病康复状况。如图1所示。
图1 数据中心流量模仿
2.2 毛病事情模仿
经过模仿网络失效来核算HA目标,能够简略的将失效归类为链路毛病、板卡毛病、设备毛病、多设备毛病和站点毛病。这些毛病事情产生的概率顺次下降,所以HA测验的重视点首要会集在链路、板卡和设备毛病上,这也是数据中心网络HA规划的最基本要求。常用的操作办法为接口的Up/Down 、线卡的拔出/刺进、机框的加电/断电等,特别状况下也能够经过测验仪或被测设备的体系软件功用来模仿HA事情。
2.3 HA测验量化核算
经过HA测验,不只能够验证被测体系在某些反常状况下是否能够确保功用的可用性,一起也能够经过准确核算得到事务流量中止的量化目标。经过测验仪器结构必定速率的数据报文经过被测体系转发,模仿某些毛病状况下的报文丢掉并核算出数量,然后核算出流量的中止时刻,来衡量被测体系的HA功用目标。核算公式如下:
毛病失效康复时刻=(发包端口发包数-收包端口收包数)÷ 链路转发速率
也能够经过L4-L7层测验仪模仿上层事务交互来更直观的了解被测体系在各类反常状况下对事务的影响。如图2所示。
图2 BPS测验仪显现TCP新建衔接颤动状况
关于经过测验仪建议或参加的模仿网络事情的测验项,还能够经过测验仪本身供给的高精度采样功用来愈加准确核算设备或网络的功用。例如,在经过测验仪发送路由表项来测验设备的路由学习功用时,能够经过如图3所示的高精度采样功用来核算时刻。
图3 TestCenter测验仪显现的高精度采样功用
3 数据中心HA测验事例
3.1 IRF典型组网HA测验
图4 数据中心IRF典型组网
如图4所示,这是典型的数据中心网络(接入5120+中心12500)两层拓扑结构,中心层两台 S12500选用IRF形式,能够简化网络逻辑结构,进步设备利用功率并简化网络办理。接入层选用5120EI交流机做二层双上行接入,接入层链路为跨机筐链路聚合。出口设备选用SR6600路由器与12500交流机运转OSPF或BGP路由协议,12500与SR6600之间都为双上行三层等价链路。其间,SR6600模仿了广域网出口设备,但在实在场景中运用高端交流机较多。5120EI和SR6600别离衔接两个运用层测验仪(结构具有状况特征的 UDP和TCP流量)端口。经过对设备毛病和链路毛病的模仿,能够直观得到组网中运用层事务的收敛时刻、IRF和LACP的HA切换时刻等。
需求准确核算时,能够用测验仪以规范报文巨细模仿跨S5120EI和SR6600的南北向一般三层数据流,并以Full Mesh办法进行测验。记载反常状况下大局体系的丢包数量然后核算HA中止切换时刻,重复测验3次记载均匀数据,如表2所示。这些数据关于评价网络全体的 HA才能,优化运用层事务布置都有重要含义。
一般流量丢包状况(带宽500Mbps,128字节,422297 FPS)
表2 常见的IRF毛病模仿和测验数据
经过测验数据能够很直观的了解到整个网络架构中各种运用在不同类型的毛病状况下HA收敛的好坏目标。比方表2所示,链路中止的HA收敛时刻好于设备重启的,设备重启与交流机主控毛病的HA时刻附近,交流矩阵毛病中止时刻最长等等。在了解到这些反常状况对网络的影响程度后,便能够有针对性的经过网络规划和优化装备加以改进,然后添加整个网络架构的HA才能。
3.2 路由典型组网HA测验
图5 数据中心路由功用HA测验组网
图5的测验组网也模仿了典型的数据中心网络。接入层交流机运用两台实在设备,在大标准测验项中会运用测验仪模仿更多的接入交流机。中心设备之间选用一般的三层路由结构,机房或站点间的出口设备“MAN Core”选用一台高端交流机模仿,MAN Core经过多条等价三层链路与内部中心Core1和Core2衔接。
初始状况下,测验仪端口1(与Access1相连)发向端口2(与Access2相连)的东西向流量是不通的。在测验仪端口2上发布路由后,等候各设备都学习到路由后才会收到报文。记载测验仪从发布路由到测验仪收到流量的时刻差,这个差值便是全网路由学习时刻。因为选用传统的丈量流量图记载时刻的办法差错较大,能够选用TestCenter3.7版别中的高精度采样功用来核算学习时刻。如图6所示。
图6 TestCenter高精度采样
为了测验的便利与准确,选用了TestCenter软件中的command sequence功用履行流量、路由及采样触发的操作:
吊销路由-》中止流量发送等候10s-》铲除一切计数-》等候5s-》开端发送流量-》等候5s-》开端高精度采样-》等候5s-》发布ospf路由-》触发高精度采样。
command sequence履行完成后,等候高精度采样进行10s,然后点击端口高精度采样视图下的show chart:
红线为开端动身发布路由的时刻,蓝色线为流量曲线,丈量两个时刻的时刻差便可得到路由在网络中的学习时刻。
Access2相连的测验仪上发布、吊销一条路由,在Access1设备上学习到的时刻,咱们别离运用OSPF和BGP两种路由协议测验10次的成果如下:
BGP :
吊销均匀值:8.06ms;发布均匀值:1.57s
OSPF:
吊销均匀值:7.88s;发布均匀值:1.29s
测验成果表明BGP路由的吊销收敛时刻显着优于OSPF.为了下降网络毛病对事务的影响,进步数据中心内部的HA功用,选用什么样的路由协议一向被许多用户所重视。关于路由协议的运用,有一些传统的运用形式,比方在数据中心内部OSPF是被咱们广泛认可、运用较多的路由协议。而BGP是广域网上简直肯定的域间路由协议,但它只用于广域链路的观念正在慢慢地被改动。依据上述的测验成果,越来越多的用户也会逐步认可并开端实践选用BGP作为站点内部路由协议的解决计划。
4 结束语
经过大局的组网HA测验,咱们能够模仿数据中心实在的运用场景和事务类型,直观和准确的了解不同类型的毛病下HA的收敛状况。也能够了解不同技能和协议在特定组网中的HA功用比照状况,依据其特色和优劣势来做出挑选,然后更好的规划和优化用户的实在环境。