结晶氯化铝2012年中国通信能源会议论文集关于UPS双总线供电系统的冗余和容错设计中国移动通信集团广西有限公司网络运营中心刘立贤摘要:本文阐述了UPS并机冗余系统和双总线冗余系统的基本架构,分析两系统在容错机制上质的区别,对两类UPS 供电系统的容错启动后系统上下游供电系统及受电设备所产生的影响进行深入研究;最后总结了UPS双总线供电架构设计需重点考虑的问题并给出指导性解决方案。关键词:并机冗余双总线冗余负载率冗余容错切换迁移1、引言随着通信网络技术的发展及公众对信息的需求的变化,当前运营商经营的通信业务已经由传统话音业务为主向不断规模化的数据增值业务来发展转变,为支撑这些日益庞大的数据中心机房(IDC)的可靠供电需求,在通信生产楼内UPS供电系统得到大规模应用。由于数据网络系统业务集成度日趋提高,1个机房、1个机柜、1台设备承载的业务系统日趋庞大,一旦出现供电中断,运营商将遭受严重的经济损失,而更重要的是由此带来的政治、社会影响更无法估量,因此,数据中心的UPS供电高可靠性要求被提到前所未有的高度。如何构建高可靠性的UPS供电系统?传统的并机冗余供电方式客观存在的单点供电故障隐患已无法适应当今数据中心供电高可靠要求,这促使近年来业界的工程设计人员在设计数据中心的UPS供电系统时已经逐步抛弃并机冗余运行方式而采用可靠性更高的双总线冗余运行方式进行方案设计。这里笔者将就双总线方案设计中几个需要重点关注的问题来进行分析探讨。85 供电技术2、双总线系统与并机冗余系统模型:2.1并机冗余模型300KW 100 图2.1 11并机冗余UPS系统模型图如图2.1,负载功率300KW,UPS系统由UPS-A和UPS-B两台300KW 机器并联构成,系统最大带载量等于单台UPS容量(300KW)。2.2双总线冗余模型图2.2双总线冗余UPS系统模型图86 2012年中国通信能源会议论文集如图2.2,负载功率为300KW,双总线冗 余供电系统是由两条独立运行的容量300KW的UPS总线构成,共同分担负荷,最大承载量等于1条总线的容量,每条总线具备50冗余度;每条总线由11并机冗余系统构成,总线内部UPS具备50冗余度;双总线供电模式的推出主要为适应双电源设备高可靠供电要求,每条总线PDU对应提供双电源设备其中1路电源的输入,单电源设备可由其中1条总线PDU供电。3、并机冗余系统与双总线冗余系统的冗余和容错对比分析3.1冗余分析3.1.1并机冗余系统:如图2.1,以负载为300KW为例,11并机冗余UPS系统模型运行负载及冗余数据如下表:表3.1.1并机冗余系统市电发电机ATS UPS1 UPS2 PDU 负载负载率100 100 100 50 50 100 100 冗余0 0 0 50 50 0 0 由上表可见,并机冗余UPS供电系统的冗余只需UPS
设备提供,UPS系统冗余度为50。3.1.2双总线冗余系统:如图2.2,以负载为300KW 为例,双总线冗余UPS系统模型运行负载及冗余数据如下表:表3.1.2并机冗余双总线系统总线1 市电发电机ATS UPS1A UPS1B PDU1 负载1路负载率50 50 50 50 50 50 50 冗余50 50 50 50 50 50 50 总线2 市电发电机ATS UPS2A UPS2B PDU2 负载2路负载率50 50 50 50 50 50 50 冗余50 50 50 50 50 50 50 由上表可见,双总线UPS供电系统的冗余不但需要考虑UPS设备冗余,还必须考虑每条总线上的供电变压器、发电机组、ATS、UPS配电输入总开关的冗余、UPS输出开关、PDU冗余、负载自身电源模块等供电环节上所有设备的冗余,是全冗余系统。3.2容错分析 3.2.1并机冗余系统容错模型87 供电技术图3.2.1 以图2.1看,当并机系统产生UPS容错场景时,故障机器退出系统,负荷由保持正常运行的UPS完全承载,如图3.2.1模型,运行负载率及冗余数据如下:表3.2.1 市电发电机ATS UPS1
杨从保UPS2 PDU 负载负载率100 100 100 100 0 100 100 冗余0 0 0 0 0 0 0 由上表可见,但系统发生冗错时,只有UPS设备(包括输出开关)承载发生变化,正常运行的UPS达到满载,其它供电环节设备维持原有负载率。3.2.2双总线系统容错模型由于双总线实际上为2个独立电源分别给负载设备2路电源供电,因此,容错场景及情况较11并机冗余系统来得复杂,考虑到UPS设备是系统中易出错设备,故分析以由UPS出错场景来分析:⑴总线内UPS故障时容错场景及负载率情况88 2012年中国通信能源会议论文集图3.2.2总线内UPS故障时容错场景如上图,以总线2为例,当UPS2B故障退服后,UPS2A将自动分担UPS2B卸去的负载,这时UPS2A负载率上升为100,该类容错场景与11并机容错场景的情况一致,即系统内其它环节的设备负载率没有任何变化,如下表示:表3.2.2 总线1 市电发电机ATS UPS1A UPS1B PDU1 ①负载1/2路负载率50 50 50 50 50 50 50 冗余50 50 50 50 50 50 50 总线2 市电发电机ATS UPS2A UPS2B PDU2 ②负载1/2路负载率50 50 50 100 0 50 50 冗余50 50 50 00 0 50 50 ⑵总线间容错运行场景及负载率情况300KW 300KW 300KW 300KW 100 100 0 0 100 100 0 0 100 0 1150KW 1150KW 20KW 20KW 图
3.2.3总线间容错运行场景89 供电技术如图3.2.3,当双总线冗余系统两条独立运行的UPS总线中的一条发生供电中断故障,例如UPS2A和UPS2B构成的并机冗余UPS 系统故障断电,容错运行情况如下表示:总线1 市电发电机ATS UPS1A UPS1B PDU1 ①负载①负载2 1路路负载率100 100 100 100 100 100 100 0 冗余0 0 0 0 0 0 0 0 总线2 市电发电机ATS UPS2A UPS2B PDU2 ②负载②负载2 1路
翻译论坛路负载率0 0 0 0 0 0 100 0 冗余0 0 0 0 0 0 0 0 为什么双总线冗余与并机冗余有如此大的变化,我们从负载侧来分析,当1条总线断电,对应从该故障总线PDU上引电的双电源负载设备内部的1路电源模块将失去电源,此时负载设备自身的双电源切换机制,将失电的该路电源模块上负荷无缝自动迁移到另1路电源模块上,该电源模块负何将增加1倍,而该正常的电源模块的供电则来自另1条正常运行的总线,因此,正常工作的总线自然就接收了故障总线上负荷,当负载全部为双电源设备时,这时正常总线负荷将增加1倍,该总线链上所有串接设备的负载率都将增加1倍,如上表模型数据。4、双总线供电系统设计以上分析的情况给出一个非常明确的结论,即并机冗余UPS系统是通过UPS间的冗余来完成容错功能的,而双总线冗余系统则是通过总线间的冗余来完成容错功能的(若总线本身为并机冗余系统构成,则还需加上UPS间冗余容错)。从上述模型图的分析,正常运行模型和容错场景模型很清楚看出,要实现总线间冗余容错,则每条总线链上串联的各承载设备、开关、线缆等必然需要设计相同比例的冗余,冗余量等于容错接收迁移的负荷量;正因为双总线冗余供电系统是全冗余运行系统,所以,设计双总线UPS供电系统时应对总线链上各承载设备都设计足够的相同比例的冗余量,两条总线的容量必须完全对称。为便于分析,我们把总线链路简化为串接链路,而将链路中设备划分为上游设备,包括变压器、油机、ATS、低压配电总开关;中游设备为UPS;下游设备包括通信机房UPS供电分配柜、负载机架配电单元、负载机架配电单元内分路开关。人因工程
4.1 全冗余容错条件及架构设计为了使双总线供电系统真正发挥架构上的优势,提供负载高可靠供电,
架构设计就很关键。这里本人提出全链路理念,即要实现UPS双总线的全冗余和容错,应具备以下3个条件:①两条UPS总线对于负载端供电路由来讲是完全隔离的;②两条总线供配电设备容量相等(全链路);③每条总线可独立承
载全部的负载量。若设计方案中有任意1个条件不满足时,则该总线冗余容错是不完整的,甚至无法实现冗余容错,故设计时应加以避免此类情况。典型的架构设计如图2.2。4.2上游电源设计架构设计决定了总线的冗余量和容错性能,以UPS负载来分析,其上游的设备全部应作为电源系统来进行设计,是总线设计的关键。我们知道,对于每条总线都可以以链的概念进行分析,链的概念和水桶理90 2012年中国通信能源会议论文集论非常一致,也就是说,这些链上设备必须同时具备同等的冗余率和容错性能才能实现整条总线链的完全冗余容错,否则,其冗余容错能力取决于链上的最小值。因此,对于总线一方的上游设备即市电变压器、发电机组、ATS、低配总开关必须预留足够的冗余量来满足负荷关联一方总线出错时该总线负荷迁移过来的容量需求,这应是双总线系统上游电源设计的一个基本原则。理想情况下的双总线供电链模型的冗余设计在表3.1.2可以清楚给出这些冗余率。4.3下游电源设计 4.3.1二级配电设计所谓二级配电,一般这里指UPS系统输出配电屏的分路开关起到机房配电分屏输入开关的配电路由,该路由的设计需要注意以下几点:①UPS 系统输出配电屏分路输出开关容量和短路分断能力应大于等于安装于负载机房的配电分屏的输入开关;②总屏输出分路开关和配电分屏输入开关应采用电子脱扣装置的断路器,做好短路选择性设计;③配电分屏输入应取自UPS配电总
屏内两路分路开关,配电分屏输入开关对应配置两路;每路开关电流负载率应控制在40以下,这样的目的将确保屏内和屏间的冗余容错,使正常开关、电缆维护时避免不必要的负载供电切换和单电源负载的供电中断;④每条总线在负载机房应设计配置独立的配电分屏,为确保故障完全隔离。4.3.2三级配电设计所谓三级配电,一般这里指负载机房配电分屏的输出分路到各机柜上的配电分配模块输入开关的路由配电,该级配电设计需要注意一下几点:①配电分路开关(一般是微型断路器)容量和短路分断能力值应大于等于安装于机柜的配电模块的输入开关(微型断路器)的对应指标;
②该级配电开关应采用同品牌开关,这对确保正确的短路或过载动作选择性是必要的;③机柜内应设计两个电气上的完全隔离、载流量相等、分路位置配置对称的配电分配模块(有独立的输入、输出开关、零线排),两个模块供电应对应取自不同总线配电分屏;每个配电模块电流负载率(一般指模块输入总开关负载率)应控制在40以下,这样的目的将确保双总线架构供电的冗余容错。4.4双总线供电系统的负载侧电源接入设计4.4.1双电源负载设备双电源负载设备的两路电源取电应设计分别来自两条总线对应的PDU或机柜配电模块,且位置上呈对称性。4.4.2单电源负载设备机柜内的多个单电源设备的接入可均分到两个配电模块内,以利于分散这些设备承载的业务风险。4.4.3主、备业务设备为单电源供电的情况91 供电技术⑴柜内主备方式对于主、备业务单电源设备安装在同一机柜内的,主设备应从主配电(来自1条总线)开关模块取电,备设备应从备配电(来自另1条总线)开关模块取电。⑵柜间主备方式对于主、备业务单电源设备安装不在同一机柜内的,主设备应从所在机柜的主配电开关模电刷镀溶液
块取电,备设备应从所在机柜的备配电开关模块取电,即应符合主、备设备从不同供电总线取电的原则。… 理论上采用双总线模式进行UPS供电方案设计已经使得整个UPS供电系统达到很高的可靠级别,但任何系统都不会是无懈可击的,因此有必要在实际方案设计中进行优化设计,增加安全加固设计。笔者认为,采用UPS进行供电,必须避免出现负载处于旁路供电状态,因为,旁路供电意味着直接由市电进行供电,对于这些必须采用UPS供电的负载来讲
无疑是失去可靠供电的意义,因此,高可靠的UPS供电系统,都必须满足这样一个原则:负载应处于连续稳定的UPS逆变模式供电。以图2.2为例,从架构来看,该双总线系统已经匹配双电源设备供电要求,从UPS负载率来看,理论上也满足总线内、总线间冗余容错的容量要求,而实际设计中为确保冗余容错状态的稳定可靠,一般对UPS 容量进行预留,即负载率由50/台降低至40/台。似乎这样就能确保双总线运行模式达到其架构具备的最高安全性,其实不然,从图2.2看,从UPS方面来分析,系统由2套11并机冗余系统构成的双总线,UPS单机负载率在双总线运行模式下与在11并机冗余模式相比没有发生变化,这似乎是个很容易实现高可靠供电的改造方案,的确实际建设工程中很多设计人员基本上沿这样的思路考虑方案,但笔者认为,目前简单地将11并机系统构成双总线供电系统,且负载率仍保持并机系统的负载率,在实现容错机制上仍有一定的缺陷,下面是笔者以负载率变化法来进一步模拟分析双总线冗余容错执行情况:表5.1:UPS负载率按常载40/台设计序号出错场景UPS1A UPS1B UPS2A UPS2B 供电备注 1 UPS1A出错0 80 40 40 正常
创造性思维的例子
系统达到负载2 UPS1总线出错0 0 80 80 正常率设计安全性上限UPS1总线出
错负载失去不间3 UPS2A(或0 0 旁路旁路异常断供电保障UPS2B)从场景3看,这时的双总线供电系统已处于供电不可靠的状况,负载随时可能出现供电中断,此场景出现的可能性是双总线系统架构自身固有存在的,从理论上虽然发生这种情况的概率是极少的,概率极低,但不代表不会发生。笔者认为,假如我们可承受这种概率,那就认可这种方案,假如认为有必要避免这种概率事件的发生,那就有必要进行加固设计,特别是按这种负载率设计的双总线系统中存在关联的负载量已经是11并机冗余系统的2倍,若场景3情况发生,将带来非常严重的后果。比较简单的设计思路是通过降低单机负载率实现架构的最大冗余容错安全性,如下表分析:92 2012年中国通信能源会议论文集表5.2:UPS负载率按常载25/台设计序号出错场景UPS1A UPS1B UPS2A UPS2B 供电备注1 UPS1A出错0 50 25 25 正常2 UPS1总线出错0 0 50 50 正常UPS1总线出错系统达到负载率设3 UPS2A(或0 0 0 100 正常计安全性上限UPS2B)从上表看,在按25/台设计UPS负载率后,虽然双总线的容错能力实现了最大化,但这也带来了UPS的负载率明显偏低的情况,从投资和运行效益来讲一般难以得到决策者的认可,故该种加固设计方案一般只适用于最核心的业务系统供电设计。在此,笔者提出一种适用于大型生产局楼双总线UPS供电系统的“N1(N为偶数)设计方案”,该设计方案基于笔者提出的“稳定容错”理念,笔者认为,在表5.1的负载率方案设计中,出现场景2、场景3容错时双总线供电系统可靠容错时间都不能持续,是有限时的容错,是不能长期持续的。当纯粹从单台UPS的80负载率讲,理论场景2应
该是稳定的,但由于总线内部是并联冗余系统,其自身内在有向场景3演变的可能,请注意,是“内在”的可能,容错后架构自身仍存在进一步出错的可能性就说明系统容错是不稳定的,.