4 基础设施建设

除了超算集群的建设外,对于超算中心基础设施的建设也非常重要。基础设施建设主要包含机房的设计与实施,机柜、电源、冷却设备安装等。可靠的基础设施安装及运维制度的规范化是集群未来持续稳定运行的基石。

在本节中,我们将以π 2.0集群的建设为例,对于高性能计算集群机房的基础设施建设进行介绍。

π 2.0集群建于2019年,机房总面积约130平方米。集群额定功率580kW,其中IT设备额定功率350kW,人工智能计算平台额定功率80kW,制冷、配电设备额定功率150kW。单机柜额定功率13kW,机柜总数28个,PUE约1.41。

4.1 机房设计依据

在多次现勘及深化设计过程中,π 2.0机房设计主要遵循了如下国家相关规范标准:

  • GB50174-2017《数据中心设计规范》
  • GB/T 2887-2011《电子计算机场地通用规范》
  • GB9361-2011《计算站场地安全要求》
  • GB2887-2011《计算站场地技术条件》
  • GB50311-2016《综合布线工程设计规范》
  • GB50263-2007《气体灭火系统施工及验收规范》
  • GB50016-2018《建筑设计防火规范》
  • GB50504-2011《低压配电装置及线路设计规范》
  • GB50314-2012《智能建筑设计标准》
  • GB6650-86《计算机机房用活动地板技术条件》
  • JGJ/16-2008《民用建筑电气设计规范》
  • GB50254《电气装置安装工程施工及验收规范》
  • GB50210《建筑装饰工程施工安装及验收规范》
  • GB50462-2015《数据中心基础设施施工及验收规范》
  • GB50116-2013《火灾自动报警系统设计规范》
  • GB50054-2011《低压配电设计规范》
  • GB50222-2001《建筑内部装修设计防火规范》
  • GB50210-2001《建筑装修工程质量验收标准》
  • GB50300-2013《建筑工程施工质量验收统一标准》
  • GB50325-2010《民用建筑工程室内环境建筑污染控制规范》。

4.2 配电系统介绍

4.2.1 配电系统拓扑

π 2.0集群的配电系统均为N+1冗余,末端服务器一路接市电,一路接UPS电。总入户配电柜引入两路独立来源的市电,经ATS后进入UPS输入输出柜,常用电通过上联母排进入市电输出柜。两组输出柜分别引入两个微模块的列头柜的AB路,再分配到每个机柜的PDU。总入户配电柜配置了两个1250A的塑壳断路器,市电及UPS输出为630A塑壳断路器,列头柜上每个PDU的输出为63A断路器。

配电系统

图4.1: 配电系统

4.2.2 电缆及走线

π 2.0集群所有计算机设备和其他用电设备的电源线均采用优质低烟无卤A级阻燃铜芯电缆,金属桥架与镀锌管屏蔽的方式,防止外界的电磁干扰,保证计算机设备供电电源的电能质量。机房供电线路采用放射式配电方式,不同类别分路控制。主干线缆机柜下方走线,计算机、网络设备机柜供电线缆均设计采用贴机柜顶部铺设。线管采取分层架空布置互不交叉,每个回路采用独立的电管安装,不同防火区上方采用镀锌金属线槽方式跨接,跨接处采用防 火泥封堵,接入采用金属网格桥架机柜上敷设。

走线一览

图4.2: 走线一览

4.2.3 列头柜及PDU

π 2.0集群采用列头柜入列的模式,即和其他标准机柜与空调一起封闭为微模块。每个列头柜配置 630A/3P 的开关2只 ,63A/3P 开关32只,16A/1P 开关4只,加表头、防雷装置。

列头柜

图4.3: 列头柜

4.2.4 UPS系统

π 2.0集群配置了1台800KVA高频模块化UPS设备,供给所有IT设备使用。该主机共配置20个CM40KVAUPS功率模块,18用2备,系统可用容量为720KVA,单机模块总容量为 800KVA。系统内所有模块,包括功率模块、旁路模块、控制模块均为热插拔,在线自动切换。电池采用了锂电池作为UPS的后备蓄电池,设计的后备时间为15分钟。

UPS主机

图4.4: UPS主机

4.2.5 防雷系统

π 2.0集群机房防雷系统使用三级防雷的架构,对机房供电设备进行电源防雷保护。

  • 第一级防雷:在机房内市电输入端,安装第一级电源防雷器,通流容量为 80KA,响应时间< 25ns,做第一级电源保护。
  • 第二级防雷:在机房内 UPS 输入端,安装第二级电源防雷器,防雷模块最大放电电流可达到 60KA。响应时间< 25ns,做第二级电源保护。
  • 第三级防雷:在机房强电列头柜内,安装第三级电源防雷器,防雷模块的标称放电电流 40KA,响应时间< 25ns,做第三级电源保护。

4.3 空调系统介绍

π 2.0集群的空调系统由12台列间冷冻水精密空调与1套水冷冷冻水室外机系统组成。

4.3.1 冷冻水室外机系统

π 2.0集群的冷冻水室外机系统由螺杆式冷水机组2台(一用一备)、冷却塔2台(一用一备)、循环水泵6台,冷却侧及冷冻测各3台(二用一备)、定压补水装置1组、自动加药装置2套、软化水装置1台、软换水箱1件、10吨冷冻水储水罐1件、板式换热器1件。冷冻水室外机系统除管路外的核心部件基本都做到了冗余,水冷冷水机组的制冷量也留有一定的余量。

室外机系统

图4.5: 室外机系统

冷冻水机组

图4.6: 冷冻水机组

4.3.2 机房列间冷冻水空调系统

π 2.0集群的机房内列间空调共配置了12台克莱门特(单机制冷量为 66.1KW)冷冻水型列间空调,10用2备,即每个微模块5用1备。冷冻水型行间空调无压缩机,日常工作仅室内EC风机工作,并可调节相关运行参数,日常运行成本较低、运维简单、维修快速。在安装室内列间空调进出水管的外围,采用8#槽钢制作防水围堰,内部涂刷JS防水涂料。防水围堰加设漏水报警线,如有水情可及时报警,减少损失。

列间空调

图4.7: 列间空调

4.4 机房环境介绍

4.4.1 动力与环境监测系统

π 2.0集群采用统一管理平台,系统实现24小时无人值守,当设备出现故障的时候,任意监控子系统出现异常,系统及时通过短信的方式告知管理员,同时该平台可以通过标准的SNMP协议输出信息提供给其他监控平台。该平台配置动力环境监控系统主要包括以下监控内容:空调监控系统、温湿度检测系统、漏水报警监控系统、烟雾监控。

动环平台

图4.8: 动环平台

4.4.2 微模块封闭热通道系统

π 2.0集群采用热通道的封闭,地板边沿采用密封处理,使得冷热气封闭在极小的区域内,冷气、热气不外泄到其他区域,避免了冷气与热气流混合,有利于解决局部热点问题,提高冷量利用率。规范机房内的气流组织,优化空气调节效果,有利于气流组织的均衡,降低制冷成本。顶部天窗隔板与通道封闭移门开合可实现消防联动,并具有手动强行打开和关闭功能。通道封闭移门和顶部天窗隔板为钢化玻璃或阻燃 PET,且顶部天窗隔板预制照明模块补偿热通道内的照度。明显降低空调风机功耗,实现节能。

微模块系统

图4.9: 微模块系统

4.4.3 气体消防系统

π 2.0集群采用无管网七氟丙烷自动灭火系统,该产品设计合理、技术先进、产品性能安全可靠同时采用新型节能环保材料,其主要指标达到国内领先水平。各项指标均符合经国家固定灭火系统技术委员会审查的 Q/HSB07-2001《七氟丙烷(HFC—227ea)洁净气体灭火系统》的标准要求。另外,气消系统与大楼原有的消防系统保持同一品牌,便于火灾自动报警灭火系统并与大楼联网,实现与大楼消防联动。

消防系统

图4.10: 消防系统

4.4.4 部分节能举措

π 2.0集群经过约四年的运行,积累了一些有效的同时也相对方便执行的节能举措。首先,是调高冷冻水的出水温度,最初厂家给出的值是10摄氏度,后期经逐步调整设定为13摄氏度。当冷冻水出水温度提升1℃,螺杆式冷水机组的功耗也会下降约1-1.5%,不过该参数的设定需要看螺杆式冷水机组冷冻水出水温度的上限,一般最高设置到15摄氏度。此外,有部分大型数据中心、国外大型超算的做法是夜晚利用电力谷峰时段将冷冻水出水降低到5摄氏度存入大型蓄冷罐,白天利用蓄冷甚至可以不开启冷水机组或者其冷冻水出水温度在10摄氏度以上。 其次,我们在冬季当日最高气温小于10摄氏度的情况下,开启板换系统,充分利用自然冷却,此举措大概可大幅减少螺杆式冷水机组的运行时间,达到实现节能的效果,降低PUE的目的。