本文深入浅出地解释了数据中心能耗评价指标电能利用效率PUE的基本概念和发展历史, 并对数据中心能耗构成及对PUE计算的影响进行了分析, 阐述了影响PUE值的各项重要因素, 总结了目前业界数据中心节能的主要方法并提出相关建议。
一、PUE基本概念
1. 定义
电能利用效率 (Power Usage Effectiveness,PUE) 是2007年由美国绿色网格组织(The Green Grid, TGG) 提出的用以评价数据中心能源利用效率的一种指标, 目前被国内外数据中心行业广泛使用。根据TGG的定义, PUE计算公式为:PUE=Pt/PIT,其中Pt为数据中心全年总耗电量, 单位是KWh;PIT为数据中心的IT设备全年耗电量, 单位也是KWh。数据中心IT设备的耗电量是包含在数据中心总耗电量内, 所以PUE是一个大于1的数值, PUE值越低, 说明数据中心用于IT设备以外的能耗越低, 越节能。当前, 国外先进的数据中心PUE值通常小于2。2015年我国工业和信息化部、国家机关事务管理局和国家能源局在《关于印发国家绿色数据中心试点工作方案的通知》中指出:我国数据中心大多数的PUE仍普遍大于2.2, 与国际先进水平存在较大差距。
在研究PUE时, 很有必要对两大重要组织做简单介绍。一个是上文提到的绿色网格组织(TGG) 。它是一个全球性非营利机构, 致力于开发影响深远而又不受任何平台约束的技术标准、测量方法、处理流程及新技术, 力求提升数据管理方面的能源效益。TGG在2012年发布的第49号白皮书《PUE:指标的综合检验》中对TGG之前出版的有关PUE的文件进行了全面梳理和总结, 重新给出了PUE的定义和计算方法。另一个组织是美国供暖、制冷与空调工程师学会 (ASHRAE) 。无论是在美国还是在全球, ASHRAE都是数据中心最重要的技术资料来源。ASHRAE在2016年发布公告称PUE只适合对运行中的数据中心的效率进行评价, 而不适合于数据中心的设计, 因为在设计过程中无法准确地确定系统的PUE。
这里需要关注的是, 即使后续在PUE基础上衍生了各种指标, 基于PUE的测量值都是一段时间内的耗电量, 而不是瞬时的功耗。用瞬时功耗的比值来计算PUE, 不能体现数据中心的能耗水平。TGG也明确指出:在计算PUE时, 最佳实践是自动、实时监控, 每隔15分钟或者更短时间间隔内采集数据;当报告PUE值时, 数据中心的所有者应使用一年内的平均PUE值。因此, 在给出PUE值的同时, 必须说明测量周期或者测量的时间点。同时, TGG也明确指出, 不同数据中心的PUE值不能进行简单的比较。
2. 采集点
TGG给出了PUE计算时的三种测量采集方法。数据中心总耗电量Pt都是电力公司对数据中心的输入。如果数据中心所在的建筑物是多用途的, 必须对数据中心的总耗能进行识别, 需要减去办公区域的用电。但是用于数据中心技术支持的总控中心的用电必须包括在内。IT设备总耗电量PIT的采集点有三种:第1级是基本级别, 采集点是UPS的输出;第2级是中级级别, 采集点是机房内配电柜的输出;第3级是高级级别, 采集点是机柜内电源插座的输出, 也就是IT设备的输入, 具体见表1。这三种计算方法的采集点对电力使用的功耗或电量的采集的颗粒度要求逐级提高。目前, 我国多数数据中心采用的是第1级的采集和计算方式。因此, 得到的PUE数值也比第2级和第3级数值更低。
3. 片面性
目前, 业界公认PUE是一个片面的指标, 有局限性。最明显的一点是, 当采用虚拟化等技术时会大幅降低IT设备的数量和耗电量, 从而实现降低电费这一最有实际效益的目标。但是, 数据中心IT设备耗电量降低时, 数据中心总耗电量并不会同样程度地降低, 两者之间不是简单的线性关系, 这就造成了数据中心PUE值反而增大。因此, 业界十几年来尝试研究其他更为科学的指标。这些衍生而来的性能指标主要包括:ASHRAE提出的暖通空调负载系数(MLC) 、供电损失系数 (ELC) ;TGG提出的IT设备热一致性 (ITTC) 、IT设备的容错性(ITTR) 、水利用效率 (WUE) 和碳利用效率 (CUE) ;ISO提出的可再生能源系数 (REF) 、服务器能源效率 (ITEE) 等。但是, 多数新提出的衡量指标由于偏学术或者计算复杂, 很难被接受。因此, PUE仍是目前数据中心能耗衡量的最重要指标。2016年4月15日, 国际标准化组织发布了ISO/IEC 30134-1标准, PUE被称为数据中心的“关键性能指标”。
4. EEUE
在国内, 由于意识到PUE指标的片面性以及业界在应用时的随意性, 2016年我国发布了GB/T 32910-2016《数据中心资源利用第3部分:电能能效要求和测量方法》。该国家标准参照PUE, 重新定义了EEUE (Electric energy usuage effectiveness) 。EEUE在计算公式上与PUE相同。该国标对EEUE的测量、计算方法进行了统一的规定, 明确提出了我国数据中心电能能效要求, 将数据中心按其电能使用效率值的大小分为节能、较节能、合格、较耗能和高耗能五级。同时, 该标准在充分考虑我国国情的基础上, 根据数据中心的制冷技术、使用负荷率、安全等级和所处地域的不同, 制定了能源效率值调整模型。通过该调整模型可以实现不同数据中心的比较, 从而形成全国范围内数据中心能效的统一比较标准。GB/T 32910-2016也明确指出, 电量数据的标准取得方法是使用电能计量仪表统计的方式, 而不是使用功率表以抽样法测量的方式获得。
表1 PUE能耗采集点
5. pPUE
PUE是衡量整个数据中心能耗效率的指标。TGG和ASHRAE都在PUE的概念上给出了pPUE的定义:某区间内数据中心总能耗与该区间内IT设备能耗之比。这里的区间或者范围可以是实体, 如集装箱、房间、模块或者建筑物;也可以是逻辑上的边界, 如设备或对数据中心有意义的边界。pPUE只适用于数据中心区间能耗的研究。
二、数据中心能耗构成及分析
PUE的计算公式为数据中心总耗电量与IT设备耗电量的比值。要降低数据中心的PUE值, 首先必须对数据中心的能耗构成进行分析。数据中心能耗主要包括IT设备能耗、供配电系统能耗、制冷系统能耗、照明及其它能耗。数据中心PUE计算的能耗构成如图1所示。
图1 PUE计算的能耗构成
PUE计算公式可改写为:
PUE= (PIT+P制冷+P供配电+P其它) /PIT
关于数据中心能耗构成的比例, 国内外很多企业和学者都做了大量的调查与研究, 虽然研究结果中各部分占比不尽相同, 但能耗构成因素及排序基本相同。在一个PUE约为2的传统的数据中心总能耗中, IT设备能耗占比最高, 约为50%;其次是制冷系统能耗, 约占35%;再次是供配电系统能耗, 约占10%, 其中最主要的是UPS设备的能耗, 次之是变压器设备的能耗;最后是照明及其他能耗, 约占5%。这里的其他能耗主要包括:安防设备、消防设备、电梯、传感器以及数据中心管理系统的能耗等。不同数据中心即使PUE值相同, 能耗占比也不同, 上述数字仅供参考。PUE为2的传统数据中心典型能耗构成如图2所示。
图2 传统数据中心的能耗构成
根据数据中心能耗构成和PUE的计算公式, 降低数据中心制冷系统的能耗, 对降低PUE值最有效。因此, 数据中心的节能措施主要围绕降低制冷系统的能耗开展。传统数据中心采用的风冷制冷方式是最耗电的运行方式。近十年来新建数据中心基本上都采用水冷式的机房空调系统, 能耗比风冷系统低。大幅降低数据中心PUE的有效措施是采用自然冷却方式,最理想的是完全不采用消耗电能的机械制冷方式, 例如引入室外空气配合蒸发冷却进行制冷。要实现这种方式, 一方面数据中心需要选址建设在温度较低的寒冷地区;另一方面, 可适当提高机房运行温度, 最大程度地利用室外空气进行自然冷却。
近年来, PUE被严重商业化, 不少数据中心声称其PUE值已低于1.2甚至1.1。然而, 这些公司绝大多数未给出具体采用的节能措施、PUE的测量方式和计算方式等细节。业界也出现了人为操纵PUE值的现象, 例如, 有人选择了最佳的测量时机, 在户外很冷、照明系统全部关闭及用户几乎不在线时测量, 甚至关闭冗余制冷系统才进行测量, 这时测得的PUE值当然会很低, 但该值已经远远偏离了事实。
抛开这些违背事实的宣传, 若要大幅降低PUE值, 需要采用特殊的架构和技术。经分析,业界宣称做到极低PUE值的数据中心一般具有如下部分或者全部的特征:
(1) 采用各种自然冷却技术, 不使用或者较少使用机械制冷。这样数据中心总能耗中占比最高的制冷系统能耗大幅降低。
(2) 采用市电直供技术。由于没有UPS设备, 供配电系统能耗中占比最高的UPS设备能耗就没有了, 从而使PUE计算公式中分子部分的数据中心总能耗降低。
(3) 该数据中心为低等级数据中心, 供配电系统和制冷系统部分或者全部采用无容错或无冗余设计。这样, 供配电设备和制冷设备数量大幅减少, 大大降低数据中心总能耗中的供配电系统能耗和制冷系统能耗, 使得PUE值大幅降低。
(4) 该数据中心为小型数据中心, 如腾讯的T-block预制集装箱式数据中心。一方面, 变压器设备能耗不计算在供配电系统能耗中;另一方面, 小型数据中心无电梯、安防设备和总控中心等, 进一步大幅降低数据中心总能耗中的其他能耗。
(5) 采用太阳能、风能等可再生能源, 且在计算PUE时未将可再生能源能耗计算入分子部分的数据中心总能耗。这样, 若可再生能源用于完全驱动数据中心的制冷系统, 在计算PUE时, 分子部分中占比最高的制冷系统能耗为零。这种计算方法与国外业界公认的可再生能源的能耗必须计算入数据中心总能耗的要求相违背。
(6) 该数据中心采用浸没式液冷等新型冷却方式, 不使用传统机械制冷方式。因此, 计算PUE时, 分子部分的制冷系统能耗趋于零。
三、影响PUE的重要因素
业界公认的影响PUE的三个重要因素为气候条件、IT设备负荷率和数据中心安全等级。
1. 气候条件
建设在不同气象区的数据中心, 由于室外温度对冷水机组能耗的影响以及可采用的冷却技术 (例如自然冷却等) 的不同, 即使是其他条件相同, 其PUE也会不同。数据中心应选址建设在全年平均气温相对较低的地方, 可最大程度地使用自然冷却技术降低制冷系统能耗。ASHRAE根据数据中心所在地理位置划分了17个气候区, 对每个气候区的数据中心设定PUE最大值, 其中最小为1.3, 最大为1.61, 地理位置不同, 差异明显。2013年工信部等五部委在《关于数据中心建设布局的指导意见》中把我国数据中心的布局分为四类地区, 只有同一地区的PUE才有可比性, 将不同气象地区的数据中心的PUE进行比较是不合理的。
2. IT设备负荷率
数据中心PUE值与IT设备负荷率密切相关。IT设备负荷率指的是数据中心的IT设备实际负荷与设计的满载时IT设备负荷的比值。不间断电源UPS的效率在低负载时急剧下降。IT设备负荷率较低时, 一方面, UPS设备的效率降低, 造成UPS设备能耗增加, 从而使得PUE值升高;另一方面, IT设备未满载安装时, 制冷能耗并不成比例降低, 也造成制冷能耗的增加, 使得PUE值升高。数据中心建设和运行模式有三种:第一种是基础设施设备 (供配电设备、制冷设备等) 一次性建设, IT设备分期部署;第二种模式是基础设施设备和IT设备同步分期建设和部署;第三种模式是基础设施设备和IT设备均一次性建设和部署。对于企业自建自行运维的EDC (企业级数据中心) , 一般采用第一种模式。因此, 实际上数据中心的负荷率长时间内都远低于设计值。特别是EDC, 经过数年才会达到满载, 而这时该数据中心早就已启动扩建和改造工程了。对于租赁式数据中心, 由于用户的进入很难一步到位, 所以数据中心开始运行后, 在最初的一段时间内负荷率同样会较低, PUE值同样会高于满载指标。因此,不同IT设备负荷率的数据中心不能简单地进行PUE值的比较。
3. 数据中心安全等级
国家标准GB 50174-2017《数据中心设计规范》将数据中心按照重要性从高到低划分为A级、B级和C级三个级别。安全等级越高, 配置的供配电、制冷设备也越多, 相应的能耗也越高, 造成PUE值升高。因此, 不同安全等级的数据中心的PUE也不能进行简单的比较。
由于上述原因, 业界都认可不同的数据中心的PUE值不应该直接进行比较, 但是条件相似的数据中心可以从其他数据中心所提供的测量方法、测试结果以及数据特性的差异中获益。
2016年我国发布的GB/T 32910-2016《数据中心资源利用第3部分:电能能效要求和测量方法》提出了EEUE指标, 定义与PUE相同。同时, 为了方便不同数据中心的能耗指标进行比较, 该国标考虑了数据中心安全等级、气候条件和IT设备负荷率等因素, 提出了调整模型。不同数据中心在比较EEUE时, 需使用EEUE修正值。EEUE修正值计算公式如下:
EEUE修正值=EEUE实测值-EEUE调整值
其中EEUE调整值计算模型见表2。
表2 EEUE调整值计算模型
该国标修正模型的准确性有待于实践检验。另外, 由于EEUE调整模型的提出, 将影响PUE的因素及PUE不可简单进行比较的本质公开化, 该国标并没有被业界广泛宣传和采用。
四、数据中心节能的主要方法
通过上述分析可以看出, PUE仅是一个数字, 对于数据中心的管理者来说, 更应该看重数据中心总能耗的降低, 即电费投入的降低。因此, 所有的数据中心都关注节能问题。在数据中心节能方面, 谷歌走在了行业的前列。一方面, 谷歌的数据中心在大规模地使用风能、太阳能等可再生能源, 它的目标是最终100%使用可再生能源。需要关注的是, 可再生能源的使用不会降低数据中心的PUE值, 但却可减少数据中心的碳排放。另一方面, 谷歌十多年来一直致力于提高数据中心的能源利用效率。在谷歌的官网, 总结了排在前五名的最佳实践。
1. 测量PUE
只有对PUE进行实事求是的测量, 才能了解和及时跟进数据中心能源使用情况。
2. 管理气流
良好的气流管理对于提高数据中心的运营能效是至关重要的。这方面可以采用机柜冷/热通道封闭、安装机柜盲板和利用计算流体力学 (CFD) 的热模拟进行气流组织优化等措施。
3. 提高机房温度
无需将数据中心的温度保持在23度, 事实上, 所有的设备制造商都允许冷通道在27度或更高的温度下运行。提高冷通道的运行温度既可以使免费制冷的时间变长又可以节省更多能源。
4. 利用自然冷却
利用自然冷却, 无需使用冷却器就能为设备散热。这包括利用低温的环境空气、蒸发冷却技术应用等。
5. 优化配电
通过尽量减少电力转换环节, 可以将配电损耗降到最小。对于必须进行的转换步骤, 使用高效的变压器和配电装置。数据中心配电过程的最大损耗之一来自不间断电源 (UPS) ,因此选择一个高效的转换模式显得尤为重要。另外, 还要减少输电线路耗损。
谷歌承认, 在数据中心的能耗管理方面, 除了上述五点外, 很难提出更多的节能措施。但是在2016年7月, 谷歌宣布, 他们经过了两年多的数据收集和研究, 将人工智能 (AI) 引入到数据中心的能耗管理中, 建立了PUE的神经网络模型, 提出了基于机器学习的数据中心能耗管理方法。谷歌宣称, 该项技术在实际应用中可将总的制冷功耗降低约40%, 从而将数据中心的总功耗降低约15%。若以一个PUE值为1.6的数据中心为例, 采用该项技术后, PUE值将降低为1.45左右。谷歌相信, 将人工智能 (AI) 应用于数据中心的能耗管理是在该领域的重大突破, 该项技术将成为业界未来的主流。
银行业界也在学习谷歌的先进经验, 研究应用人工智能进行数据中心能耗管理。然而,此项技术需要大量的历史数据, 同时在已投产的大型数据中心进行测试难度也较大, 目前国内尚未有成功的案例。建议数据中心管理者关注基础设施运行数据的采集和存储, 为未来的智能化运维打下基础。
尽管业界存在很多争论, 但PUE仍是衡量数据中心能耗的最重要指标。数据中心的管理者既要认识到PUE指标的片面性, 又要认识到不同数据中心的PUE不能简单地进行比较。在数据中心日常运行中, 可以按照统一的标准实事求是地进行PUE相关参数的采集和计算,自己和自己比较, 找到PUE升高或者降低的原因, 采取多种措施进行节能。同时, 选择低功耗的IT设备, 整合、退库使用率低的IT设备, 优化系统和应用架构, 避免IT设备数量过度增长等都是降低数据中心IT设备能耗的方法。这些方法虽然无法降低PUE值, 还可能使得PUE值升高, 但可减少数据中心日常运行的电费成本, 从而带来更加实在的效益。
9月 上海 加氢站选址、设计、投资培训
10月中下旬 法国瑞士能源企业集团转型合作考察团
详情咨询:QQ:691114859