(原标题:算力服务器的迭代进击:从风冷到液冷丨直击2024上海MWC)
21世纪经济报道记者骆轶琪 上海报道
近些年来,算力与通信早已形成密切结合、匹配发展的趋势。
在上海世界移动通信大会(MWC上海)现场,21世纪经济报道记者发现,多家通信产业链头部公司都展示了其在算力相关市场的能力布局,其中在服务器市场,推动浸没式液冷服务器和冷板式液冷服务器并行发展成为部分厂商的选择。
一名服务器行业技术人员对21世纪经济报道记者分析,从技术路线看,冷板式液冷服务器相对更适合应用在对传统数据中心进行改造、边缘计算等精确冷却的场景;浸没式液冷服务器则相对适用于AI、HPC等有极高效散热需求的场景。其所在厂商的浸没式液冷服务器已经可以将PUE降低到1.1以下,冷板式液冷服务器则还略高于该水平。
该名人士坦言,目前浸没式液冷方案的确相比冷板液冷方案会有相对偏高的部署成本,具体到实现投资回报收益时间,大约前者比后者长1年左右。但随着当前浸没式液冷技术的相关产业链在持续探索迭代,其优势还有望进一步优化。
第三方机构IDC近期发布的报告显示,中国液冷服务器市场在2023年继续保持快速增长。年内中国液冷服务器市场规模达15.5亿美元,同比增长52.6%,其中95%以上均采用冷板式液冷解决方案。IDC预计在2023-2028年,中国液冷服务器市场年复合增长率将达45.8%,2028年市场规模将达到102亿美元。
路线升级通信产业链厂商将能力渗透到算力领域有其业务逻辑。
MWC上海期间,中兴通讯总裁徐子阳就介绍道,在智算领域,高速网络连接不仅不可或缺,而且至关重要。无论是芯片内裸Die互联、芯片之间、服务器之间、DC之间,网络连接技术的持续创新和突破,将极大提升智算的性能与效率。
据悉在数据中心侧,中兴依托风液融合、弹性配电等节能技术,能打造PUE(电能利用效率)低至1.1(基于绿色低碳考虑,工信部要求2023年底新建大型数据中心PUE应在1.3以下)、机柜功率密度最高达60kW的新型智算中心。
目前在服务器市场,正逐渐从风冷散热技术向液冷散热技术转型,后者的不同技术路线中,冷板液冷式技术的落地应用比重更高。
秦淮数据集团CTO张炳华此前接受21世纪经济报道记者专访时分析道,传统通用计算采用的机柜单机功率相对较低,但异构的智能计算对数据中心规模、单机柜功率密度以及冷却方式均提出了更高要求。随着单机柜功率密度提升,原来的风冷方案已经不能满足高功率密度冷却要求,冷却方案也逐渐从风冷转向液体冷却。
在谈到不同冷却方案的应用趋势时,张炳华表示,“尽管此前英伟达H100发布时,提供了液冷和风冷两种解决方案,但市场上大部分用户更倾向于使用风冷方案。”究其原因,主要是考虑到液冷服务器及配套设施开发周期相对更长,成本也更高,客户希望通过更快速、更低成本的方式实现业务快速落地,抢占大模型在行业中的领先优势。
然而,随着芯片的功率密度不断提升,风冷冷却方式无法满足高功率密度服务散热的刚性需求,加上现阶段冷板液冷相较于浸没式液冷在技术上相对更成熟,供应链更加完善,且不存在液体与服务器电子元器件及原有系统的耦合问题。因此他指出,冷板液冷将会是未来数据中心的主流应用方式。
中国信通院发布的《算力中心冷板式液冷发展研究报告》指出,目前算力中心所采用的液冷技术主要分为冷板式液冷、喷淋式液冷和浸没式液冷三种。喷淋式和浸没式液冷技术相较于冷板式液冷,在极高功率密度情况下可以实现更高的散热效率。然而,喷淋式和浸没式液冷技术在实施和维护上相对复杂,涉及更多安全和环境考虑,也需要更多的成本投入。相比直接接触式液冷技术,冷板式液冷的优势在于更好的材料兼容性和简便的改造方式。
前述技术人员也对记者表示,从技术路线看,目前冷板式液冷技术应用铺开范围更广。浸没式液冷方案虽然目前还没有明确相关标准,但在该领域有前瞻部署的企业,也就意味着在后期标准建立过程中有更多经验输出的机会,那么后续更多浸没式液冷方案落地时,也有望更具备先发优势和能力沉淀。这是不同厂商之间选择不同技术策略和倾向的原因。
应对新挑战当然,应用新技术过程中也将面临新的挑战。
前述信通院报告指出,冷板式液冷技术能够有效降低算力中心PUE,相比于浸没式液冷,冷板式液冷对现有服务器芯片组件及附属部件改动量较小,可操作性更强,且对于当前的算力中心整体架构及后续维护影响不大,运维模式、机房承重与传统风冷场景基本一致,是目前成熟度较高、应用更为广泛的液冷散热方案。
算力中心机柜液冷化改造的主要工作,在于对原有机柜及服务器的冷板式改造,改造内容包括配电、布放管路、冷却液体流量分配单元CDU等,并同步配套调试漏液检测、堵塞等监控线系统。
但冷板式液冷改造也面临诸多挑战:一是冷却液在流动过程中,如果压力过大,会增加漏液风险,而且会对工作人员和设备造成潜在风险;二是算力中心液冷化改造涉及楼体、空间改造、系统改造等多个环节,改造周期长,产业链协同性较弱;三是要考虑一定的改造成本。
张炳华也对记者提到,未来在进行数据中心运维工作时,可能将面临更多挑战。传统的风冷数据中心运维相对简单,但随着智能计算规模扩大,数据中心的机柜功率密度、冷却方式和供电方案等方面都在不断演进。
“例如,一些智算中心采用液体冷却机柜,包含冷板式液冷和浸没式液冷;其中,浸没式液冷会导致液体和服务器、网络设备之间产生耦合,改变数据中心的整个产业生态。这既增加了产品设计、工程建设、验收交付和运营维护的复杂性,也需要解决ICT设备抗腐蚀、液冷系统材料选择、施工工艺等新技术问题。”张炳华指出,因此,如何保障不同冷却方式的数据中心更加安全稳定运行,如何根据不同的业务场景制定标准的运维操作流程、如何面对可能的故障场景制定紧急操作流程、如何快速响应客户变更要求保障SLA也变得更为重要——这些都对第三方数据中心服务商的综合实力提出了更高要求。
对于采用液冷服务器可能面临的迁移难题。Omdia云与数据中心研究首席分析师王珅对21世纪经济报道记者指出,向液冷的转换可以逐步进行:在改造项目中尽可能利用已有的冷却设备来降低成本;在新建数据中心中则可以大胆地进行面向未来的设计。
“一代冷却设施的改造可能要覆盖三四代IT设备的生命周期,因此短期内的成本上升在长期来看是合算的。目前并未到非液冷不可的地步,及早采用液冷可以培养液冷产业链和用户的成熟度,因为1000W/芯片以上的时代将很快到来,那时液冷将是冷却的必要选项。”他续称。
IDC中国服务器市场研究经理辛一指出,目前国内液冷产业仍处于起步阶段,但与国外相比,在液冷技术探索上已不存在较大差异,反而在大规模商业应用经验方面,国内相关产业链处于领先优势,这得益于中国庞大的数据市场。目前液冷产业推广过程中面临的一个重要课题是如何在液冷数据中心的建设成本和投资回报率以及运维安全性上做到均衡,这需要产业相关组织、机构、企业及合作伙伴线上股票配资申请,在标准制定、成本控制、技术创新等方面共同努力,加大投资和配套设施建设力度。IDC预计,液冷行业将迎来真正“刚需”放量的元年。