输入一段提示词,大模型很快生成相应的图片、视频;高管的数字人在财报会上介绍经营亮点,大段论述与数字被准确报出;编程助手协助开发者进行代码确认与补全、错误修复;X光、CT等检测报告被批量分析,帮助医生快速读片影像诊断……当前,生成式人工智能技术蓬勃发展,凭借高效的生产力与简单的交互方式,AI正加速改变社会的生产生活。
这一背景下,作为AI基础设施的算力日益重要,承载算力的也呈现出新变化。近日,IDC圈受邀参加普洛斯数据中心媒体开放日,对话普洛斯中国高级副总裁、数据中心业务联席总裁郭仁声,探讨智算时代的算力与数据中心变化,探寻普洛斯数据中心领跑行业的技术创新与应用实践。
普洛斯中国高级副总裁、数据中心业务联席总裁郭仁声
从通用算力到智能算力 更高功率更强散热
此前,以CPU为核心的通用算力是算力市场的主流,随着大模型爆火,以GPU为核心的智能算力成为算力的新增长点。
反映到数据中心内,4kW、6kW、8kW的机架屡见不鲜,均使用风冷散热。而随着GPU芯片快速演进,功率快速攀升,GPU服务器机架向20kw、40kw乃至更高迈进,高功率带来高热量,单一风冷已经无法满足散热需求,更高换热效率的液冷正逐渐被数据中心和大模型企业接受。
“普洛斯数据中心比较早就开始探索液冷、落地试验。”郭仁声向IDC圈介绍,普洛斯在常熟东南数据中心与客户一起共建了液冷测试环境,并根据客户需求进行液冷设施建设,包括供应链连接——从上游设计到供应商再到管路、冷却液等,已经形成了比较成熟的供应链体系。
目前,普洛斯数据中心设计了“1-2-3-4架构”的新一代液冷弹性设计:1指建设一个弹性多系统算力建筑,以一个架构灵活适配客户不同需求;2代表在一个架构中兼顾风冷与液冷两种系统,可根据需求调整;3是算力设计时三种创新工艺布局,针对千卡、万卡、五万卡规模,预设机房布局、网络距离分布、线缆等布局,4是适应客户至少4中不同功率密度,单机柜从6kw到最高40kW都可灵活适配。
智算时代,机柜呈现更高功率更高密度的趋势。得益于液冷的提前探索布局,普洛斯数据中心已经在过去两年中,以该液冷弹性架构满足了不同头部客户的相关需求。
从数据中心到智算中心 更大规模更快交付
大模型热潮驱动智能算力需求高速增长,去年至今,新建智算中心与提供智能算力的数据中心项目如雨后春笋般落地、开工。中国信通院数据显示,截至2023年底,我国在用数据中心机架总规模超过810万标准机架,其中智能算力规模达到70EFLOPS,增速超过70%。
伴随智算需求增长的,是新建项目规模从十几兆瓦向几十兆瓦的大规模智算中心发展,数据中心更规模化、集约化,在算力技术和成本方面都更有益。
与此同时,客户对数据中心的建设周期要求越来越短,毕竟项目每早一天投用,代表着大模型等应用更快一步占领市场。
在普洛斯常熟东南数据中心,更大规模与更短建设周期这两点特性,得到了完美体现。
在规模方面,普洛斯常熟东南数据中心总面积逾15万平方米,共分为两期,一期在普洛斯原有物流园基础上改建升级,二期拿地新建,正在建设中。整体项目全部交付完成后IT负载预计达到120兆瓦(MW),可以为超过30万台服务器提供设施和增值服务。
在建设周期方面,两期均采用多系统预制化技术,变电站、柴发、冷冻站、钢结构/热通道都使用预制化模块,工厂生产、现场拼装,最终数据中心相比行业平均建设周期缩短了50%的速度。近期,普洛斯在常熟东南数据中心为一家头部电商客户及时交付了其首个智能算力平台,目前客户正在园区内上架服务器,即将按计划投产运营。
普洛斯常熟东南数据中心
走在普洛斯常熟东南数据中心,迎面可见一排白色的集装箱形式的柴发、地上的超大模块化冷冻站……预制化模块化在园区可谓俯拾皆是。
快速建设并不意味着放松要求,据悉,普洛斯常熟东南数据中心建设标准GB-A级/T3+,园区自建110千伏变电站,采用高压直流的电源系统,并上线了一些液冷机柜。
此外,普洛斯还为客户提供包含基础设施规划设计、集成服务、迁移服务、安全服务和辅助运营服务等5大门类242项的一站式全生命周期IT服务。
从依赖人工到智能运维 更高效更绿色
服务器功率更高,数据中心规模更大,带来了运维新挑战。
首先,大规模数据中心和智算中心采用的设备和系统更多,故障风险更高。其次,郭仁声指出,当机房达到一定温度,服务器有可能宕机造成业务中断、数据丢失。以前,一旦制冷故障,机房升到红线温度大约要15~30分钟,运维处理时间更充裕;今天,智算服务器功率更高,宕机升到红线温度可能不到3分钟。
因此,传统的人工运维模式已经无法满足智算时代需求。郭仁声强调“运营管理除了需要专业的运维团队,更重要的是,要有智能化工具去支撑他们更好地做运营。”
普洛斯自主研发了一个跨不同数据中心、跨园区实现数字孪生的运维和监控平台——GLP DCBASE智慧化运营管理系统。
GLPDCBASE智慧化运营管理系统
据介绍,GLP DCBASE系统引入了AI智能技术,能够实现能效气象预测、智能调优、故障智能定位等功能,辅助专家团队调优系统,构建了数据中心全新的智慧化监控、运行、维护与保养等管理能力。通过该系统,数据中心既可以实现完善的运维管理,还可实时监测和分析项目能耗、温湿度等多维度运维指标,进行AI算法优化,节能降耗。
今年第三季度, GLP DCBASE升级到3.0版本,新增本地+中心双系统异地双活能力、设施及运维全场景数字地图功能,以及液冷监控能力等。
目前,GLPDCBASE 3.0智慧化运营管理系统已应用于普洛斯旗下多个数据中心,监控点位数量超过1000万/10秒。系统还成功对外输出,被某互联网头部客户采纳使用。
面对持续增长的算力需求与能源消耗矛盾,普洛斯数据中心在全生命周期多措并举,通过高效制冷、屋顶光伏、优化配电、水资源循环利用等方面,实现节能降耗,提供绿色的高效算力。目前,普洛斯数据中心已经获得多项绿色建筑及绿色数据中心认证。
近年来,普洛斯发展势头强劲,全国现有数据中心20余个,完成了京津冀、长三角、大湾区以及中西部等核心区域的布局,北上广深等11大核心城市均有覆盖且辐射周边,可提供的IT负载逾1400MW。已经投入运营的数据中心13个,客户覆盖金融、互联网、电子商务、超大规模云服务和人工智能企业客户。
郭仁声指出,在数据中心业务不断拓展深化进程中,普洛斯集团在物流、新能源领域的资产投资、开发和运营的能力与经验,为数据中心提供了独特竞争优势和诸多支持,助力业务快速成长。
技术加速推动算力产业变革,面对智算时代的新需求,普洛斯正以领先的技术创新与建设运营能力,为客户提供智能、高效、绿色的未来。