当前,我国产业正处于蓬勃发展之中,在取得快速增长的同时也实现了质量提升。而从规模上来看,我国数据中心还有巨大的增长空间。如何在前进的道路上实现高质量发展?日前,《人民邮电》报记者独家专访了中国工程院院士邬贺铨,而云与绿色无疑是答案中的两大关键词。
中国潜力巨大
“中国的数据中心尽管增长很快,但相对美国来说总量还是比较少,而巨大的互联网用户群体,注定中国未来数据中心的机架数不会低于美国。”邬贺铨强调。
当前,我们身处一个“数据大爆炸”的时代。统计显示,人类历史上90%的数据都是在过去几年产生的,50%是在短短两年内产生的。联合国《2019年数字经济报告》显示,全球IP每秒流量1992年仅为1.16MB,但是到2022年将达到150TB,30年增长1.3亿倍。而根据《华为全球产业展望GIV》,全球新产生的数据量将从2018年的32.5ZB快速增长到2025年的180ZB。
中国的数据中心规模迅速扩大。近日36氪研究院发布的数据显示,截至2019年年底,我国在用数据中心机架达到315万架,其中大型以上数据中心增长较快已超过250个,机架达到236万架,占比超过70%。
从全球数据中心的发展来看,美国数据中心机架数目前已占据全球40%的市场,其后是中国和日本,分别占8%和6%。邬贺铨认为:“中国数据中心发展比美国晚5年,但中国的互联网用户数决定了中国数据中心规模将来不会小于美国。”
云数据中心成为方向
数据中心是各种IT资源的集成中心,也是数据存储、处理和交互的中心。伴随着的发展,数据中心也开始云化转型。“云数据中心,采用超融合架构,可以实现更好调度。”邬贺铨指出。
云数据中心相比传统数据中心,有着一系列的优势。首先,采用超融合架构,将物理分布的服务器、存储、网络等资源虚拟化为逻辑集中的巨大资源池。其次,采用容器和微服务模式,通过云计算管理平台可动态监控、调度和部署各种资源,从而按需向用户提供差异化服务。再次,基于IPv6协议,能够实现云网协同与多云融合。最后,改进数据中心的可扩展性,降低管理的复杂度,提升运营维护效率,增加安全可靠性。
数据中心能耗不容忽视
“相比传统产业,数据中心作为一项ICT产品,本身的能源利用效率是比较好的,但是数据中心的能耗还是会伴随着快速发展而较快上升,因此其自身的能耗仍不可忽视。”邬贺铨指出。
数据中心自带“绿色”基因。有资料认为,ICT产业单位增加值能耗仅为全国单位GDP能耗的1/5,仅为全国单位工业增加值能耗的1/9。尤为值得注意的是,数据中心还将助力传统行业节能减排,对全社会碳达峰、碳中和的贡献都是正面的。
但是,数据中心自身能耗上升较快不容忽视。中国电子学会等编写的《中国数据中心可再生能源应用发展报告(2020)》显示,截至2019年,全国各类数据中心用电量占全社会用电量的0.8%~ 1%,预计到2030年达到1.5%~2%。目前,我国数据中心在能耗上的表现不一。中国数据中心工作组(ODCC)的数据显示,PUE(电能使用效率)在1.0和1.2之间的占比仅为5%,高达51.6%的数据中心PUE为1.4%~1.8%,PUE降低还有很大空间。
我国数据中心PUE降低还有很大的空间。
多措并举提高能效
“提升数据中心的能源利用效率,可以从建设和技术两方面优化,多措并举。”邬贺铨指出。
在建设方面,可以通过优化选址和充分利用绿色能源来提高能效。所谓优化选址,就是选择气候条件适宜、绿电供应充足的地区建设数据中心。此外,还可利用山洞自然冷风循环、海水制冷等。而在数据中心的园区建设上,可采用预制化装配式建筑,在建设上叠加光伏,采用综合供能、高效制冷、余热循环利用等措施。
在技术方面,数据中心提升能效其实大有可为。例如,通过优化数据存入与读出的体系架构与机制,实现上级可调用下级数据,但不必将下级数据库数据再复制存储至上级数据中心,从而避免了重复存储带来的巨大浪费。
数据预处理可以仅存储有效数据并提升数据利用率。当前,数据预处理能力不足导致数据存储与利用率低。有资料认为,当前企业的数据仅有不到2%被保存。而保存下来的数据,由于技术与流动性的问题,只有10%的数据能得到分析。通过数据清洗与标注提升存储数据的质量,可以减少无效数据的存储。数据清洗是对数据进行一致性检查,处理无效值和缺失值,从而大大减少数据的存储量。数据标注通过对数据进行分类标注、标框标注、区域标注、描点标注等,也能够减少存储量。不过,“目前数据的预处理70%的工作量还是主要依靠人工完成,因此数据中心目前还是劳动密集型行业。”邬贺铨特别指出。
云边端协同可以有效提升数据处理效率。例如,一个城市的视频监控数据如果直接送到云端进行AI分析将占用大量计算与存储资源,需要云边端都具有一定的数据处理能力并协同。又如,VR视频需要交互而且画面需要渲染,手机的GPU来做渲染时会遭遇画面卡顿且手机发热的挑战。对此,可以将视频图像分解为前景与背景,分别由手机与边缘计算完成。与此同时,可以通过采用预渲染全景帧、移动预测、多核CPU并行解码等技术以降低时延。
正确应对小数据带来的挑战,例如通过迁移学习和高效AI分析,实现“小数据小算力大任务”,也可以有效减少数据存储量。2020年6月,IEEE举办了世界计算机视觉植物病理学细粒度分类挑战赛,考察对苹果树叶锈病、痂病等疾病的AI识别能力。IEEE提供了含标签错误的1821张训练照片和1821张试题照片,这是典型的“小数据小算力”问题。支付宝天筭安全实验室采用了随机光照、随机对比增强、上下与左右翻转等数据增强技术,得分居1327个参赛团队之首。
特别值得注意的是,“比特币耗能惊人且毫无社会价值,必须加以限制。”据英国剑桥大学的替代金融研究中心(CCAF)计算,比特币的能耗已超过全球所有数据中心的一半,而中国几乎拥有世界上一半的“矿工”。随着比特币不断被挖掘,规则设计就会变得越来越难,这就意味着需要越来越高的算力投入到比特币挖矿上。“巨大的能耗,并没有给人类带来任何有用的帮助,还纵容了一些投机行为,应该限制比特币的应用。”邬贺铨指出。事实上,针对比特币带来的巨大能耗,我国相关监管机构已经开始采取有效措施进行遏制。例如,5月21日,国务院金融稳定发展委员会召开的第五十一次会议提出,打击比特币挖矿和交易行为。