全国首个5A级智算中心在上海诞生,让AI大模型训练更高效便捷 | 产业创新动态
- 2024-10-12 11:10:151445
中国信息通信研究院院长余晓晖介绍,近年来,我国算力结构不断调整,智算规模增长势头强劲;存力规模持续扩大,先进占比不断提升;运力质量显著提升,网络设施不断升级。截至今年6月,我国在用算力中心超过830万标准机架,算力规模达246 EFLOPS,智算同比增速超过65%。
从省级行政区来看,综合算力指数排名前10位的依次是河北、广东、上海、江苏、北京、浙江、山东、山西、内蒙古和宁夏。其中,北京、上海、广东和江苏连续3年跻身前5位。
在上海自贸区临港新片区,商汤智算中心通过理论算力、有效算力、算力能效、业务模型场景支持能力、加分项等5个维度的技术评测,获得5A级智算中心算力性能认证,成为国内智算中心建设的“样板间”。
商汤科技董事长兼首席执行官徐立介绍,这个项目一期投资56亿元,主要建设园区智算大楼与科研行政大楼,用于AI智算中心平台硬件搭建、平台软件、平台管理系统和大模型应用等多领域研发。项目占地87亩,整体规划建筑面积13万平方米,一期已建成7万平方米。
目前,商汤大装置管理的算力已实现全国联网的统一调度,在上海、深圳、广州、福州、济南、重庆等地都拓展了新的计算节点,截至今年7月,总算力规模达到20000 PFLOPS(PFLOPS:每秒执行10的15次方次浮点运算),已有5.4万块GPU,其中上海临港智算中心的算力为14000 PFLOPS,远远超出立项规划的3740 PFLOPS算力总量。
算力的远超规划,与人工智能大模型的兴起有关。经过持续扩容,商汤临港智算中心的算力可支撑超过20个千亿参数超大模型同时训练,并支持万亿参数大模型的全生命周期生成。
在硬件技术上,智算中心实现了万卡的超大集群互联,并保持90%的加速效率。在训练稳定性上,具备超30天不间断训练AI大模型的能力;出现训练间断时,诊断恢复时长已缩短至半小时。
在软件技术上,商汤大装置与“日日新”大模型体系的集合,重构了算法的供给模式。通过提供“日日新”基础模型,各行各业的用户只需在此基础上进行微调或增量训练,就可以高效率地开发出符合自身需求的行业模型。这种服务实现了算法的基础设施化,与算力基础设施的服务配套,让国内各种行业大模型的开发更为高效、便捷。