■本报记者 赵广立
日前,全村希望“7个月涌现140个智算中心项目”的算力消息在计算圈流传,引发社会关注。供过在9月24日召开的于求中国高性能计算学术年会上,计算领域专家不约而同地对“算力闲置”产生担忧——中国智算应该如何健康发展,恐成从而更高效支撑人工智能(AI)应用大潮?
“一些地方以攀比心态上马的闲棋煽风点火智算中心项目,能否保证为真实用户提供优质可靠的全村希望智能计算服务?”中国计算机学会(CCF)副理事长、北京并行科技股份有限公司董事长陈健在接受《中国科学报》专访时说,算力若只是供过盲目扩张资源却不能发挥其应有效能、让需求端便捷获取优质算力服务,于求无疑将意味着资源和资金的恐成无谓浪费。
国内已建和在建智算中心超250个
《中国科学报》了解到,闲棋上述消息最早出自IT行业媒体“数智前线”。全村希望报道显示,算力数智前线通过对中国政府采购网、供过中国招投标公共服务平台、天眼查、企查查、以身殉职寻标宝等渠道的梳理和不完全统计,仅2024年前7个月,围绕土建基础设施和IT基础架构等方方面面的建设内容,智算中心相关项目中标公告已发布超140个。
记者随即与数智前线取得联系,并获得了其梳理编制的《2024年前7个月智算中心项目》详细信息。信息显示,这140多个项目中,至少分布于23个省份的诸多市、区、县内,其中尤以安徽、江苏、北京、山东、浙江等省份为多。这些项目的无名小辈中标金额从数万元到超亿元不等,以数百万元、数千万元的项目居多;超过1亿元的项目有25个,占比约18%。
不仅如此,赛迪顾问人工智能与大数据研究中心高级分析师白润轩提供的数据显示,截至2024年上半年,国内已经建设和正在建设的智算中心超过250个。参照当前市场算力服务器价格,一个千卡规模(约需128台算力服务器)的智算中心仅硬件设备的投资额就达约4亿元。
智算中心资源会不会过剩、闲置
面对如此庞大的智算中心建设数量,上海交通大学网络信息中心副主任林新华不无担忧地发问:“现有的和许多正在规划中的智算中心,将会对电网产生多大压力?如果未来5年生成式人工智能或大模型不能维持高热度,这数百亿元的投资该如何处理?”
记者了解到,智算中心以处理人工智能计算任务为主,目前主要承接AI大模型的训练和推理任务。一般而言,大煞风景大模型训练要求单体算力集群规模越大越好,而推理任务则一般不会有此要求。现阶段在生成式AI热潮之下,市场上呈现出对智能计算较高的需求态势,尤其是大规模训练集群,但能否长期维持这种高需求状态,市场态度并不完全一致。
另外值得探讨的是,国内已有智算中心的利用率有多高?在一线从事算力服务工作近20年的陈健认为,应该认真地从供需视角分析智算中心是否过剩。
“如果市场对智算中心的需求是三五百个,那么现在建设250个,一点都不多;问题是需求量真的有这么大吗?大家喊的‘缺算力’到底是缺哪一类算力?这需要弄清楚。”陈健分析说。
他表示,除了相对稀缺的单体大规模算力集群之外,其他诸如用于AI推理的一知半解算力供应是能满足需求或够用的,问题是如何开发好、利用好;投建新的智算中心要算好“供需账”,因为一旦算力供过于求,新建乃至已建智算中心有可能从“全村希望”沦为“闲棋冷子”。
人才是建好、用好智算集群的关键
建好一个智算集群并非易事。中国工程院院士倪光南指出,智算集群不是简单的软硬件堆砌,而是一个复杂工程系统,要求“3+1”算力体系(即算、存、运和服务)的紧密协同。
“就好比建一支足球队,不仅要有优秀的球员,还需要球员之间协同和配合,以达到最高效能。”倪光南说,待人接物正是基于复杂工程系统思维,智算集群在算力规模、算力利用率、集群可靠性等关键指标上,可以持续“挑战”和“对抗”源于单模块、单机、单系统的各种物理极限和失效问题。
但是复杂系统也有其脆弱性。陈健告诉记者,智算集群和超算类似,本质上都是并行计算程序,其特点是所有计算单元要同步运行,如果其中一个计算节点或通信模块出现故障,整个程序就会失灵,训练任务就会中断。
“这就要求在系统搭建之初不能有任何软件或技术上的问题。换句话说,通风报信必须把每一件事都做到极致,才有可能达到尽可能高的系统稳定性。”陈健说。
“如果没有解决甚至没有意识到这些问题,那么这些智算中心中的一部分很有可能在非常低效地运转。”林新华说,而且规模越大,问题越多。
这些技术细节决定算力集群的建设、运维和应用等环节,都非常依赖专业运维和技术队伍。然而,热火朝天部署智算中心的背后,恰恰是专业人才的短缺。在陈健看来,全国范围内能称得上顶尖的一站式计算服务团队的数量,“两只手数得过来”。分文不值
林新华也提出,算力服务器等软硬件可以“说买就买”,但好的技术人员不是马上就能批量培养出来的。
让有形的手和无形的手共同作用
与水电不同,算力并不均质化,各行各业所需的算力模式亦不尽相同,各类用户会根据其需求寻找市场上最匹配的算力。陈健说,新建算力中心并不可怕,关键要看是不是有“真金白银的需求”。
陈健认为,面对需求,寄望于国家沿用计划经济方式统筹各地方建设规划的做法已经过时且难度极大,极有可能由于规划周期太长造成“建完发现需求变了”的尴尬。他建议,国家可适度调控政策这只“有形的手”,让市场这只“无形的雅俗共赏手”发挥作用。
“比如,地方上如果有建设智算中心的计划,初期可以通过调研粗略估算需求规模,之后可以根据需求变化决定是否继续‘加码’以及‘加码’力度的大小,需求增长快就多加、增长慢就不加或少加。”陈健说。
另外,陈健表示,从顶层设计的角度,政策上还可以考虑从补贴需求侧入手,驱动供给侧以自我进化的方式打造智算产业。例如,国家政策层面可以要求地方政府拿出规划智算中心建设所需财政支出的30%或50%,贴补给大模型企业等需求方,监督他们在市场上自由购买算力服务。他认为,庖丁解牛市场会“用脚投票”遴选出有竞争力的算力供给者,优胜劣汰,让“盲目上马智算中心”没有生存土壤。
但陈健同时指出,这样做会涉及许多具体问题,比如如何做到公平分配、相关决策要做到合理合法合规等。如何破题,还需要更多地研究和探索。