当前位置:首页 > 信息化 返回

人工智能为何如此耗电

2024-09-27 08:54:00来源:学习时报
  AI尽头是电力,随着AI技术的广泛应用和深入发展,其背后的算力需求激增,进而引发了全球对数据中心及计算设备能耗激增的广泛关注。据权威统计数据显示,AI技术的普及与应用已显著推动了全球数据中心能耗的攀升,成为能源特别是电力消耗的一大推手,这也是人们在追求科技进步的同时,需要亟待解决的重要议题。
  
  全球AI耗电现状
  
  总体来看,伴随着人工智能技术的迅猛发展,以及产业指数级增长,作为重要支撑的数据中心耗电总量和占比大幅上升。据测算,AI大语言模型GPT-3一次训练的耗电量就达1287兆瓦时,大概相当于3000辆特斯拉电动汽车共同开跑、每辆车跑20万英里所耗电量的总和。ChatGPT按每天响应约2亿个请求计算,这一过程消耗超过50万度电。国际能源署2024年1月发布报告称,2022年全球数据中心的总耗电量约460太瓦时(1太瓦时=1×109千瓦时=10亿度),约占全球用电量的2%;到2026年,这一数据将超过1000太瓦时,大约是整个日本2022年全年的用电量。与此同时,大量的碳排放和数百万加仑淡水的消耗也不容小觑。
  
  欧美等国家AI耗电形势严峻。以跨国公司数据中心“扎堆”的爱尔兰为例,数据中心的耗电量已超过该国所有城市家庭用电量的总和,占比约为21%。波士顿咨询集团则预计,到2030年,美国数据中心的用电量将是2022年的三倍,而这一增幅主要来自人工智能。OpenAI首席执行官萨姆·奥特曼和特斯拉首席执行官马斯克都曾多次表达了对电力供应的担忧。
  
  从中国来看,AI耗能问题也是日益严重。2022年全年,我国数据中心耗电量达到2700亿千瓦时,占全社会用电量约3%。预计到2025年,这一占比将提升至5%,到2030年全国数据中心耗电量将接近4000亿千瓦时,数据中心的节能降耗迫在眉睫。数据中心是数字经济发展的基石,从全国一体化大数据中心体系构想到部署“东数西算”,数字中国战略持续深化落地,算力不断提高,必然需要更高的能源电力,7×24小时连续运行,电力成本占运营总成本的60%—70%,规模增长迅速。伴随着我国产业转型升级和数据中心规模不断扩大,耗电量会持续攀升。
  
  总之,人工智能及支撑它的数据中心所带来的耗电问题困扰着全世界,是制约人工智能技术飞速发展的主要障碍之一。
  
  AI为何成为耗电大户
  
  AI成为耗电大户的原因比较复杂,涉及数据处理、计算需求、芯片技术、算力中心等多个方面。
  
  首先,从芯片上分析,大语言模型需要巨大的算力支撑,特别是拥有并行计算能力的GPU(图形处理器)。在大模型训练过程中,需要多块GPU接连不断运转,一块GPU的能耗比CPU(中央处理器)高出10—15倍。如一块英伟达A100 GPU功耗为400瓦。GPT-3训练用到了1024块A100芯片,而GPT-4更攀升至25000块,后续将更新至H100、B200,型号的提升和数量的激增导致能耗显著增加。到2027年,英伟达将推出150万台A100服务器,其中95%被应用于AI行业。每一台服务器如果内置8块A100芯片,以1240万块A100芯片的耗电量进行估算,耗电量将高达85—134太瓦时,这个已接近瑞典或荷兰全年总用电量,相当于当前全球用电量的0.5%。
  
  其次,从运行机制上分析。GPU架构在AI计算中虽具备并行处理优势,非常适合AI算法,可以节省计算时间,但其当前利用率较低(32%—36%),且故障率高,导致训练周期长,如GPT-4训练耗时长达90—100天,进而引发长期的能源消耗。相比之下,CPU历经近80年发展,技术成熟且节能高效;而GPU架构出现不到30年,尚存利用率低与差错率高的挑战,这导致了能源消耗的增加。因此,优化GPU架构以提高其效率和稳定性,对于减少能源消耗至关重要。
  
  最后,大语言模型遵从规模效应,随着参数和数据规模的提高,大模型的智能表现将出现跃升。因此,各大公司都在不断地扩大模型规模,这给电能消耗带来了巨大的压力。如果大模型所用到的算力集中在一个数据中心里,在有限时空范围内进行训练,会给局部电网带来非常大的用电负荷,甚至导致整个电网的崩溃。
  
  AI耗电问题的解决方案
  
  虽然AI的耗电量在社会总用电量中的占比不大,但与家庭用电量相比,已经非常可观了,而且增速太快,如果不加以控制,将导致巨大能源压力。因此如何应对人工智能带来的巨大能耗,是业界一直高度重视的问题。
  
  首先,在技术层面,通过各种方法降低对芯片的功耗需求是业界努力的方向。英伟达、谷歌公司等做了很多的尝试与努力,通过优化算法模型,如牺牲一点性能以大大减少计算资源和时间,进而带来能耗效率的大幅提升;用光纤连接芯片,减少原有芯片外部的电力驱动和电光/光电转换环节,从而减少能耗;研发高效的芯片级散热技术将散热效率提升百倍;积极研发新型计算和传输架构以提升计算机处理速度并降低能耗;等等。
  
  其次,数据中心的能耗可以通过精心布局加以优化。如针对能耗中的散热问题,从最初的风冷,到现在的液冷,各家企业都在尝试各种方法为数据中心散热:微软曾尝试部署海下数据中心,Facebook数据中心选址在北极圈附近,阿里云千岛湖数据中心使用深层湖水制冷等,我国很多企业则把数据中心布局在水电资源丰富的西南地区。“东数西算”的原则也是对数据与算力进行合理匹配,将大量的算力资源部署到西部地区,以降低能耗。
  
  再次,在新能源层面,建立多样化的能源利用体系。集中力量开发太阳能、风能等可再生能源,扩大应用并加强储能技术研发,确保稳定供电。鼓励企业探索建设分布式光伏发电、燃气分布式供能等配套系统,引导新型数据中心向新能源发电侧建设,就地消纳新能源,推动新型数据中心高效利用清洁能源和可再生能源、优化用能结构,助力信息通信行业实现碳达峰碳中和目标。同时,探索核聚变等前沿技术作为长远清洁能源。
  
  最后,在政策层面,制定严格的节能政策与标准,对AI系统的能效实施有效监管,以激励企业采用高效低能耗的计算技术与硬件设备;积极推广绿色数据中心建设,倡导采用高效冷却、能源回收技术,并鼓励数据中心采用可再生能源供电;建立健全电力消耗监管机制,实时监控并数据分析AI系统的能耗情况,提高能源管理水平,减少不必要的浪费;加强国际合作与交流,共同应对AI技术带来的能源挑战,分享成功经验、技术与资源,推动全球范围内节能标准的制定与实施,以实现能源利用的优化与升级,减少对传统电力的依赖,全面促进人工智能产业的绿色低碳发展。
  
  文章刊载于《学习时报》2024年9月25日第6版
首页
当前位置:信息化

人工智能为何如此耗电

2024-09-27来源:学习时报
  AI尽头是电力,随着AI技术的广泛应用和深入发展,其背后的算力需求激增,进而引发了全球对数据中心及计算设备能耗激增的广泛关注。据权威统计数据显示,AI技术的普及与应用已显著推动了全球数据中心能耗的攀升,成为能源特别是电力消耗的一大推手,这也是人们在追求科技进步的同时,需要亟待解决的重要议题。
  
  全球AI耗电现状
  
  总体来看,伴随着人工智能技术的迅猛发展,以及产业指数级增长,作为重要支撑的数据中心耗电总量和占比大幅上升。据测算,AI大语言模型GPT-3一次训练的耗电量就达1287兆瓦时,大概相当于3000辆特斯拉电动汽车共同开跑、每辆车跑20万英里所耗电量的总和。ChatGPT按每天响应约2亿个请求计算,这一过程消耗超过50万度电。国际能源署2024年1月发布报告称,2022年全球数据中心的总耗电量约460太瓦时(1太瓦时=1×109千瓦时=10亿度),约占全球用电量的2%;到2026年,这一数据将超过1000太瓦时,大约是整个日本2022年全年的用电量。与此同时,大量的碳排放和数百万加仑淡水的消耗也不容小觑。
  
  欧美等国家AI耗电形势严峻。以跨国公司数据中心“扎堆”的爱尔兰为例,数据中心的耗电量已超过该国所有城市家庭用电量的总和,占比约为21%。波士顿咨询集团则预计,到2030年,美国数据中心的用电量将是2022年的三倍,而这一增幅主要来自人工智能。OpenAI首席执行官萨姆·奥特曼和特斯拉首席执行官马斯克都曾多次表达了对电力供应的担忧。
  
  从中国来看,AI耗能问题也是日益严重。2022年全年,我国数据中心耗电量达到2700亿千瓦时,占全社会用电量约3%。预计到2025年,这一占比将提升至5%,到2030年全国数据中心耗电量将接近4000亿千瓦时,数据中心的节能降耗迫在眉睫。数据中心是数字经济发展的基石,从全国一体化大数据中心体系构想到部署“东数西算”,数字中国战略持续深化落地,算力不断提高,必然需要更高的能源电力,7×24小时连续运行,电力成本占运营总成本的60%—70%,规模增长迅速。伴随着我国产业转型升级和数据中心规模不断扩大,耗电量会持续攀升。
  
  总之,人工智能及支撑它的数据中心所带来的耗电问题困扰着全世界,是制约人工智能技术飞速发展的主要障碍之一。
  
  AI为何成为耗电大户
  
  AI成为耗电大户的原因比较复杂,涉及数据处理、计算需求、芯片技术、算力中心等多个方面。
  
  首先,从芯片上分析,大语言模型需要巨大的算力支撑,特别是拥有并行计算能力的GPU(图形处理器)。在大模型训练过程中,需要多块GPU接连不断运转,一块GPU的能耗比CPU(中央处理器)高出10—15倍。如一块英伟达A100 GPU功耗为400瓦。GPT-3训练用到了1024块A100芯片,而GPT-4更攀升至25000块,后续将更新至H100、B200,型号的提升和数量的激增导致能耗显著增加。到2027年,英伟达将推出150万台A100服务器,其中95%被应用于AI行业。每一台服务器如果内置8块A100芯片,以1240万块A100芯片的耗电量进行估算,耗电量将高达85—134太瓦时,这个已接近瑞典或荷兰全年总用电量,相当于当前全球用电量的0.5%。
  
  其次,从运行机制上分析。GPU架构在AI计算中虽具备并行处理优势,非常适合AI算法,可以节省计算时间,但其当前利用率较低(32%—36%),且故障率高,导致训练周期长,如GPT-4训练耗时长达90—100天,进而引发长期的能源消耗。相比之下,CPU历经近80年发展,技术成熟且节能高效;而GPU架构出现不到30年,尚存利用率低与差错率高的挑战,这导致了能源消耗的增加。因此,优化GPU架构以提高其效率和稳定性,对于减少能源消耗至关重要。
  
  最后,大语言模型遵从规模效应,随着参数和数据规模的提高,大模型的智能表现将出现跃升。因此,各大公司都在不断地扩大模型规模,这给电能消耗带来了巨大的压力。如果大模型所用到的算力集中在一个数据中心里,在有限时空范围内进行训练,会给局部电网带来非常大的用电负荷,甚至导致整个电网的崩溃。
  
  AI耗电问题的解决方案
  
  虽然AI的耗电量在社会总用电量中的占比不大,但与家庭用电量相比,已经非常可观了,而且增速太快,如果不加以控制,将导致巨大能源压力。因此如何应对人工智能带来的巨大能耗,是业界一直高度重视的问题。
  
  首先,在技术层面,通过各种方法降低对芯片的功耗需求是业界努力的方向。英伟达、谷歌公司等做了很多的尝试与努力,通过优化算法模型,如牺牲一点性能以大大减少计算资源和时间,进而带来能耗效率的大幅提升;用光纤连接芯片,减少原有芯片外部的电力驱动和电光/光电转换环节,从而减少能耗;研发高效的芯片级散热技术将散热效率提升百倍;积极研发新型计算和传输架构以提升计算机处理速度并降低能耗;等等。
  
  其次,数据中心的能耗可以通过精心布局加以优化。如针对能耗中的散热问题,从最初的风冷,到现在的液冷,各家企业都在尝试各种方法为数据中心散热:微软曾尝试部署海下数据中心,Facebook数据中心选址在北极圈附近,阿里云千岛湖数据中心使用深层湖水制冷等,我国很多企业则把数据中心布局在水电资源丰富的西南地区。“东数西算”的原则也是对数据与算力进行合理匹配,将大量的算力资源部署到西部地区,以降低能耗。
  
  再次,在新能源层面,建立多样化的能源利用体系。集中力量开发太阳能、风能等可再生能源,扩大应用并加强储能技术研发,确保稳定供电。鼓励企业探索建设分布式光伏发电、燃气分布式供能等配套系统,引导新型数据中心向新能源发电侧建设,就地消纳新能源,推动新型数据中心高效利用清洁能源和可再生能源、优化用能结构,助力信息通信行业实现碳达峰碳中和目标。同时,探索核聚变等前沿技术作为长远清洁能源。
  
  最后,在政策层面,制定严格的节能政策与标准,对AI系统的能效实施有效监管,以激励企业采用高效低能耗的计算技术与硬件设备;积极推广绿色数据中心建设,倡导采用高效冷却、能源回收技术,并鼓励数据中心采用可再生能源供电;建立健全电力消耗监管机制,实时监控并数据分析AI系统的能耗情况,提高能源管理水平,减少不必要的浪费;加强国际合作与交流,共同应对AI技术带来的能源挑战,分享成功经验、技术与资源,推动全球范围内节能标准的制定与实施,以实现能源利用的优化与升级,减少对传统电力的依赖,全面促进人工智能产业的绿色低碳发展。
  
  文章刊载于《学习时报》2024年9月25日第6版