kaiyun.com 算力供需矛盾:一边大模子争霸、一边GPU算力闲置| ToB产业不雅察
图片开始@视觉中国
全球大模子争霸赛,正鞭策遍及产业应用诉求。但这一年矛盾最杰出的话题却不是若何用光显大模子,而是企业用户对云数据中心、做事器集群,对大算力芯片的海量筹商诉求莫得得到充分夸耀。算力供需矛盾的背后,很挫折的少量其实是算力闲置问题。
据研究机构IDC最新数据,2023年上半年加快做事器市集限度达到31亿好意思元,同比2022年上半年增长54%。其中GPU做事器依然是主导地位,占据92%的市集份额,达到30亿好意思元。同期NPU、ASIC和FPGA等非GPU加快做事器以同比17%的增速占有了8%的市集份额,达到2亿好意思元。
这里的GPU即是面向智算场景的GPGPU(General-purpose computing on graphics processing units,通用图形处理器)。其中大部分市集由占据,2022年,英伟达A100 GPU芯片供货量弥留,且价钱情随事迁,而在中国市集,在10月新的禁令之前,中国特供版A800和H800 GPU也早已断货。
大模子算力应用基本可分为“磨练”和“推理”两个场景。在推理场景,尽管对算力性能条件不高,但当磨练好的模子部署到执行出产中时,会需要遍及做事器进行并行相聚筹商,推理老本会陡然普及。
而磨练场景所需的算力会更强,这一阶段,神经相聚需要不啻一台做事器进行大限度筹商。由于模子磨练随机期周期,算力满额意味着GPU卡结束了100%资源应用,但磨练任务比较小对算力条件不高,也得占用一张卡,基本处于闲置气象。
据不息分析称,OpenAI在GPT-4的磨练中使用了大略2.15e25的FLOPS,在大略25000个A100 GPU上进行了90到100天的磨练,其算力应用率约为32%至36%。这种算力应用率低的情况在业内愈加遍及。
钛媒体联接策略了解到的情况是,中国正主导构建用于数据处理的高性能通讯相聚,以及多元异构的芯片算力(包括GPU、CPU、以及国产芯片等)的诊治和不停问题。
算力闲置的本色逻辑
夙昔十年,散播式云筹商构建经典的“削峰填谷”和“资源池化”,以更好地结束云做事的弹性诊治。这种变化其实也在影响云做事的买卖花式转移。
一位缱绻机构云做事搭伙东谈主曾对钛媒体暗示,夙昔云做事商依靠的恰是虚机忙时和闲时诊治,去得回逾额的利润报酬,也即是“超卖”,此时各家比拼的是谁的诊治技能更优秀。
而大模子场景下,算力需要大限度聚拢式磨练,做事器也无法被切分红单个虚机,若何设筹商子和算力诊治,若何夸耀大模子应用的高性能智算场景,这是云做事商在头疼、大模子创企或其他中小团队在反复提条件的部分。
不少鸿沟延长者或学术人人进行分析,这一挑战也体目下大模子平台遐想的工程性问题上。
举例,如何普及大限度散播式磨练的筹商效力一直是大模子预磨练的一个中枢问题。越过是在执行的AI集群环境中,会存在GPU之间的互联带宽受限或AI做事器之间的相聚互联带宽有限。
大模子参数目宏大,意味着对显存的占用也大。夙昔小模子的结构不易有用进行筹商和通讯,但大模子限度已在TB级别,GPU显存大小基本在80G(以英伟达A100为例),单个GPU无法透顶容纳系数这个词模子磨练,取舍散播式磨练是例必。这也同期导致了GPU通讯问题,由于卡与卡之间存在的通讯支出,增多一倍卡并弗成带来线性的性能加快。
此外,卡数目增多后,过热、故障就会一定比例出现,这不时会导致磨练中断、梯度爆炸、算法重跑一遍等,模子磨练老本也会居高不下。
钛媒体阻难到,业内出现了诸多有益为大限度并行筹商遐想的高性能散播式磨练框架,并奉陪大模子技能的真切而徐徐更正。
有人所共知的大数据开荒引擎Spark,专为深度学习开荒的PyTorch,目下Pytorch官方也相同开荒了散播式磨练框架Accelerate供AI东谈主士使用。而UC Berkeley RISELa开源的Ray(据称亦然ChatGPT背后在使用的框架)和云托管居品AnyScale,微软开源的深度学习库DeepSpeed也备受接待。在从业者看来,尽管散播式磨练框架极度多,但主流决议照旧PyTorch+Megatron-LM+DeepSpeed。
目下在国内也有雷同的散播式磨练框架,举例潞晨科技的ColossalAI、一流科技的OneFlow,而关于国内在真金不怕火大模子的头部互联网厂商,如阿里的EPL(原名Whale)、华为的MindSpore、腾讯的AngelPTM等,市面上已有的框架并弗成透顶夸耀其诉求,也会遐想相应的软件栈用于本人基础要津、硬件要津进行进一步定制和开荒。
提高资源应用,散播式还能若何更正?
基于GPU结束并行处理是常见妙技。大模子磨练中存在几种经典的散播式并行范式,分别为活水线并行(Pipeline Parallelism),数据并行(Data Parallelism)和张量并行(Tensor Parallesim)。微软开源的散播式磨练框架FastSpeed就交融了这三种并行范式。
波浪信息东谈主工智能软件研发总监吴韶华的方针是,比拟于经典的三维并用(张量并行+活水线并行+数据并行)门径,源2.0在三维并行策略的基础上建议了非均匀活水并行+优化器参数并行(ZeRO)+数据并行+耗费筹商分块的散播式筹商门径。
这种筹商形势能有用裁减大模子磨练历程中关于节点内AI芯片间通讯带宽的需求,有更广的符合性。对带宽的需求更小,同期也能得回极度高的性能发达。同期联接优化器参数并行,进一步裁减内存需求,从而裁减活水表露数,最大为止地合理当用筹商资源,结束有储和筹商的总体最好性能。
他证明称,传统形势的内存散播在各个阶段极度不平衡,不时在第一阶段,其内存一经达到GPU上限,模子磨练需要更多的筹商建树和更长的活水并行,性能也不高。而非均匀活水门径,即是在分手活水时不再取舍均匀分手形势,而是笔据内存需务结束比较均匀的分派,以夸耀在有限硬件建树的模子磨练。这种形势可有用缓解活水线头部与尾部的内存瓶颈,让模子在活水并行各阶段的内存占用量散播更平衡。
2023年,波浪信息AI团队接踵研发了OGAI大模子智算软件栈、源2.0大模子,从软硬协同层面去执续普及基础大模子的智商,同期通过灵通算力发展生态去探索可能结巴的场景。经过考证,源2.0大模子算力集群的线性扩展效力远高于同类千亿参数大模子。联接延长数据,波浪信息协助客户将大模子磨练的GPU峰值效力从30%普及至54%。
抢购算力,还没筹商若何用
参照GenAI的合座走向,无论是提高模子参数目,照旧提高数据质料限度,算力依旧是撑执大模子智能水平的中枢驱力。要用满盈大的算力,去撑执起满盈精确的模子泛化。但摩尔定律放缓在证明某些现实问题:大模子磨练所需算力,一经远超硬件加快器的处理速率,同期带来的动力问题、数据中心的能耗问题,还浮于冰面之下。
而中国市集,相较于好意思国合座上照旧会有一些差距,主流的算力芯片和加快智商基正本自于英伟达,客户对国产芯片行为备选决议的需求仍然不及。
某会聚底层硬件研发的AI从业者在探讨中对钛媒体指出,“适配齐存在一定的难度,也即是说念念要作念这件事就必须有止境的参预。国产GPU厂商也会筹商几点身分:一是用户对国产芯片这件事情的必要性,二是业务筹商是否能达成;三是性能是否会有比较大的普及。”
这其实就带来个问题,若是取舍适配国产GPU会作念软件适配或更表层的模子智商,例必需要一定的时期,有些企业仍融会过诸多合规渠谈购买芯片。或者,某些使用限度不大的实验室也会取舍英伟达的破钞级居品RTX 4090,这种形势性价比高,主要用于推理。
不外,这位从业者还阻难到,“有些企业囤了好多先进的高性能芯片,但人人订购的第一念念法其实并莫得筹商到若何使用,或者说关于若何用好这个逻辑上若干存在些问题。”
在新一轮超等周期中,GenAI无疑是企业竞争的重心。企业仍需加大硬实力参预,算力资源优化的同期,也正时刻温煦算法、数据带给模子增强的结巴。
现如今预磨练大模子的算法框架依然是基于Transformer经典架构,Transformer上风在于治理了原有无法领悟凹凸文的问题,但Transformer相同存在局限性或者可优化的空间。
正如某AI大模子早期从业者曾对钛媒体强调,“从某些具体落地性上,算法比算力可能更为挫折,咱们会针对场景作念好多算法上的更正,而这些问题不时是算力治理不了的。在莫得更好算法的时候,你其实是不知谈1000个GPU能带来多大的恶果。”
算力,是最大的帮衬,也成为最大的挑战。
(本文首发钛媒体APP,作家 | 杨丽)