大模型训练需要的不单单是算力,对存储,对安全,对训练框架都有一定的要求,需要一套比较完整的平台或服务来提供支持 。“大家最近的一个普遍的感受,就是能满足大模型训练平台的提供商不多,高性能算力供应整体比较紧张 。”陈希说 。
为什么“他们”能成?

文章插图
现在仍有不少企业毫无准备或者自我感觉有所准备,就冲进基础模型领域 。
然而,如果细细研究现阶段做出基础模型的厂商,无一例外在AI领域都有足够积累,特别是底层基础设施层面,他们的实践也在验证“云是规模算力的最佳承载平台”这一判断 。
“为了打造AI超级计算机,微软早在2018年就开始布局,除了OpenAI还投资了几个小公司,大数据是AI的前序,云计算基础设施是算力平台,大模型是算力、算法和数据的集合,微软的成功在于全栈能力 。”韩凯表示 。
回到国内,百度也遵循类似的逻辑 。百度副总裁谢广军提到,算力和存储一定要达到更高的密度,才能够支持大模型 。显著的问题还有网络互联,大模型训练用的比较多的显卡是带有NVLink高速互连的A800,需要比传统云计算做到更低延时、更高带宽,大量的小文件,也需要低延时、高存储的基础设施 。
“大模型跑起来之后,还有非常多的地方需要加速,像通信需要加速、显存需要压缩、整个推理也需要加速 。百度智能云能够把调优手段集成到基础库,对于大模型计算和推理非常有帮助 。”谢广军说 。
从平台的视角来说,不管是训练任务还是推理任务,单个的任务就需要非常长的时间,需要占用很多资源 。怎么能够保证资源的充分利用,以及降低它的训练和推理时间 。这里面需要切任务、调度、并行,对于模型训练的加速比和并行度的支撑 。
同时,一个平台上往往有有很多任务,如何灵活调度,进而能够让这些任务充分地使用资源,甚至能够感知到异构算力的拓扑,使得平台效率得到提升……这类AI任务调度、容器化支持方面都有非常多的工作需要去做 。
以文心一言的训练为例,千卡规模的A100或者A800数据并行加速比达到90%,其中用了非常多的调优手段和技术,百度智能云围绕着大模型一层一层做优化,在平台上分成了AI 计算、AI 存储、AI 加速和 AI 容器等四层,共同组成了 AI IaaS,这些基础设施可以支持上万亿参数大模型的训练 。
此外,预训练模型需要通过千卡以上的集群训练,而在大多数情况,精调或者微调更普遍,基于大模型训练行业模型,相当于在树干上长树枝,不需要超大规模的集群,小几十张卡足以满足企业所需训练资源 。
达观数据将在7月份正式推出国产版GPT“曹植”系统,也是得益于多年文本智能技术积累和垂直领域场景业务经验,算法和数据层面有所储备,而在测试阶段的算力层面,达观数据CEO陈运文表示,自建算力数据中心较为吃力,达观寻求了多种算力平台的支持,包括运营商算力中心、鹏程实验室等 。
达观数据也曾尝试某家头部云厂商的GPU算力,但经过测算成本太高,租一年半下来的成本,足够达观数据自家购置一个自己的算力平台,达观数据选择了英伟达DGX高性能工作站方案,相当于英伟达自身做了很多集群优化,解决了存储和网络的大部分问题,直接买GPU卡自建集群和英伟达解决方案相比,综合性能相差一倍 。
“我们自己的模型训练成本其实还是很高的,但是我们帮客户算过账,模型在推理阶段需要的算力投入并不大,很多客户只要单机多卡就够,硬件投入不算很大,但是给客户带来的效果和体验提升非常明显 。”陈运文表示 。
英伟达不只有GPU

文章插图
小厂商用英伟达的商业技术补齐能力,大厂商以英伟达的硬件为核心构建高性能计算集群、提升性能,进一步缩短训练时间……基本所有厂商的大模型的推理、训练都高度依赖英伟达的GPU 。
来自市场的消息显示,A800的价格一度超过8万元人民币,A100更贵,甚至超过9万元 。
“英伟达的策略是既要确保每家大客户都能拿到货,同时又不会完全满足其短时大量的需求,这使得英伟达GPU保持在一个供应紧张的状态 。”一位业内人士表示,英伟达全球A100的产能并不缺,供货没有问题,对于禁售A100之后,特供中国的替代品A800,英伟达特意开了一条产品线,因其产能相对有限,造成了供需矛盾 。
推荐阅读
- 从理论到实现,手把手实现Attention网络
- AI七十年,从一篇论文到一个世界
- 中签名额价值百万,K-Pop签售会到底有多赚?
- 李凯尔到底什么水平?他能将中国男篮带到怎样的高度?
- 到退休年龄去办理退休,为何查不到档案?没有档案,能办退休吗?
- 《长风渡》停播,让我看到影视圈一股隐藏的“乱象”,在野蛮生长
- 挖呀挖黄老师现身小杨哥直播间,出场费120W,网友直呼听到就想吐
- 张紫妍被潜后自尽,被曝曾接待4个财阀被玩到不能走路
- 我是怎么从小孩儿的保姆专业进的互联网行业?
- 刘嘉玲闺蜜为梁朝伟庆生引争议,又亲又抱,大腿缠到裤裆处
