NVIDIA|不是GPU的IPU:NVIDIA要小心了( 二 )
文章图片
计算
选用三个典型的应用场景从计算层面对比第二代和第一代IPU , BERT-Large的训练有9.3倍性能的提升 , 3层BERT推理有8. 5倍的性能提升 , EfficientNet-B3有7.4 倍的性能提升 。第二代IPU相比第一代IPU有两倍峰值算力的提升 , 在典型的CV还有NLP的模型中 , 第二代IPU相比第一代IPU则展现出了平均8倍的性能提升 。
文章图片
这样的性能提升很重要的是处理器内部存储从300MB提升到了900MB 。Graphcore中国区技术应用总负责人罗旭对雷锋网表示 , “我们在算力核心的微架构上做了一些调整 , 每个IPU-Tiles的性能本身就会更强 , 总体实现2倍的峰值性能提升 。在有效算力方面 , 处理器内存储从300M提升到900M , 可以位性能带来较大的提升 。”
MK2 IPU增加的处理器内存储主要是用于供我们模型的激活、权重的一些存储空间 。因为处理器内存储的程序所占的空间与第一代IPU基本相同 , 所以增加的供算法模型可用的权重和激活的有效存储容量有6倍以上 。
文章图片
但是 , 300M的处理器内存储本身就挑战很大 , 提升到900M面临着怎样的挑战?罗旭指出 , “要让MK2支持8000个超线程并行一起工作 , 并且保证其线性度和各方面性能都要好 , 这个是非常复杂的一个技术 , 我们是利用BSP这一套软件+硬件+编译的机制 , 来保障性能能够提升 。软件层面主要的挑战是对新模式的支持 , 所以我们的软件Poplar SDK要不断迭代 。“
如果对比NVIDIA基于8个最新A100 GPU的DGX-A100 , Graphcore 8个M2000组成的系统的FP32算力是DGX-A100的12倍 , AI计算是3倍 , AI存储是10倍 。价格上 , IPU-M2000需要花费25.96万美元 , DGX-A100需要19.9万美元 。Graphcore有一定的性价比优势 。
文章图片
如果从应用的角度 , 在EfficientNet-B4的图象分类训练中 , 8个IPU-M2000(在1U的盒子里集成4个GC200 IPU)的性能等同于16个DGX-A100 , 这时候就能体现出10倍以上的价格优势 。
文章图片
文章图片
数据
数据方面 , Graphcore提出了IPU Exchange Memory的交换式存储概念 , 相比NVIDIA当前使用的HBM技术 , IPU- M2000每个IPU-Machine通过IPU-Exchange-Memory技术 , 可以提供近100倍的带宽以及大约10倍的容量 , 这对于很多复杂的AI模型算法是非常有帮助 。
文章图片
计算加上数据的突破可以让IPU在原生稀疏计算中展现出领先IPU 10-50倍的性能优势 。在数据以及计算密集的情况下 , GPU表现非常好 , 但是随着数据稀疏性的增强 , 到了数据稀疏以及动态稀疏时 , IPU就有了比GPU越来越显著的优势 。
推荐阅读
- 潇湘晨报|求归还被拒!上海一老总错转21万欲哭无泪:怎么证明我真不是骗子
- 芯片|气候异常!东北半个月遭台风三连击,分析:短期长期都不是好事
- 趣头条|号称能“放松肌肉”“减肥瘦身”的网红筋膜枪,是不是智商税?
- 微微一笑很凑合|你是不是藏了私房钱
- 日本|美国突然醒悟,最大的对手不是俄罗斯,德专家:不阻止就来不及了
- 孙冾讲娱乐|颜值高身材好的妹子是不是都在手机上?,搞笑GIF:我就想问问
- 穿搭|不想穿彩色衣服?也不是不可以,这样穿就很高级
- 电视剧杂谈|个子不是很高的女人,日常穿衣记住3个公式,让自己更加高挑年青
- 车行生活|06 恐怕只有一个理由——你老了,拒绝领克
- 宁宁育儿|你可知第一个女皇帝是谁吗,武则天并不是第一个女皇帝
