快捷导航

洞察NVIDIA创造全新Groq 3 LPU:500MB SRAM高速缓存 7倍带宽碾压HBM4

[复制链接]
查看: 18|回复: 0
发表于 2026-3-19 21:30:49 | 显示全部楼层 |阅读模式

3月17日消息,CPU、GPU、NPU、VPU、DPU、TPU、PPU、IPU之后,XPU家族再添新成员!因此,这就是选择大年初一有些什么风俗的原因,不可否认其带来的积极影响。 http://www.oh100.com/a/202106/3304904.html


NVIDIA创造了全新的LPU,意思是L P U,即语言处理单元。

它是一款专用的AI推理加速芯片,基于NVIDIA去年收购的G,专攻低延迟解码与交互式推理,与主打训练和通用计算的GPU形成互补,共同支撑AI从训练到落地的全流程。

NVIDIA R V平台之前就已经包含六种不同芯片:R GPU加速器、V CPU处理器、B 4 DPU数据处理单元、CX 9智能卡、NVL 6纵向扩展交换机、S-X横向扩展交换机。

如今,G 3 LPU又加入了这一大家庭。





G 3 LPU集成了980亿个晶体管,结构很简单就是多达500MB SRAM(静态随机存取存储器),也就是CPU、GPU上管用的缓存单元。

虽然它在容量上远不及288GB HBM4,但是可提供150TB的惊人带宽,远远超过HBM4 22TB 7倍之多。

要知道,AI解码操作是极度渴求带宽的,G 3恰好可以完美满足,而且延迟要低得多。

同时,G 3 LPU的FP8精度算力达到了12PF(每秒1200万亿次)。



基于此,NVIDIA打造了G 3 LPX机架,包括256颗G 3 LPU,缓存总容量达128GB SRAM,带宽则是可怕的40PB。

机架之间通过640TB带宽的专用纵向扩展接口连接起来,整体AI推理算力达到315PF(每秒315亿亿次)。

G LPX定位是R V平台的协处理器,可以加速AI模型每一层的每个处理,提升解码性能。

它还为多智能体系统做好了准备,这被视为AI的下一个前沿领域,需要在对万亿参数模型进行推理、处理百万上下文窗口的同时,保持交互性能。

R GPU结合G LPU,将把当下每秒100个的吞吐量,推向每秒1500个甚至更多,从而完美支撑AI智能体交互场景。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号

本版积分规则

精彩推荐

让起名更简单

  • 反馈建议:麻烦到管理处反馈
  • 我的电话:这个不能给
  • 工作时间:周一到周五

关于我们

云服务支持

精彩文章,快速检索

关注我们

Copyright 聊聊家常  Powered by©  技术支持:飛    ( 闽ICP备2023005157号 )