又一颗革命性的AI芯片发布,首次集成HBM

作者:admin  来源:半导体行业观察  发布时间:2023-09-20  访问量:1137

近日,SambaNova Systems宣布推出一款革命性的新芯片SN40L。SN40L 将为 SambaNova 的全栈大型语言模型 (LLM) 平台 SambaNova Suite 提供支持,该平台具有革命性的新设计:在内部提供密集和稀疏计算,并包括大容量和快速内存,使其成为真正的“智能”芯片”。


据报道,SambaNova 的 SN40L 由 TSMC 制造,可以服务 5 万亿个参数模型,在单个系统节点上可以实现 256k+ 序列长度。这只有通过集成堆栈才能实现,并且是对以前最先进芯片的巨大改进,能够以更低的总拥有成本实现更高质量的模型、更快的推理和训练。


“今天,SambaNova 提供唯一专门构建的全栈 LLM 平台——SambaNova Suite——现在配备了智能 AI 芯片;它改变了全球 2000 强的游戏规则,”SambaNova Systems 联合创始人兼首席执行官Rodrigo Liang说。“我们现在能够在一颗芯片中提供这两种功能——利用最智能的计算核心处理更多内存的能力——使组织能够利用人工智能的普及,并拥有自己的LLM来与GPT4 及其他技术相媲美。”


新芯片只是 SambaNova 全栈 LLM 平台的一个要素,该平台解决了企业在部署生成式 AI 时面临的最大挑战:“我们已经开始看到更小模型的趋势,但更大仍然更好,更大的模型将开始变得更加模块化,” SambaNova Systems 联合创始人Kunle Olukotun说道。“客户要求LLM拥有像 GPT-4 这样的万亿参数模型的能力,但他们也希望拥有一个根据他们的数据进行微调的模型的好处。凭借我们迄今为止最先进的人工智能芯片 SN40L,集成到全栈 LLM 平台中,我们为客户提供了运行最大的 LLM 的关键,并具有更高的训练和推理性能,而无需牺牲模型准确性。”


Sambanova总结说,公司的 SN40L 可以服务 5 万亿个参数模型,单个系统节点上的序列长度可能超过 256k+。这可以实现更高质量的模型,并以更低的总拥有成本实现更快的推理和训练;更大的内存可以释放LLM真正的多模式功能,使公司能够轻松搜索、分析和生成这些模式中的数据;由于运行 LLM 推理的效率更高,因此 AI 模型的总拥有成本 (TCO) 更低。


“SambaNova 的 SN40L 芯片是独一无二的。它通过单个芯片同时处理 HBM(高带宽内存)和 DRAM,使 AI 算法能够为手头的任务选择最合适的内存,从而使它们能够直接访问比所能容纳的大得多的内存。” IDC 性能密集型计算研究副总裁 Peter Rutten 说道。


正如我们所了解,SambaNova 的数据流执行概念始终包含大型片上 SRAM,其低延迟和高带宽消除了对 HBM 的需求,尤其是在训练场景中。这使得该公司能够掩盖 DDR 控制器的较低带宽,但仍能利用 DRAM 的大容量。


资料显示,SN40L 每个封装使用 64 GB HBM3、1.5 TB DDR5 DRAM 和 520 MB SRAM 的组合(跨两个计算芯片)。


“对于生成式人工智能,尤其是问答之类的事情,你希望能够非常快速地执行大量小内核,”SambaNova方面表示。“HBM 恰好对于这种类型的推理工作负载非常有用,因此现在我们已将该中间层引入到我们的内存架构中,并完成了后续的软件开发工作,使我们能够最佳地利用这些内存层,无论是为了低延迟,高带宽,或高容量。”


SambaNova指出, SambaNova Suite 中的新模型和功能:


  • Llama2 变体(7B、70B):最先进的开源语言模型,使客户能够适应、扩展和运行可用的最佳 LLM 模型,同时保留这些模型的所有权。

  • BLOOM 176B:开源社区中最准确的多语言基础模型,使客户能够使用多种语言解决更多问题,同时还能够扩展模型以支持新的低资源语言。

  • 用于基于向量的检索增强生成的新嵌入模型使客户能够将其文档嵌入到向量嵌入中,这些嵌入可以在问答过程中检索,而不会导致幻觉。然后,LLM利用结果来分析、提取或总结信息。

  • 世界领先的自动语音识别模型,用于转录和分析语音数据。

  • 额外的多模式和长序列长度功能。

  • 具有 3 层数据流内存的推理优化系统,可实现无与伦比的高带宽和高容量。


Sambanova的Marshall Choy在接受EETIMES采访的时候表示:“半导体开发不适合胆小的人,也不适合钱包薄弱的人。”他指出,这一切成为可能的部分原因是 SambaNova 近年来进行的巨额融资。


“这就是我们采用可重新配置的数据流架构的原因,”他说。“ASIC 会容易得多…… 为可重构数据流架构构建芯片和编译器也不适合胆小的人,但你必须具有可重构性,因为你今天手中必须拥有能够跟上[的速度]的芯片。人工智能工作负载]开发。”