IBM Telum——垂直集成芯片技术的新篇章

来源:众壹云 发布日期:2021-08-24 09:30

在IEEE 的 Hot Chips 33会议上,IBM 展示了 IBM Telum 的预览版,IBM Telum 是 IBM z 和 LinuxONE 系统的下一代处理器,计划于 2022 年上半年时推出。

宣布的亮点包括预期的性能提升、新的缓存设计以及专为实时嵌入式人工智能 (AI) 设计的集成加速器。我认为后一个功能是改变游戏规则的,证明名称更改是合理的。

IBM Telum

今天在芯片设计中的游戏名称是垂直集成。您无法将同质芯片应用于特定任务并期望获得最大性能和功率。苹果和 AWS 普及,IBM 垂直整合已有 25 年。

具有实时低延迟的 AI 加速器的商业案例

但在深入研究芯片之前,我将讨论为什么你应该关心 Telum。在两种广泛的场景中,直接嵌入到事务工作负载中的推理任务可以带来好处。首先是在业务数据上使用人工智能来获得洞察力,例如信用卡交易欺诈检测、客户行为预测或供应链优化。其次是人工智能用于使基础设施更加智能的地方,例如工作负载放置、基于人工智能模型的数据库查询计划或安全异常检测。

让我们进一步检查信用卡欺诈检测。AI 以低延迟实时直接嵌入交易中,可在交易完成之前防止信用卡欺诈,而不是事后才被检测到。要尝试在平台外执行此操作,您将不可避免地遇到导致更高延迟和缺乏一致性的网络延迟。在平台外,您实际上需要将数据从 Z 移动到另一个平台。需要低延迟才能对每笔交易进行一致的评分。随着延迟高峰,一些交易将不受检查,一些客户只完成了 70% 的交易,而剩下 30% 的交易不受保护。有一个商机可以对所有交易进行一致的 AI 评分。在金融系统中,甚至还有交易速度要求,这是另一个挑战。

此外,离开平台会在通过网络将敏感或个人数据发送到单独的平台时产生安全风险,担心加密、审计和增加的攻击面。

Telum AI 加速器的设计目标

能够将 AI 任务直接嵌入 IBM z 上的事务代理,让客户能够为任务运行最准确的模型,并以低延迟运行它,而无需担心安全问题。Telum 源于构建一个 AI 集中式片上加速器,所有内核都可以共享访问,并且推理延迟非常低且一致。

每当一个核心切换到 AI 时,它就会获得整个加速器的计算能力来执行 AI 任务。低延迟源于加速器的全部功能在需要时可供内核使用。AI 加速器具有足够的总计算能力,可以让每笔交易都嵌入 AI,因为每个加速器都具有 6 teraflop (TFLOP) 计算能力。

几个用例使用了各种 AI 技术,而不仅仅是深度学习。范围包括传统机器学习算法到各种深度神经网络,如卷积 (CNN) 和循环神经网络 (RNN)。加速器的操作有助于所有这些不同类型的 AI 模型。

即使没有数据离开平台,安全性仍然必不可少,并且片上加速器具有企业级内存虚拟化和保护。

AI 加速器的另一个重要考虑因素是未来固件和硬件更新的可扩展性。人工智能是一个相对较新的领域,发展迅速。该设计包括允许随着时间推移在同一硬件平台上交付新功能的固件。

深入研究芯片

让我带您更深入地了解加速器的工作原理。IBM 设计了一种新的内存到内存 CISC 指令集,称为神经网络处理系统辅助。这个新指令集直接对程序用户空间中的张量数据(神经网络使用的主要数据结构)进行操作,实现矩阵乘法、卷积、池化和激活函数。这些原语构成了典型的人工智能算法。

运行在内核和 AI 加速器上的固件结合执行新指令。内核对张量数据执行地址转换和访问检查,将虚拟程序地址向下转换为物理地址,并执行所有访问检查以传递给加速器。

该内核还将张量数据预取到 L2 缓存中,以便 AI 加速器随时可用。固件协调将数据暂存到 l2 缓存和加速器中。

加速器可以从两个独立的计算阵列为每个芯片提供 6 个 TFLOP,一个面向矩阵运算,另一个面向激活函数。带有四个托盘的 32 芯片系统将提供超过 200 TFLOP 的计算能力,并可以访问 8GB 的​​总系统缓存。

矩阵阵列由 128 个处理器块组成,其中八路 FP16 SIMD 以网状拓扑连接。激活阵列由 32 个瓦片处理器瓦片组成,带有针对 RELU、Sigmoid、tanh、log 和复杂激活函数(如 SigMoid 和 LSTM(用于自然语言处理)进行了优化)的八路 FP-16/FP-32 SIMD。

智能数据结构控制数据流以保持六个 TFLOP 计算阵列繁忙。智能预取器与内核协同工作以接收转换后的地址、获取源并存储结果。AI加速器具有智能预取、回写控制器、大型暂存器和由微核控制的数据缓冲区,以确保有效利用计算能力。

数据移动器可以以大约 100GB/s 的带宽将数据移入和移出芯片环。然后在内部,这些数据可以从暂存器分发到超过 600GB/s 带宽的计算引擎,确保计算阵列的高利用率,从而提供低延迟和高带宽的 AI 能力。

有一个软件生态系统可以利用这个加速器。客户可以在任何平台上的任何地方构建和训练 AI 模型。支持数据科学家使用的熟悉工具,如 Keras、PyTorch、SAS、MATLAB、Chainer、mxnet 和 TensorFlow。导出为开放神经网络交换格式 (ONNX) 的训练模型被馈送到 IBM 深度学习编译器以编译和优化它们,以便直接在 Telum 芯片上的 AI 加速器上执行。

似乎从人工智能开始,但这就是热点所在。但还有更多。IBM 表示,它正在实现“每插槽 40% 的性能改进”。每个芯片以超过 5Ghz 的速度提供 8 核/16 线程。最高性能通过 32 核/64 线程和四抽屉系统配置提供。每个芯片有 32MB L2,通过 L3 和 L4 的 320GB/s 环连接。每个芯片是530m 2、22.B 晶体管,在三星 7"nm 上制造。我使用“nm”是因为我不相信节点实际上是 7nm。基于性能、功率和密度特性,我认为它更接近英特尔的10nm或英特尔的7工艺。

结语

Telum 是 IBM 的一个广泛团队的工作,涵盖芯片设计、操作系统和软件,研究定义硅技术和 AI 加速器。

其他人通常在图像识别的背景下谈论实时推理和深度学习。IBM 在这里解决的问题不仅仅是识别猫和狗,而是通过将实时 AI 和深度学习推理引入对延迟非常敏感的事务性工作负载来优化欺诈检测。

可以公平地说,IBM 是第一个将实时深度学习引入响应时间敏感的事务性工作负载的公司。执行推理时的一个区别因素是,推理加速器的每个芯片的全部 6 TFLOPS 可用于 AI 工作的一个核心。相比之下,竞争芯片在许多内核之间分配专用硅。AI 加速器提供总推理能力,使每笔交易都以低延迟执行。

IBM 确实回避发布传统的第三方基准测试,声称与客户的大规模行为无关。IBM 拥有用于容量规划的大小调整工具,以及用于比较处理器代以进行规划的大型地图系统性能比 (LSPR) 数字。

IBM 已与多家客户合作以验证设计目标

实时低延迟推理。这项工作涉及为 AI 的实际应用构建代理模型,例如与一家全球银行共同开发的用于信用卡欺诈检测的循环神经网络模型。在单个 Telum 芯片上运行该模型每秒可实现超过 10 万个推理任务,延迟仅为 1.1 毫秒。扩展到 22 个芯片,每秒实现了 350 万次推理,延迟仍然很低,仅为 1.2 毫秒。虽然此测试仅运行推理任务而不是信用卡交易工作负载,但它确认 AI 加速器有足够的带宽以低延迟大规模提供推理,以直接嵌入到信用卡处理等交易工作负载中。

随着 Telum 芯片在 2022 年上半年进入市场,看到客户如何通过将 AI 功能直接嵌入到企业工作负载中来实现价值将是振奋人心的。