云端的 Cerebras:在实例中获取晶圆规模

作者:admin  来源:本站  发布时间:2021-09-17  访问量:1326

2021091701.jpg

迄今为止,大多数进入市场的新 AI 硬件都是“购买必要”的参与。对于任何希望沿着使用专用 AI 硬件的路线走下去的企业,他们需要掌握一个测试系统,看看迁移他们的工作流程有多么容易,然后计算沿着这条路线走下去的成本/工作/未来,如果可行的。大多数人工智能初创公司都拥有充足的风险投资资金,他们愿意为此投入大量资金,希望在某个时候抓住一个大客户以使该业务盈利。一个简单的答案是在云中提供硬件,但云服务提供商 (CSP) 需要很多时间才能咬住并提供该硬件作为其客户的一种选择。Cerebras 和 Cirrascale 之间今天宣布,作为 CSP,Cirrascale 将开始提供基于 Cerebras 的 WSE2 的晶圆级实例。

大脑 WSE2 和 CS-2

Cerebras Wafer Scale Engine 2 是一个晶圆大小的人工智能芯片。采用台积电 N7 和多项跨网线连接和封装相关专利技术,单个 46225 mm 2芯片拥有超过 800000 个内核和 2.6 万亿个晶体管。WSE2 搭载 40 GB SRAM,旨在捕获用于训练的大型机器学习模型,而无需将训练拆分到多个节点。WSE2 的目标不是使用具有 MPI 或同步的分布式 TensorFlow 或 Pytorch 模型,而是将整个模型安装到单个芯片上,加快内核之间的通信,并在模型快速扩展时使软件更易于管理。

2021091702.jpg

WSE2 位于 CS-2 系统的核心位置,这是一个 15U 机架设备,带有定制加工的铝制前面板。连接通过 12 x 100 千兆位以太网端口实现,内部芯片使用具有冗余的定制封装和水冷系统。单个芯片的典型额定功率为 14 kW,峰值功率为 23 kW,但内部有 12 x 4 kW 电源。CS-2 装置的当前客户包括国家实验室、超级计算中心、药理学、生物技术、军事和其他情报部门。每个花费数百万,一次吃掉一大口,因此今天宣布。

Cerebras x Cirrascale:云中的 WSE2

今天的公告是,专注于人工智能和机器学习 GPU 云的云服务提供商 Cirrascale 将在其位于圣克拉拉的工厂部署 CS-2 系统。它将作为一个完整的系统实例提供给客户,而不是像 CPU/GPU 那样的分区设备,因为对 CS-2 感兴趣的客户类型将是拥有大型模型的客户一个 CS-2 是不够的。Cerebras 首席执行官 Andrew Feldman 解释说,查看 CS-2 的客户知道他们的工作负载扩展到如此多的 GPU,他们需要不同的途径来让他们的模型适合单个设备。

2021091703.jpg

目前这只是一个系统,而不是拥有多个用户,Cirrascale 将提供先到先得的系统。通常,购买一个 CS-2 系统需要数百万美元,但 Cirrascale 的云租赁成本将达到每周 60 美元或每月 180 美元,如果需要更长时间,还可以享受更多折扣。最短租用时间为一周,如果客户愿意,Cirrascale 可以将他们的实例数据保存在本地,以备将来租用。

Cirrascale 的首席执行官 PJ Go 解释说,他们对该系统的一些兴趣来自希望分析其内部数据库或客户服务以及药理学的大型金融服务机构,这些企业在发现问题后往往会启动长期合同为其扩展的持续工作流程提供正确的解决方案。

对该系统感兴趣的人将能够使用 Cirrascale 的云工具集,该工具集已经内置了 Cerebras 的工具链和编译器。CS-2 实例租赁将包括完整的工具集和相关的计算和存储系统。

想法

将大多数 AI 训练硬件引入云端的问题之一是规模。仅仅租用几个 AI 芯片的几十个实例,然后将它们分区在一起是不够的,因为最终它们可能位于数据中心的另一侧。如果将十几个实例的包作为单一实例类型出售,那么您必须在工作负载和横向扩展之间取得平衡。这就是为什么在云中训练可能难以执行的原因,大多数 AI 硬件初创公司最终都在寻找内部部署而不是云部署。

2021091704.jpg

这就是使 Cerebras 处于独特位置的原因。Wafer Scale Engine 是一个大单元,旨在满足可能需要 100 个 GPU 并将其装入单个芯片的大型训练工作。没有实例的细分,也没有简单工作的分时 - 需要它的公司,往往需要所有它,这使它成为云部署的可货币化单元。然而,这个可获利的单元仍然是一个巨大的块,特别是对于任何想要探索设备为其工作负载的能力的人来说。例如,每月 18 万美元基本上可以购买本地 DGX A100。话虽如此,正如 Cerebras 指出的那样,WSE 是为那些必须扩展的用户设计的,没有跨多个芯片同步的复杂性。

我似乎仍然无法解决这笔交易的唯一问题是,Cirrascale 似乎只部署了一个 CS-2 系统。在我们的简报中,听起来好像有潜在客户在排队尝试这个东西,我可以想象,即使每个人都只想要一周的时间来尝试,有些人也不会等待 8 周左右才能到达他们的转动。或者,如果客户预订了一个月并想要它一年,那么没有其他人可以使用它,而 Cirrascale 将需要另一个。目前尚不清楚 Cirrascale 是否从 Cerebras 购买了 CS-2,或者该公司是否只是“出租”/“利润分享”如何使用它。然而,有人告诉我,如果 Cirrascale 提供的单位定期超额认购,则会增加更多。

从企业的角度来看,Cerebras 处于健康状态。银行中仍有大量 VC 资金,他们已向企业和政府账户出售了强大的两位数 WSE 系统,并且该团队为未来产品制定了持续的路线图。该团队似乎非常渴望推广每笔销售,或者至少是他们被允许谈论的销售。在几乎所有 AI 初创公司中,Cerebras 对市场具有最直接引人注目的独特主张——大型训练大型单芯片使其更容易,因此看看该公司与一些新的 AI 初创公司的合作情况将会很有趣接近多芯片作为单片的方法。可以说,Cerebras 已经通过其新的SwarmX/MemoryX 技术做到了这一点它在 Hot Chips 2021 上宣布,它允许无缝扩展到 192 台 CS-2 机器,并报告了 100 万亿参数模型的 1:1 性能扩展。特斯拉的 Dojo 旨在做类似的事情,但这只是为特斯拉,而不是其他任何人——Cerebras 的市场正在销售或提供系统,通过像 Cirrascale 这样的部署,理论上任何人都应该能够使用。

2021091705.png