新 AI 处理器架构的挑战

作者:admin  来源:本站  发布时间:2021-07-30  访问量:1244

1-210I0094Q1212.jpg

投资资金大量涌入数据中心新型AI处理器的开发,但这里的问题各不相同,结果难以预料,竞争者财大气粗,产品粘性很强。

最大的问题可能是关于终端市场的数据不足。在设计新的 AI 处理器时,每个设计团队都必须回答一个基本问题——产品需要多大的灵活性?它应该针对单个任务还是更一般的工作负载进行优化?两个端点之间存在连续的解决方案,并且与过去的许多解决方案空间相比,为 AI 硬件找到合适的解决方案更加困难,尤其是对于数据中心工作负载而言。

许多因素需要平衡。Synopsys人工智能产品和研究总监 Stelios Diamantidis 说:“这归结为能够围绕能够设计和制造设备来推动经济发展。” “这必须在可用时间和可用成本因素内完成。”

这立即开始缩小潜在市场。“你什么时候通过定制芯片赚钱?Synopsys 验证组工程副总裁 Susheel Tadikonda 说。“如果我要为数据中心构建定制芯片,那么有多少个数据中心?您也许可以高价出售芯片,但这还不够。如果我要为消费设备制造芯片,我们可能会讨论数十亿台设备。音量在那里。这就是你会看到这些 ASIC 赚到更多钱的地方,因为它们肯定需要数量。否则它根本不会削减它。”

但这并没有解决芯片在定制到完全可编程连续体中的位置问题。西门子 EDA战略和业务发展高级经理 Anoop Saha 说:“随着您的定制化程度越来越高,为非常具体的算法创建芯片,它的能效就会更高,性能也会更好。” “但你牺牲了音量。它还缩短了该芯片的使用寿命。如果两年后你有了一个新算法,那个芯片还像以前一样有价值吗?这是很多事情的相互作用。边缘的一些算法确实趋于稳定。业界经过几年的研究,找到了一个最优算法,这个最优算法会在很多情况下起作用。我们已经在CNN 上看到了 (卷积神经网络),我们已经看到,对于唤醒词检测、手写识别——您需要为某个特定用例找到最佳算法。”

定义工作负载

自定义首先要准确了解工作负载是什么样的,这会给某些玩家带来优势。Xilinx人工智能和软件产品营销总监 Nick Ni 表示:“大多数超大规模厂商已经组建了自己的芯片部门,他们正在为数据中心的高覆盖率工作负载打造芯片。. “例如,如果 Google 将这种‘推荐’类型的神经网络视为数据中心中最高的工作负载之一,那么他们就应该为此创建专用芯片和卡。如果第二个工作负载是语音识别,那么这样做是有意义的。如果第三个是 YouTube 的视频转码,他们会这样做。有很多机会,但并不是每个人都是谷歌。几年前,谷歌发表了一篇广受好评的论文,其中展示了他们数据中心工作负载的多样性,而且非常多样化。没有一个工作负载超过 10%。这意味着有大量的长尾工作负载需要优化。”

大多数定制是为了推理。“在培训方面,您需要浮点支持,”Synopsys 的 Diamantidis 说。“他们需要权重的反向传播以及围绕它的大型软件环境。但是如果你考虑一个 100% 应用于推理的解决方案,它有固定点,可能是八位甚至更低的精度。顾虑不一样。如果模型是固定的,那么在推理基础设施本身中实际拥有风格是否有意义,这意味着有些针对语音的定制解决方案,有些针对视频处理的定制解决方案,例如,针对一些重量级应用程序?超大规模者正在投资于推理的硅解决方案,这些解决方案更适合他们在人工智能领域的高级模型和解决方案。

这里有一个良性循环。“ TPU旨在满足 Google 数据中心内的特定工作负载,”Synopsys 的 Tadikonda 说。“它最初的创建是因为他们意识到如果他们必须处理如此大量的数据,他们将需要建立如此多的数据中心来处理这些数据的复杂性和计算。这就是经济规律让他们建造 TPU 的地方。第一个 TPU 是个大块头。它非常耗电而且很大。但他们已经对其进行了改进。他们学到了,也学到了。他们能做到,因为那是他们的工作。这就是谷歌。”

并非每个人都可以使用 Google 的反馈循环,但其他公司确实有选择。“我们看到的一个关键组成部分是对尽早获得正确架构选择的关注和重视,”西门子的 Saha 说。“这不是关于某人认为什么是正确的。这不是根据过去的表现做出直观的决定,因为现在有太多的未知数。业界正在做的是在设计周期的早期做出数据驱动的决策,这样你就有能力在发现某些东西不起作用时迅速做出改变。”

这些决定可以在宏观层面或更详细的层面。“你的内存元素与计算元素有多接近?” 萨哈问道。“您多久执行一次内存读取,因为读取和写入将对整体能源效率产生直接影响。业界正在寻找新的架构,所以没有人确切知道什么会起作用。你需要具有可塑性,但在他们做出这些决定之前,你需要确保你有足够的数据。”

硬件和算法流失

影响您在连续统一体中的位置的另一个因素是硬件需要发展的速度以及算法的发展速度。这决定了数据中心所有者必须从他们购买的硬件中赚钱的时间,并确定他们愿意支付的价格。它还限制了芯片开发的总成本。

数据中心芯片的使用寿命是多久?“通常情况下,芯片或电路板会保留三到四年,”赛灵思的 Ni 说。“一些更激进的数据中心可能会在那个时间段内升级,有些可能会持续更长时间。对于人工智能,我们可以关注谷歌 TPU 公告。在过去六年左右的时间里,他们有四个版本的 TPU。因此,就像每隔一两年,他们就会更换内部硬件,以针对 AI 等快速变化的工作负载进行优化。”

换个角度来看,可能每 18 个月就有一次进入数据中心的机会。“要扰乱这个市场并不容易,”萨哈说。“它有两个部分——他们更换现有数据中心芯片的频率,以及他们添加新东西的频率。我看到几乎所有的数据中心都在尝试更新的东西。几乎每个构建数据中心芯片的人都在与某个合作伙伴或某个最终客户合作。他们多久更换一次现有的东西,或者正在工作的东西?只要芯片在工作,他们就会尽量延长芯片的使用寿命。一旦进入数据中心,这是一个漫长的决定,而且很难更换。这就是为什么您会看到对这些大型数据中心芯片进行大量投资的原因。投资界的某些部分打赌它是赢家通吃的市场,或者会有一两个或三个获胜者将获得最大的份额。一旦进入,将很难更换。”

为未来

设计,您今天开始设计的产品必须在大约 18 个月内满足需求。“当我们决定对芯片内的块进行硬化时,我们还必须针对特定精度进行优化,”赛灵思的 Ni 说。“例如,我们在整数 8 周围做出了某些选择。我们不得不打赌,当这款产品成为主流时,8 位仍然是主流。我们还确保我们可以处理混合精度网络,其中一半是 8 位,另一半是 4 位,另一半是 1 位。为此,我们在 AI 引擎中实现了 8 位部分,其运行基本性能非常快,然后您可以在 FPGA 架构中实现 4 位和 1 位 MAC 单元。”

设计时间和算法进化具有相同的量级。“在 18 个月内,应用程序很可能会有所不同,”Tadikonda 警告说。“我认为今天的数据科学家不会向任何人保证他们将在 18 个月内运行与今天相同的模型。”

有许多决定必须做出。“量化可能是许多能效指标中的最大因素,”萨哈说。“量化将对推理方面产生更大的影响,推理方面分散在数据中心和边缘之间,但在学习方面也有量化的一个方面。每当您量化为较低的位数时,就意味着您正在权衡能源效率而不是准确性。它更有效,但不是那么准确。在训练中,您可能需要浮点数,但有更新类型的浮点数。谷歌在设计下一代 TPU 时,创造了 bfloat16,这是用于训练的“大脑浮点”。它与 IEEE 浮点数非常不同,它在精度上具有浮点数的优势,但也具有显着的能效优势。”

这会使经济学变得困难。“对于如此规模的 ASIC,付出如此巨大的努力并伴随如此迅速的变化,只有少数公司能够证明其经济性,”Tadikonda 说。“算法正在发生变化,因为有关这些数据的用例正在增加。你认为今天有效的明天不一定有效。为了赶上并处于最前沿,您必须不断创新或重新发明这些 ASIC。谷歌有优势。他们能够如此快速地流失的原因是因为他们拥有如此多的数据。他们从他们的 TPU 中学到了很多东西,他们知道他们需要改变什么才能让他们的应用程序运行得更好。如果我是第三方芯片开发商,我没有这些数据。我必须依靠我的客户来提供这些,因此周转周期会更长。谷歌处于非常独特的境地。”

它也给验证带来压力。“浮点硬件的验证将是满足这些芯片的性能和功耗的要求是至关重要的,”在市场营销主管Rob范Blommestein说OneSpin。“长期以来,浮点硬件设计的验证一直被认为是一项重大挑战。FPU 将浮点运算的数学复杂性与需要复杂控制路径的各种特殊情况相结合。我们需要一种形式验证解决方案,以验证由硬件浮点单元 (FPU) 计算出的算术运算结果是否与 IEEE 754 标准规范准确匹配。”

结论

人们常说,数据是新的石油,而人工智能是这种联系越来越明显的领域。建筑师只能想象这么多。他们需要访问可帮助他们改进或构建更好产品的数据。这就是数据中心处理器如此具有粘性的原因。到达那里后,您就可以访问留在那里所需的数据。

唯一的另一种方法是加快设计过程,从而改变经济性。具有讽刺意味的是,人工智能是唯一显示出实现生产力飞跃潜力的颠覆者。