转向数据驱动芯片架构

作者:admin  来源:本站  发布时间:2021-07-22  访问量:1234

数据的爆炸式增长迫使芯片制造商重新思考在哪里处理数据,哪些是处理不同类型数据的最佳处理器和内存类型,以及如何对原始数据和已处理数据的移动进行结构化、分区和优先排序。

来自 Google、Facebook、阿里巴巴和 IBM 等系统公司的新芯片都采用了这种方法。由苹果、三星以及许多汽车制造商等供应商开发的产品也是如此。这些设计方法的采用正在蔓延。

许多这些变化是进化的。其他的,例如结合了某种程度的机器学习或其他设备内处理的存储器和网络接口卡,已被困在研究中多年,现在才刚刚开始在商业上浮出水面。总的来说,他们指出了设计的根本转变,在相同或更低的功率下提供了处理速度的数量级改进。

这种转变为许多不同的选择打开了大门,每个选择都有自己的一系列挑战。例如,如果供电网络不能同时为所有处理元件提供足够的电力,那么仅仅拥有更多和更高性能的处理器或更少的数据移动就无济于事。最重要的是,系统资源需求可能因应用程序而异。在某些情况下,数据可能需要保留、存储和访问十年或更长时间,而在其他应用程序中,部分或全部数据可能几乎立即被丢弃。

在基础层面,变化大致分为三大领域:

  1. 处理速度更快,改进取决于处理器和加速器的数量和类型。

  2. 更快的片上和片外数据吞吐量。

  3. 提高能源效率,这取决于数据的结构方式、使用了多少不同类型的数据以及如何优先处理这些数据。随着在边缘生成更多数据,这变得尤为重要,其中许多系统依赖于电池供电。

在所有设计中,数据都需要流入芯片或系统。从那里,它必须被适当地路由,根据特定应用程序的需要进行处理,然后发送以供进一步处理、存储或丢弃。越靠近所有这些都可能发生的数据源,延迟和整体能耗就越低。这在概念上听起来可能很简单,但实现很快就会变得非常复杂。这取决于特定用例、片上或片外的各种依赖性、上市时间设计限制,以及设计和制造成本预算、系统功率以及系统在不影响散热的情况下散热的能力。其他组件。

“它需要一个完整的生态系统,” Arm研究员 Peter Greenhalgh 说. “你想要移动数据,处理数据,你想要它是安全的,你想要通过正确的内存管理来处理它。理想情况下,您希望尽可能多地利用标准软件环境,因此您可能希望虚拟化允许它由不同的计算核心处理。并且您希望能够在启动软件、管理性能时对其进行调试,并将其中的一些内容提供给客户,而您可能想要更深入的内容。因此,您正在从更大的计算变体(例如视频加速和机器学习)进行异构计算。为了操纵、移动和操作这些数据,你需要更多的硬件。硬件的数量提高了标准,因此当您构建某些东西时,您可以加速该数据。”

许多最初的数据驱动架构是为数据中心和大容量设备(例如智能手机)开发的,在这些设备中,NRE 成本更容易被证明是合理的。但这些概念开始蔓延到大公司之外。越来越多的芯片制造商正在定制系统,以便能够更有效地处理不同类型的数据。RISC-V之所以流行是因为源代码本身可以针对特定目的进行修改,但它肯定不是唯一的。大多数其他处理器现在都带有一系列定制选项,并且有相关的推动力将某种级别的可编程逻辑添加到许多这些设备中。

Synopsys 的IP 子系统产品营销经理 Rich Collins 表示:“我们尽可能提高灵活性,而且我们始终有能力为客户提供加速器。” “但现在我们看到越来越多的客户利用这一点。AI 是一个流行语,现在您可以将神经网络引擎安装到标准处理器上。”

这有助于更快地处理特定类型的数据,但这只是难题的一部分。软件定义架构是第一步,有助于为特定应用程序和终端市场定制设计。下一个重大转变发生在更高的抽象级别,精确定位数据的处理位置、不同数据类型使用的硬件,以及应如何移动、存储和确定数据优先级。

这需要重新思考系统中实际发生的事情,以及选择不同选项的后果。在内存或近内存中处理一些数据会减少数据传输的距离,从而减少移动数据所需的能量。

但它也开始模糊内存和处理器之间的界限,这在计算的早期就已经存在。此外,这增加了关于如何确定处理完成的优先级以及处理速度需要多快的新问题。并非所有事情都需要最快的处理速度。例如,车辆中的备用摄像头需要优先,而使用相同信息娱乐系统的音乐选择可以等待。

“如果您拥有不再区分内存和计算之间的新架构,并且如果您拥有神经网络之类的东西,那么我们将需要一种不同的方式来描述这些系统,”设计方法学部门负责人 Roland Jancke 说。Fraunhofer IIS的自适应系统工程部。“虽然不需要更改任务配置文件格式,但您会看到系统结构或描述的持续改进。”

这在 Apple 当前的计算架构中显而易见。西门子 EDA 的IC EDA 执行副总裁 Joe Sawicki 表示:“几年前发生的最令人惊讶的事情之一是,苹果成为第一家推出 64 位应用处理器架构的公司。“在此之前,每当你想到 64 位时,它都是一个地址空间问题,能够管理更大的数据集,引入更大的软件。但苹果并没有因为这个原因这样做。他们这样做是因为这让他们更加节能。真正谈论的是将芯片设计到位于其上的软件堆栈的一个方面。”

这将验证设计的重点转变为规范,重点关注最终用户应用程序。“这是关于真正了解最终用户应用程序是什么,”Sawicki 说。“该最终用户应用程序可能不仅仅是简单的数据处理。它可能涉及与外部世界的接口,并且它正在改变设计和验证,因此它必须跨越并越来越多地处理验证在现实世界中运行的最终用户软件堆栈的那些方面,这是对设计进行更多数据处理的方式一方面,在最终用户体验方面投入更多,以及更全面地了解如何优化设计。”

数据吞吐量

要使这一切发挥作用,数据必须智能、快速且安全地移动。

“我们仍然需要弄清楚如何正确地移动数据,” Cadence解决方案和生态系统高级集团总监 Frank Schirrmeister 说. “它的移动速度有多快,你把它放在哪里?你有它在缓存中吗?它是否必须跨越小芯片边界——或者更糟的是,跨越封装边界?这一切的影响有多大?这是数据和计算协同设计,它是一个优化标准。这就是边缘计算存在的原因。如果我们可以立即将所有这些数据传送到一个数据中心,那么我们就可以将所有数据中心放在南极洲并在那里进行所有计算。相反,我们必须谨慎决定在哪里计算数据。您是在传感器上、设备上还是在远端进行操作?它们都有不同的延迟、功率和计算要求。因此,即使在数据中心之外,您也必须非常严格地设计应用程序。”

当然,设计仍然需要在复杂芯片中进行标准检查,例如确保导线足够粗以将电阻降至最低,这样它们就不会产生过多热量,或发射过多电磁辐射来干扰其他信号。设计越异构和复杂,让一切正常工作的挑战就越大。

“我们的业务是分析,其中很大一部分是信号完整性、电磁干扰和电源数据,” Ansys产品营销总监 Marc Swinnen 说。“一条慢速、短距离的电线不需要太多的分析。一个简单的 RC 提取器就可以了。但是,当您在 4 或 5 厘米外的中介层层上运行相同的高速总线,并且您试图在那里挤压高速 SerDes 时,分析部分变得更加重要,并且干扰模式也会增加. 因此,您以前不必担心的事情,尤其是电磁干扰,变得更加重要,分析也随之增加。”

此外,所有这些都需要在优先级和依赖关系的上下文中进行设置,这通常包括片内和片外的路由数据,甚至内部和外部。反过来,这需要在路由方面比过去具有更大的灵活性。

“运行时存在动态路由机会,” Arteris IP董事长兼首席执行官 K. Charles Janac 说。“我们一直反对运行时动态路由,因为验证存在问题。如果您有数十亿笔交易,并且每次都强制流量进入单个连接,则验证会简单得多。但是未来有机会缓解这种情况,并且 NoC 基本上能够根据某种路由控制器动态地重新路由流量,而后者又由一些全局软件控制。”

这需要一定程度的系统智能,它开始在从互连到网络接口卡和各种内存产品的所有领域中全面出现。除此之外,芯片和系统架构正在发生重大变化。

“应该从应用程序/用例的角度研究如何构建架构以优化数据移动,”英飞凌科技美洲公司技术、创新和系统副总裁 Kamesh Medepalli 说. “对于本地传感器处理等应用,根本不使用太多存储并在样本到来时对其进行处理将是有效的。对于物联网中的无线网络等应用,TCP 拥塞控制协议固有地规定了某些内存要求,以实现最大吞吐量性能。最后,在确定最佳架构时,还需要考虑这些应用程序的性能与功耗之间的权衡。” 人工智能在许多这些设计中发挥着关键作用,推理算法的占用空间越来越小,这使得人工智能越来越成为可能。与过去不同的是,当许多系统需要千兆字节的数据进行推理时,当前的想法是可以使用更少的数据并更接近数据源来完成更有针对性的推理。反过来,

“本地推理不仅可以在本地智能地处理数据,还消除了将数据传输到/从云中传输数据时对额外内存和电池消耗的需求,”Medepalli 说。“根据所使用的应用程序和算法,边缘 AI 还可以通过减少SRAM占用空间和片外存储器实现良好的功率/性能权衡,从而减少泄漏和产品成本。模拟 AI 的进步正在减少对数据转换/存储的需求。类似的神经形态计算正在通过内存计算以低功耗实现高性能人工智能。这些技术与片上安全、高性能非易失性存储器相结合,有助于提供先进的架构选项,以提高性能和功耗,同时对各种物联网应用具有成本效益。”

片上、片外、封装内

自引入计算以来,高效、快速地移动数据一直是硬件设计团队关注的主要问题。在冯·诺依曼架构,与摩尔定律保持加上持续工艺的缩小,以及新材料的广泛征集,启用在性能和降低功耗的不断改进。但扩展本身不再能提供足够的功耗和性能改进,而且随着无处不在的传感器生成的数据量持续飙升,这两者都至关重要。

基于对移动数据具有相关成本的认识,这导致了芯片设计中最重要的架构转变之一。在云中处理所有数据并将其发送回终端设备可以降低终端设备的设计成本和材料清单,但它需要大量带宽和功率来驱动信号,并且会增加延迟。即使使用片外存储器也是如此,设计团队一直在努力解决不同功能和应用程序可接受的延迟量。

“其中一个挑战是,无论何时移动数据并与外部芯片通信,都需要消耗大量电力,” Rambus 的研究员和杰出发明家 Steven Woo 说。“DDR5 是业界下一代主存储器技术,它更节能。它提供更多带宽,并且与我们已有的基础设施类型兼容且非常相似。在很多方面,这对行业来说都是音乐,因为它确实检查了所有这些框作为一个伟大的过渡计划,同时也解决了性能和功率的问题。”

图 1:使用 HBM2 移动数据的成本,PHY 和 DRAM 以 2Gbps 的流工作负载和 100% 读取或 100% 写入的功率故障。资料来源:Rambus

然而,并非所有技术都以相同的速度发展。这是标准如此重要的一个关键原因。当特定技术的新版本发布时,它们有助于消除这些差异并提供向后兼容性。但是,由于有如此多的部分在运行,并且不同方法之间的界限越来越模糊,这些标准的努力在未来会取得多大进展还有待观察。

从更少中获得更多

在新技术和方法的漩涡中,一些旧方法正在新环境中重新审视。例如,考虑压缩,它曾经被视为移动大量数据的最佳方式。现在,有了更好的吞吐量,这需要与压缩/解压缩所需的功率进行权衡。

Mixel 的首席执行官 Ashraf Takla强调了一些挑战。“从系统的角度来看,您是否在没有压缩的情况下在高频下使用四通道?那么,压缩之后,你需要的带宽就少了,那你怎么办?您是降低速度,还是减少车道数量?通常,后者是更好的解决方案。你不是以较低的速度跑,而是全速跑,但你减少了车道的数量,因为这不仅可以节省动力,还可以节省销钉。”

这里的关键变量是数据移动。Rambus产品营销经理 Joe Rodriguez 表示:“对于控制器而言,存在引脚数限制,但用户想要的是速度。” “因此,我们尝试根据需要尽可能多地利用 PHY。然后,当涉及到用于显示技术的控制器时,我们要确保显示流压缩引擎不仅获取数据包信息,而且知道哪些帧即将到来。当我们进行硬 DSC 集成时,我们有一个可选的视频接口,它确实知道文件的可见性在那里不存在。因此,就提高后端的吞吐量而言,该视频接口对于简化集成和验证具有巨大的好处。”

增加晶体管密度只会增加复杂性。5 纳米和 3 纳米的信号受到电磁干扰和各种类型噪声等物理效应的冲击,需要针对芯片一侧到另一侧的热梯度进行规划。将一些数据处理卸载到其他芯片和系统上有助于限制单个芯片上的这些影响,但对更快的数据处理和数据移动的需求在各地都提出了挑战。

“带宽是显示技术中的一个大问题,”Hardent IP 产品副总裁 Alain Legault 说。“显示技术有四个维度。它有 X 和 Y,加上像素深度和时间,我们一直在扩展所有这些。显示分辨率越来越高。人们现在想要从 8 位视频变为 10 位视频,并且他们想要两倍于过去的帧速率。随着 16 位变得非常普遍,以及以每秒 120 帧为目标的移动应用程序,带宽一直在飙升。工程团队一直在寻找管理该带宽的方法。视觉无损压缩是一种非常好的方法。通过标准化的 DSC 压缩,我们基本上能够将视频压缩 3 倍,同时对图像质量没有视觉影响,我们称之为视觉无损压缩。

当涉及到显示技术时,移动和处理数据的延迟有一些明显的影响。对于增强现实和虚拟现实,延迟会使用户感到恶心。在汽车应用中,延迟可能会导致事故。

结论

过去,半导体行业的大部分努力都集中在通过缩小功能来提高性能和降低功耗上,但随着摩尔定律的好处不断减少,重点已转移到架构改进上。现在,随着在端点和边缘生成更多数据,焦点再次转移到如何以最小的延迟和最低的能量处理不断增长的数据量。

设计团队现在正在努力寻找以最小移动量处理数据的最佳方法,以及如何对设计进行分区,以便最重要的数据首先得到处理。挑战并非微不足道,但智能和普适计算的好处是巨大的,并且在可预见的未来,这种方法有望继续扩展到新的市场和应用程序。