计算机芯片的历史是极端小型化的激动人心的故事。
众所周知,数字世界催生了一种趋势,规模越小越好。那么,为什么在地球上您想反转方向并使芯片更大呢?好吧,尽管没有特别充分的理由有一个芯片一个iPad大小的一个iPad,这样的芯片可能被证明是天才更具体的用途,如人工智能和物理世界的模拟。
至少,这就是世界上最大的计算机芯片制造商Cerebras所希望的。
Cerebras晶圆级引擎无论以何种方式切成薄片都非常庞大。该芯片的侧面是8.5英寸,并装有1.2万亿个晶体管。在接下来的最大的芯片,NVIDIA的GPU A100,措施一英寸的一侧,有一个单纯的54个十亿个晶体管。前者是新的,基本上未经测试,到目前为止是同类产品中的一种。后者广受喜爱,已大量生产,并在过去十年中接管了AI和超级计算的世界。
那Goliath可以在David身上翻转脚本吗?Cerebras的任务是找出答案。
去年,当Cerebras首次脱颖而出时,该公司表示,它将大大加快深度学习模型的培训速度。
从那时起,WSE进入了少数超级计算实验室,该公司的客户正在不断努力。其中一个实验室,即国家能源技术实验室,正在寻找它在人工智能之外还能做什么。
因此,在最近的一项试验中,研究人员将芯片与流体动力学模拟中的超级计算机进行了比对,该芯片位于一个称为CS-1的宿舍房间微型冰箱大小的一体式系统中。模拟流体的运动是一种通用的超级计算机应用程序,可用于解决诸如天气预报和飞机机翼设计之类的复杂问题。
该试验在Cerebras的Michael James和NETL的Dirk Van Essendelft领导的团队撰写的预印本中进行了描述,并在本周的SC20超级计算机会议上进行了介绍。研究小组说,CS-1完成了发电厂燃烧模拟,比焦耳2.0超级计算机完成类似任务的速度快200倍。
CS-1实际上比实时更快。正如Cerebrus在博客文章中写道: “它可以告诉您未来将发生什么,而物理定律不会产生相同的结果。”
研究人员说,CS-1的性能无法与任何数量的CPU和GPU匹敌。首席执行官兼联合创始人安德鲁·费尔德曼( Andrew Feldman)告诉VentureBeat,“无论超级计算机有多大,它都是正确的”。在某种程度上,对像焦耳这样的超级计算机进行扩展在这种问题上不再产生更好的结果。因此,焦耳的仿真速度达到了16,384个内核的峰值,仅占其86,400个内核总数的一小部分。
通过对两台机器的比较,可以得出结论。焦耳是世界上排名第81的超级计算机,占用数十个服务器机架,消耗高达450千瓦的功率,并且需要数千万美元的建造费用。相比之下,CS-1可以容纳在服务器机架的三分之一中,消耗20千瓦的功率,售价为几百万美元。
尽管这项任务很细致(但很有用),而且问题非常适合CS-1,但它仍然是一个非常惊人的结果。那他们怎么拉呢?一切都在设计中。
计算机芯片的生命始于称为晶片的大硅片上。将多个芯片蚀刻到同一晶片上,然后将晶片切割成单独的芯片。在WSE也被蚀刻到硅晶片上的同时,晶片仍作为一个单独的操作单元完好无损。这款晶圆级芯片包含近40万个处理核心。每个内核都连接到其自己的专用内存及其四个相邻内核。
将这么多内核放在一个芯片上并为其提供自己的内存,这就是WSE更大的原因。这也是为什么在这种情况下更好的原因。
大多数大型计算任务都依赖于大规模并行处理。研究人员在数百或数千个芯片中分配任务。这些芯片需要协同工作,因此它们之间保持着持续的通信,来回传递信息。当信息在进行计算的处理器内核和共享内存之间存储信息时,每个芯片内部都会发生类似的过程。
这是一个有点像一个带点儿怀旧公司,做它的所有业务在纸上。
该公司使用快递公司从镇上其他分支机构和档案中发送和收集文档。快递员知道穿过城市的最佳路线,但行程只需要最少的时间,具体取决于分支机构与档案馆之间的距离,快递员的最高速度以及路上有多少其他快递员。简而言之,距离和交通会减慢速度。
现在,想象一下公司正在建造一座崭新的闪亮摩天大楼。每个分支机构都搬进了新大楼,每个工人在办公室里都有一个小的文件柜来存储文件。现在,他们需要的任何文档都可以在跨办公室或穿过大厅到达邻居办公室所需的时间进行存储和检索。信息通勤几乎消失了。一切都在同一个房子里。
塞雷布拉斯的巨型芯片有点像那座摩天大楼。与需要联网大量传统芯片的传统超级计算机相比,它的信息传递方式(通过其专门定制的编译软件进一步辅助)更加高效。
值得注意的是,该芯片只能处理足够小的问题以适合晶片。但是,由于机器能够实时进行高保真仿真,因此此类问题可能具有相当实际的应用。作者指出,例如,该机器在理论上应该能够准确模拟试图降落在驾驶舱上的直升机周围的气流,并使过程半自动化,而这是传统芯片无法做到的。
他们指出,另一个机会是使用模拟作为输入来训练也驻留在芯片上的神经网络。在一个有趣且相关的示例中,最近在解决模拟流体动力学问题时,加州理工学院的机器学习技术被证明比解决同类偏微分方程快1000倍。
他们还指出,芯片的改进(以及其他类似产品,如果有的话)将推倒可完成目标的极限。Cerebras已经准备发布其下一代芯片,该芯片将具有2.6万亿个晶体管,850,00个内核以及两倍以上的内存。
当然,晶圆级计算是否真正起飞还有待观察。这个想法已经存在了数十年,但是Cerebras是第一个认真追求它的人。显然,他们相信他们已经以一种有用且经济的方式解决了这个问题。
其他新架构也正在实验室中进行研究。例如,基于忆阻器的神经形态芯片通过将处理和记忆放入单个类似晶体管的组件中来模仿大脑。当然,量子计算机位于单独的通道中,但是可以解决类似的问题。
这些技术中的一种可能最终兴起,以统治所有这些技术。或者,这似乎很有可能,计算可能会分裂成一堆怪异的基本芯片,这些芯片被缝合在一起以根据情况充分利用每个芯片。