在 IC 制造中的YMS良率

来源:众壹云 发布日期:2021-09-03 09:39

Yield,Quality

数据分析可以大大提高可靠性,但成本权衡很复杂。

在这些设备离开晶圆厂之前,通过测试并最终进入现场的不良芯片的数量可以显着减少,但开发必要测试和分析数据的成本大大限制了采用。

为 IC 确定可接受的测试逃逸指标对于提高芯片制造中的良率与质量比至关重要,但究竟被认为可接受的指标可能因细分市场而异——甚至在同一市场内,取决于特定用例或大体时间。随着芯片变得更加复杂并且它们成为安全关键型和任务关键型应用的重要组成部分,我们的目标一直是减少现场故障的数量,但对质量的重视已经蔓延到其他市场,以及.

在 1990 年代,质量工程师将台式机和笔记本电脑的缺陷设置为百万分之 500 (DPM)。凭借每周 100 万件的销量,计算机系统公司可以轻松检测到逃逸。今天,汽车原始设备制造商对更复杂的设备要求 10 ppm,尽管汽车制造商可能会发现在此 DPM 水平上测量逃逸量具有挑战性。找到这些逃逸涉及对数据进行更深入的研究,而这反过来又需要对数据管理、数据分析工具以及使这一切正常进行所需的工程工作进行投资。

对于每个减少测试时间的决定、测试内容审议和对测试逃逸的响应,确定测试内容过程的工程团队必须努力解决良率/质量/成本三角形中的建设性张力,这是确定测试内容过程所必需的。所有这一切的基础是拥有足够的好数据。

Advantest America技术和战略副总裁 Keith Schaub 表示:“我们在半导体行业中存在一个有趣的问题,即通常生产良率非常高,这意味着没有那么多的失败数据。” “那么你如何开发一个模型来检测几乎从不失败的故障?这是一个很难的问题。你必须想出一些创造性的数据盲法,你试图让模型寻找一些不同于常态或不寻常的东西。”

这些用于检测测试逃逸的预测模型的主要驱动力是来自客户的反馈。原因是“非同寻常”的故障部件在客户系统中可能非常好。如果测试逃逸下降并且对失败的好零件的产量影响很小,那么新的测试指标就足够了。

你需要多少数据?

在响应客户退货时,产品、质量和良率工程师重新审视良率/质量/成本三角权衡。质量问题需要解决,如果这意味着一些好的零件被扔掉,质量工程师通常认为这是一个可以接受的损失,以使客户满意。

这听起来可能很奇怪,但对质量和产量工程师来说却很有意义。首先,产量以百分比为单位进行评估,而质量以 ppm 为单位进行衡量。

Yield,Quality

此外,为了有效地追踪测试逃逸,工程师需要足够的生产量来获得最终客户系统的反馈。逃逸越多,工程师确定问题是否存在所需的生产量就越少。从那里,评估新测试是否足以筛选测试逃逸只需要足够的数量。这些数字不必相同。

没有任何测试是完美的。所有这些都可能会失败一些好的模具或单位。这些假阴性通常被称为矫枉过正。如果新测试的影响在 100 ppm 范围内,良率工程师不会眨眼。1,000 ppm 可能是产量工程师和质量工程师争论的战线。然而,在应对客户失败时,质量工程师通常会获胜。如果良率损失过大,则产品工程师需要调查其他可能的测试以区分好零件和坏零件。

坏零件与好零件不合格的比率

当您应用测试时,有多少好零件被丢弃?如果你费心去看,你只能测量这个。

系统测试或参数的工程特征级别仍然是标记真正失败的最终仲裁者。考虑涉及假阴性的两种不同的真实场景。第一个围绕 I/O 时序的测量。在比较ATE用坏零件的表征来确定用于计时测量的通过/失败零件,发现存在 1 真失败与 2 真好之比。第二个涉及实施异常值检测技术来检测逃逸。测得的逸出量为 100 ppm。异常值检测技术捕获了逃逸并失败了大约两倍于系统级测试测量的结果。巧合的是,两个示例都发现了 1 对 2 的好零件比率。对于第二个示例,检测 100 ppm 的客户故障导致大约 300 ppm 的总故障,200 ppm 作为产量损失。

那么您需要多少数据来确定区分好零件和坏零件的测试限制或预测模型?

“简短而简单的答案是,'你想达到多准确?'”IEEE 高级成员、拥有 40 年测试经验的 Jeff Roehr 说。“如果您可以接受 10% 的错误,您可以在大约 30 个零件后开始实施基于批次的自适应测试限制。当样品达到 300 个零件时,精度显着提高(大约 1% 的误差)。”

这些数字假设感兴趣的参数呈高斯分布。例如,如果分布是双峰的,这种误差就会改变。

Sample

如果工程师有以前的产品历史作为他们测试方法的基础——即总是对这个产品进行静态部件平均测试——他们可以接受 30,000 个单位,大约有 0.01% 的误差。

并非总是需要大量数据集来验证新测试屏幕的有效性。如果工程师有来自客户系统的反馈,即使使用较小的数据集,他们也可以充满信心。但是,需要的是唯一 ID。

Advantest America 的战略业务创建经理 Ken Butler 强调了大型 SoC 和模拟产品之间的差异。“对于大型 SoC,几乎总有一个可用的电子芯片 ID (ECID),因此您可以在整个制造过程中对其进行跟踪。对于模拟设备,ECID 不太常见,因为芯片尺寸非常小,而且你根本负担不起芯片面积,”Butler 说。“因此,对于异常值分析,您通常必须运行开环,这意味着您没有特定的故障芯片可以用作开发异常值筛选的目标。在这种情况下,您将需要使用尽可能多的晶片来确定您的筛选参数。但并非每个 IC 产品线都有大量可用的材料,因此您可以使用您拥有的任何材料。令人担忧的是,如果您创建基于多个晶圆批次的屏幕,您会在样本中看到足够多的工艺变化的可能性很低。那么你可能会错过一些缺陷机制,否则你可能会发现更多数据。”

那么,挑战在于故障发生率如此之低,以至于您需要足够的数量来辨别它们的存在。一旦您知道它们存在,您就可以研究它们并找出使它们与优秀单位不同的原因。在影响客户的测试逃逸的情况下,失败可能看起来是随机的,这使得似乎无法确定测试屏幕。

确定检测泄漏的测试

对于 100 ppm,客户只需要最少 30,000 个单位的体积,尽管 300,000 个单位让工程师对问题的严重程度更有信心。这提供了足够的信息来进行详细的数据分析,以确定“其中一个与另一个不同”。

关于如何管理测试逃逸的公开记录案例数量非常有限。这是可以理解的,因为这样的故事暴露了 IC 供应商和最终客户。但它的价值不能被夸大。这些案例提供了异常检测测试有效的证据,即使工程师找不到物理证据。

“在 2005 年,我们遇到了一个产品的现场退货问题,该产品的泄漏量为 100 ppm。我们的分析表明,这些现场返回在客户系统中根本不起作用,但它通过了我们在 ATE 上应用的所有测试,”Roehr 说。“系统级测试 (SLT) 不是我们生产流程的一部分,我们负担不起添加 SLT。我们确实隔离了现场返回的性质,以了解广泛的工程特性可以将现场返回与通过 SLT 和基于 ATE 测试的部件区分开来。我们无法承受在 ATE 上运行该工程特性类型测试的测试时间。”

那么现在的问题是是否可以使用其他一些测试参数来区分通过系统级测试的好零件的现场退货?

“我们开始挖掘数据,”Roehr 说。“这是我们发现的首批案例之一,当您查看晶圆上的零件时——逐个晶圆批次或逐个晶圆——我们可以开始看到一些东西。如果您查看整个规格范围内的零件,您不会发现问题。但是当你查看批次中的单个零件时,尽管这些零件完全符合规格,但仍有一些零件看起来不太像他们的姐妹。”

他指出,对选定部件的故障分析从未确定明确的缺陷机制​​,他推测行为的变化是由于与时序相关的故障——延迟时间稍长的信号路径。此外,系统测试中还运行了一小部分未通过新测试的零件样本。并非所有部件都未通过系统测试,但其中足够多的部件无法提供信心,现在存在足够的屏幕来检测所有现场返回。

数据收集和分析平台的投资回报率

所有测试数据的差异化因素可以为工程师提供磁石,让他们在大海捞针中找到针,这是测试逃逸。然而,如果没有足够的投资,这可能是不可能的。对于与 Roehr 类似的测试逃逸故事,其他产品工程师表示,他们可能需要 9 到 12 个月的时间才能了解测试逃逸问题。然后他们需要深入研究测试数据档案。要轻松做到这一点,需要在数据收集、存储和分析方面进行投资。此外,由于数据对齐问题和数据共享的业务障碍,IDM 的产品工程师比无晶圆厂公司的产品工程师更容易完成这项任务。

“分割的供应链和缺乏数据共享仍然是经典数据流中需要克服的一般数据管理差距:从客户设计到代工厂到 OSAT 到客户。Onto Innovation软件产品管理总监 Mike McIntyre 表示,今天为了帮助解决这个问题,我们看到了更多面向无晶圆厂客户的“交钥匙”制造选项。“这些构建选项有助于数据整合,但不幸的是,这些选项在支持的技术、应用程序和参与者数量方面都受到限制。”

半导体数据分析公司将他们的良率管理平台出售给无晶圆厂公司、代工厂、IDM 和 OSAT,因为这些客户希望了解他们各自在 IC 性能和质量方面的作用。很少有人能预先预测产品所需的新异常值检测技术。

工程经理问他们想要预先投资异常检测的队友的问题是:“投资回报是多少?” 在没有显示价值的先前工程经验的情况下预先了解这一点是一项挑战。产量/质量/成本测试三角形的成本方面出现了。管理人员想知道如果他们的团队花费工程精力预先找出异常值,他们会节省多少钱?工程师会问的另一个问题是,当系统应用程序需要 9 到 12 个月的反馈时,他们如何知道这些异常值是真正的故障。

产品存在安全问题的行业部门可能需要预先确定潜在的异常值测试。对于这些产品,风险缓解具有投资回报。对于进入计算系统的大型 SoC 和零件体积较小的 ASIC 设备,由于投资回报率不那么明确,因此很难证明其合理性。

“我们可以通过去除异常值来提高 DPM。那么,它真正提高了多少质量?” Broadcom 的研发测试工程师 Phil Nigh 说。“那么,让我们来看看测试典型的数字 SoC/ASIC。您通过避免异常值来检测多少额外的 DPM?我的经验可能高达 10%。而10%并不是很多。我想说,对于相对低产量的产品,很多客户无法衡量 10% 的 DPM 变化。”

结论

客户退货的测试逃逸将继续发生,产品、产量和质量工程师将需要做出回应。借助当今的YMS良率和测试数据分析平台,现在可以评估可能影响客户系统的可能异常值的测试数据。对于大多数产品工程师来说,提前识别它们似乎毫无意义,因为他们已经在应用所有已知的测试。

测试数据分析平台可以识别显示出明显人口差异的测试参数组合。然而,在没有证据证明它在客户系统中失败的情况下,大多数工程师仍然持怀疑态度,最终 DPM 只能在最终客户系统上进行测量。并非所有的异常值都表示某个部件会导致系统出现故障。