事件:产业链传GB200已经重新流片, wafer in已经开始,预计 1-2 个月 wafer out。
NV每周二和台积电例会,目前进度非常快和及时,也是NV自己的关键时刻,再次流片的具体时间也出了。目前台积电看设计问题不大,虽然仍有预期差。台积电找了他们所有分公司最好的工程师全力攻克这个问题了,差不多9月中就有最终的答案(一个半月左右,之前花了1亿多美金的wafer全部作废)。基本上之后tape out顺利的话,之前的问题就迎刃而解了,NVL72(36x2)就是按照之前的的进度出货,甚至不会延后,然后要求任何产品都给NVL72让路,包括之后的B200 B200a hgx,只要有NVL72的需求,提前满足。
渠道这边非常多,有乐观,有悲观,确认肯定是真的,而且以后每周二NV跟台积电例会可以继续跟踪。
NVL72(其实都是NVL36x2)出货节奏Q4本来预定是6000柜,主要是AWS 2000台,微软 2000台,meta 500柜,谷歌 1400柜,其他销售代理全是样品机,如果这次能顺利流片,最终理论上都能赶上(后续继续跟踪)。
而新产品b200a nvl36 aircool(第一批确定卖苹果了)会提前设计好并且出货,死命令给了2025年4月25日这个时间(新产品,这不是之前说的b200a ultra nvl36)算力密度差不多是nvl36的一半,nvl72的四分之一,估计价格也差不多(应该会加一堆配件等效贵点 nv老套路了 取代8卡的HGX)。
以下是专家观点:
Q:请问CoWoS-S和CoWoS-L的区别?
A:台积电先进封装分为前后段,前段的部分是SoIC,包括Hybrid Bonding、SoIC-X和SoIC-P;后段的部分包括InFO和CoWoS。InFO是chip first,分为InFO-R和InFO-L,主要使用者大部分都是苹果,比较高端的可能会用到LSI(InFO-L)的技术,CoWoS-L也会用到。苹果从M1 Ultra开始会用一个Fusion的技术,有点像是bridge die在中间,把它叫作LSI(Local Silicon Interconnect),Local Silicon Interconnect的意思就是bridge die,然后再加上RDL Interconnect的技术。CoWoS包括CoWoS-S、CoWoS-R和CoWoS-L。CoWoS-S的全称是CoWoS Silicon Interposer,也就是芯片会做在silicon interposer的wafer上面;CoWoS-R是RDL Interposer;CoWoS-L的技术跟InFO-L的技术很像,都用到了LSI也就是bridge die的技术。
CoWoS-S从process flow讲起,进来的wafer是挖好TSV的wafer,这个一进来的东西就叫做Silicon Interposer wafer,这也是为什么如果台积电做不出这么多的Silicon Interposer Wafer,没有办法挖这么多TSV,你会听到我们可不可以跟UMC买,可不可以跟Inotera(美光)买,可不可以跟一些记忆体的前段厂商购买,只要表面RDL的pitch能够达到客户的要求,基本上都会跟这些厂商购买Silicon Interposer Wafer。但是RDL Interposer无法外购,它属于CoWoS-R的部分制程无法外购。CoWoS-L也是在CoWoS-R的基础上衍生的,所以是LSI+RDL Interposer,因此CoWoS-L也无法外购。回到CoWoS-S的制程,当挖好TSV的Silicon Interposer Wafer准备好后,就会开始做黄光表面,做完之后会做一层coating,在上面bonding一个Carrier,然后会用wafer etcher将其磨薄,把里面的TSV露出来之后,RDL放上去,C4 bump放上去。这时候开始上第二层的carrier,然后将第一层的carrier拔掉,在拔掉的位置bonding GPU,之后再把第二层的carrier拔掉,形成大家常看到的Interposer,这部分是CoW的阶段。之后再进入CoWoS的oS阶段,也就是Interposer Die on Substrate的部分,最后HBM才会上去。
CoWoS-R是RDL Interposer,来源于fan-out的技术,也就是Face Down Chip Last的技术,黄光做完之后才上die,CoWoS-S也是chip last的技术。CoWoS-R一开始一般都是一个glass carrier,glass carrier业界比较常用的型号是康宁的EAGLE XG,在glass carrier的上面会涂一层sacrificial layer也就是release layer,通常胶会由像Brewer Science这种会提供Temporary bond技术的胶体的公司提供,会在胶体上面做RDL layer,做完之后就可以GPU放上去,flip chip把GPU放上去之后过mass reflow,过完mass reflow接合在一起之后就可以进行wafer molding。也可以做chiplet的概念,在同一个pad的黄光里面放几颗不同的die。再之后会用laser ablation de-bonding将release layer这一层有点粘性的部分碳化掉,让它失去粘性后就可以把这层玻璃拔掉,将表面清洗干净。清洁完之后将其翻过来,继续做剩下的RDL,之后进行wafer ball mount。这部分完成的就是CoWoS-R的CoW的阶段,其中用黄光做起来的这一块就是RDL Interposer。RDL Interposer的性能表现不及Silicon Interposer,RDL的线路是一层一层迂回地走,而Silicon Interposer是垂直地走。但是RDL Interposer由于不需要挖洞而不受限于工艺上的物理极限,因为洞没有办法缩到太小,还是需要用传统曝光的方式去照,基底Silicon based wafer有物理极限,光罩一颗开到最大是32x26。如果想把Interposer做大,就需要用到玻璃基底,因为不需要挖洞,所以不受限于光罩面积的限制。但是当光罩面积开到太大比如7-8倍时,会导致线路走得太长,RC delay也会很长,性能表现就会变差。
另外,chip last和chip first到底有什么差别,为什么high density只能走chip last,这是因为CTE(热膨胀系数) mismatch,die如果是以chip first的方式上去之后,molding完之后通常会有很大的warpage,之后再去上RDL的时候,就会存在精度上的限制,所以造成RDL的线路不好做。Chip last的技术就是RDL在还没有加热(molding)的时候上上去,这时就不存在warpage的问题,RDL就可以做到很细。所以英伟达的产品不能用chip first的主要原因是由于热膨胀问题造成翘曲,导致黄光不好曝,另外RDL first的稳定性比较好。但是chip first的成本比较便宜。
CoWoS-L就是接刚才CoWoS-R的部分去做,刚才讲到RDL Interposer,如果不想要一颗device上面的RDL做得太大,又想要做到SIP,但是要把两个GPU做到一起,又想要缩短两个device的GPU top之间的距离,不让路径跑得那么长,就有了CoWoS-L,也就是LSI,俗称bridge die。Bridge die的做法是有一颗bridge die是做face up的制程,晶面朝上,接下来把两颗ASIC或HBM放上去,就可以通过bridge die进行桥接,缩短了两颗芯片之间的传输距离。台积电的CoWoS-L对应的英特尔的技术叫做Foveros Omni,Foveros是可以做die first也可以做die last,台积电是做die last的技术,而FOCoS-Bridge也就是日月光的技术是做die first。
Q:英伟达在Blackwell上首次使用CoWoS-L时遇到了哪些良率问题?这些问题主要出现在什么环节?
A:问题在于两颗logic die和bridge die的接合,传统的mass reflow,因为pitch缩小到一定程度导致flux无法清洗干净进而造成low yield,然后用LAB的性能表现不好,所以现在在试TC Fluxless,正在用ASMPT和K&S的TCB机台在做。这种Fluxless的技术良率不是特别高,有一些技术上的问题需要突破。因为TC Fluxless还属于比较新的技术,在存储厂商那边也只是在尝试,还没有开始量产,所以Fluxless这个技术严格来讲世界上目前还没有任何生产,都还在R&D阶段。
Q:台积电CoWoS-S和CoWoS-L的良率分别是多少?
A:CoWoS-S技术已经非常成熟,其良率通常能够超过95%。CoWoS-L是一种比较新的技术,英伟达应该算是第一个使用的重量级客户,以前大部分都只用到CoWoS-R,以前还没有走到chiplet的概念,现在Blackwell需要将两颗B100进行串联,所以要用到bridge die。
Q:所以这样就解释了英伟达现在推出了一个新的产品B200-A,只有一颗die,就可以切换回CoWoS-S去做,就不用担心良率的问题。
A:是的。
Q:英伟达B200的推迟可能主要是因为台积电CoWoS良率的问题,这是在预期之内的事情吗?
A:预期之内。因为一直有听到出现问题的声音,然后现在要去尝试Fluxless,但是台积电对于Fluxless还缺乏经验,所以很可能就会出现问题。
Q:后续台积电会如何提升良率?
A:可能还是会继续尝试Fluxless。LAB是英伟达一直在推的,但是LAB也需要用到flux,但由于pitch太小铜柱太细所以会有flux清洗不干净的问题。