前言
在新版ISO26262第11章增加對半導體的規範下,功能安全已經從車用系統層級延伸到半導體部件身上。而在一般品質控管下半導體廠商已經能使用常見的失效分析方法如FMEA, FMEDA, FTA來進行永久性失效 (permanent fault) 分析。但暫態失效 (transient fault) 對於大部分半導體廠商而言,其分析和設計保護的相關知識在對比下相較陌生許多。
失效淺談
Bathtub curve是一個品管/高可靠性工程師極度熟悉的圖表, 然而圖標中的“Observed Failure Rate”和Constant (Random Failure)卻是較少工程師有深入瞭解的部分。因此許多工程師對於暫態失效分析缺乏經驗,導致就未知的輻射效應來進行FMEDA或FTA分析時較容易出現盲點。

圖 1:Bathtub Curve
業界的已知秘密
因此國外的國際大廠究竟是如何對暫態失效和其失效模式進行評估呢?為何相關的文件甚至到ISO26262的保護方案如ASIL decomposition的triple module redundancy(TMR)技巧都只有點到為止?簡單來說,大部分的國際大廠如AMD, TI, Intel, Renesas, nVidia等等都有實際執行過輻射測試。在落實輻射測試後也有發表眾多相關輻射效應和保護方案的文章。但實際經驗和重點知識一般都被視為商業機密和競爭優勢被保護著。
從零開始做失效分析如FTA或FMEDA的挑戰
初次撰寫FTA或FMEDA的工程人員一般都對於暫態失效之計算方法感到納悶。永久性失效雖然有規範如SN29500或 IEC61709(取代了IEC62380)提供了對應的預測模式,但暫態失效的評估大部分都是用永久性失效之FIT來乘一個倍數來估算或是透過專家評估 (Expert judgment)。但此做法往往忽視了製程本身的影響,std cell的差異性(如4T vs 6T, HIT/DICE架構,等),也沒有提供一個合理的triple module redundancy (TMR)的計算公式。再者,由於撰寫失效分析的工程師沒有實際輻射測試知識、導致雖然就一般的功能失效可以做到評估,但就實際非一般功能的失效評估(如layout)就常被忽視。
IC設計者常見的迷思
通常初次落實設計高可靠性器件的工程師常常陷入以下幾個迷思。
- Foundry已經解決暫態失效問題
- Foundry有提供暫態失效相關測試報告
- EDA工具有提供保護方案如TMR或ECC IP等
但如果進一步瞭解就會發現實際情況並非如此。Foundry最多只會提供部分std cell的軟失效.而此數字通常不含蓋在先進製程中造成軟失效的主要來源之一的single event transient(SET).
測試報告一般也會備註其FIT為參考用。而初次就高可靠性需要特別設計的工程師在沒有相關專業知識下可能為了高可靠性的設計保護反而導致器件在增加了電耗,損失了速度,可用面積減少的情況下造成產品在客戶端使用後發現器件更加的不穩定和更常發生失效或誤報失效。
而雖然現有幾間EDA大廠都有號稱對功能安全設計的方案。但各家目前的TMR方案並不考慮SET, DCE或out-of-sync的問題。ECC保護則是忽視了scrubbing或MBU問題導致其保護方案無用的情況比比皆是。
SER專業知識的必要性
因此利用實際測試來驗證失效模式的假設可以確保Safety Manual的高可靠性相關內容可以吻合環境應用情景。更可以用來作為其他器件之後FMEDA的基礎。也可以用來當做已開發器件的失效分析和保護方案之建議。而SGS能夠更進一步提供ICDES之業界常見設計技巧之相關課程來確保其開發過程可以落實有效之高可靠性應用設計和保護方案以及最後的驗證。
本文由SGS提供