190 likes | 493 Views
Fehlerraten von HW. Hubert Kraut, 0025471. Inhalt. Klassifizierung typische HW Fehler Statistische Verteilungen Fehlerraten Trends Analyse von 2 Fehler Beispielen. Klassifizierung. Permanente Fehler Transiente Fehler Intermittierend: wirken transient, aber:
E N D
Fehlerraten von HW Hubert Kraut, 0025471
Inhalt • Klassifizierung • typische HW Fehler • Statistische Verteilungen • Fehlerraten • Trends • Analyse von 2 Fehler Beispielen
Klassifizierung • Permanente Fehler • Transiente Fehler • Intermittierend: wirken transient, aber: • Fehler treten wiederholt an der selben Stelle auf • mit einer ungewöhnlich hohen Fehlerrate • werden durch Komponententausch entfernt 90% aller Workstation Abstürze
Design Fehler • fehlerhafte Umsetzung der Spezifikation • mangelhafte Synchronisation: Metastabilitäten • mangelhafte Versorgungsspannungsstabilisierung: Electrical Overstress möglich • zu hohe Stromdichten
Ursachen für Designfehler • Wachsender Zeitdruck (Schere zwischen Produktivität und Komplexität) • zunehmender Anteil von Fremddesign • Fehlerhafte oder falsch ausgelegte Spezifikation bzw unzureichende Spezifikation am Projektanfang • Mangelhafter Tool Support
Fertigungsfehler • Wafer: • Verunreinigungen, Kristalldefekte, Microcracks, ... • Prozesse: • Masken-Alignment, Unterätzung, Ionen, ... • Packaging: • Hohlräume, Bonding-Defekte, Microcracks • Transport: • Handhabung, Umweltbedingungen • Bestückung: • Handhabung, Kurzschlüsse, kalte Lötstellen,...
Betriebsfehler 1/2 • Electrical Stress • Intrinsic: bedingt durch Material- oder Prozessfehler • Gate-oxide Wear-out • Ionic contamination • Oberflächenladungen • Kristalldefekte • Piping
Betriebsfehler 2/2 • Extrinsic: Verbindungen, Packaging oder Umwelteinflüsse • Elektromigration • Kontaktmigration • Stress-induzierte Migration • Microcracks • Die Attach Fehler • Bonding Fehler • Popcorn Effekt • Korrosion • Soft Errors
Electrical Stress • Elektrostatische Entladung • Ursache: unsachgemäßer Behandlung • Electrical Overstress • Versorgungs-Spannungsspitzen • Ursache: mangelhaftes Design oder Umwelteinflüsse (Gewitter) • Latch-Up • ungewollte Thyristor Strukturen im Chip • werden durch Schwankungen in der Versorgungsspannung gezündet • Ursache: mangelhaftes Design
Gate-Oxide wear-out • Neutrale Elektronenfallen im Gate-Oxide • Ursache: • durch oftmaliges Programmieren oder • electrical Overstress • Wirkung • stark erhöhte Tunnelströme • führt zu Gate-Oxide Breakdown: Durchbruch des Isolators • Häufigster Alterungsdefekt
Electromigration • Elektronenwind bewegt Atome und verschiebt Material • Black‘s Law: J...Stromdichte [A/cm2], E = 0.5 ... 1.5eV, A ... Konstante, T...Temperatur [K], k ... Boltzmann-Konst. = 8.6*10-5eV/K Voiding Hillock
Single Event Upsets • Verursachen Bitflips in Speicherelementen und Glitches in Logik Elementen • Werden verursacht durch: • Neutronen Strahlung: • kosmische Strahlung • Höhen- und Ortsabhängig • Alpha Partikel: • Überreste vom Erzeugungsverfahren und vom Packaging Material • < 0.01 Alpha / cm2-hr • SER für Altera Cyclone II EP2C20 (New York, Meereshöhe):
Typische Verteilung „Badewannenkurve“ - Weibull Verteilung: • Infant mortality: hohe Ausfallsrate, β < 1 • Useful life: kleine, konstante Ausfallsrate, β = 1 • Wear-out: starker Anstieg der Ausfallsrate, β > 1
Trends Hardware Trends: • ~ alle 2 Jahre Verdopplung der Transistorendichte • geringere Betriebsspannungen • geringere Ladung in Speicherelementen • Erhöhung der Taktfrequenzen Fehlertrends: • Signifikante Steigerung der SER • Höherer Anteil an multi-bit upsets • Mehr Verletzungen von timing-safety Margen • Mehr Intermittierende Fehler durch Prozessvariationen und Prozessrückstände
Beispiel 1 – Intermittierender Fehler durch Produktionsrückstände • Single-Bit error bursts bei einer Communication Controller Serie • Messungen ergaben hohen Widerstand einer Durchkontaktierung • Elektronenmikroskopie ergab: • Ätzprozess verursachte Polymerhärtung • Säuberungsprozess der Ablagerungen konnte Polymer nicht komplett entfernen • partielle Metallabscheidung und resistiver Ring gebildet • =>Intermittierender Kontakt
Beispiel 2 – Speicherfehler durch Timing violations • 10 boards wurden auf single- und multi bit Fehler überprüft • Testumgebung: • Boards bearbeiteten Matrizenberechnungen • Temperaturvariationen: -10°C bis 70°C • Spannungsversorgungsschwankungen: 10% • Ergebnis: 90,5% Silent-Data-Corruption • Fehler analyse: • Clock Fehler und Setup/Hold Violations eines VLSI Schaltkreis • => multi-bit Fehler während write-Zyklen
Referenzen • MTBF Calculator: http://mtbf.polimore.com • MIL-HDBK-217F • Electromigration-induced failures in VLSI interconnects, P. B. Ghate, Texas Instruments Incorporated • Radiation Results of the SER Test of Actel FPGA December 2005, Overview of iRoC Technologies Report, Actel, 2005 • Impact of Deep Submicron Technology on Dependability of VLSI Circuits, C. Constantinescu, Proc. Int’l Conf. Dependable Systems and Networks (DSN-2002), pp. 205-209, 2002. • Folien zur VO “Dependable Systems”, S. Poledna • Folien zur VO Digitales Design A. Steininger
Fragen ?!? ASIC vs. FPGA - A Comparisson