1 / 19

Fehlerraten von HW

Fehlerraten von HW. Hubert Kraut, 0025471. Inhalt. Klassifizierung typische HW Fehler Statistische Verteilungen Fehlerraten Trends Analyse von 2 Fehler Beispielen. Klassifizierung. Permanente Fehler Transiente Fehler Intermittierend: wirken transient, aber:

shira
Download Presentation

Fehlerraten von HW

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Fehlerraten von HW Hubert Kraut, 0025471

  2. Inhalt • Klassifizierung • typische HW Fehler • Statistische Verteilungen • Fehlerraten • Trends • Analyse von 2 Fehler Beispielen

  3. Klassifizierung • Permanente Fehler • Transiente Fehler • Intermittierend: wirken transient, aber: • Fehler treten wiederholt an der selben Stelle auf • mit einer ungewöhnlich hohen Fehlerrate • werden durch Komponententausch entfernt 90% aller Workstation Abstürze

  4. Design Fehler • fehlerhafte Umsetzung der Spezifikation • mangelhafte Synchronisation: Metastabilitäten • mangelhafte Versorgungsspannungsstabilisierung: Electrical Overstress möglich • zu hohe Stromdichten

  5. Ursachen für Designfehler • Wachsender Zeitdruck (Schere zwischen Produktivität und Komplexität) • zunehmender Anteil von Fremddesign • Fehlerhafte oder falsch ausgelegte Spezifikation bzw unzureichende Spezifikation am Projektanfang • Mangelhafter Tool Support

  6. Fertigungsfehler • Wafer: • Verunreinigungen, Kristalldefekte, Microcracks, ... • Prozesse: • Masken-Alignment, Unterätzung, Ionen, ... • Packaging: • Hohlräume, Bonding-Defekte, Microcracks • Transport: • Handhabung, Umweltbedingungen • Bestückung: • Handhabung, Kurzschlüsse, kalte Lötstellen,...

  7. Betriebsfehler 1/2 • Electrical Stress • Intrinsic: bedingt durch Material- oder Prozessfehler • Gate-oxide Wear-out • Ionic contamination • Oberflächenladungen • Kristalldefekte • Piping

  8. Betriebsfehler 2/2 • Extrinsic: Verbindungen, Packaging oder Umwelteinflüsse • Elektromigration • Kontaktmigration • Stress-induzierte Migration • Microcracks • Die Attach Fehler • Bonding Fehler • Popcorn Effekt • Korrosion • Soft Errors

  9. Electrical Stress • Elektrostatische Entladung • Ursache: unsachgemäßer Behandlung • Electrical Overstress • Versorgungs-Spannungsspitzen • Ursache: mangelhaftes Design oder Umwelteinflüsse (Gewitter) • Latch-Up • ungewollte Thyristor Strukturen im Chip • werden durch Schwankungen in der Versorgungsspannung gezündet • Ursache: mangelhaftes Design

  10. Gate-Oxide wear-out • Neutrale Elektronenfallen im Gate-Oxide • Ursache: • durch oftmaliges Programmieren oder • electrical Overstress • Wirkung • stark erhöhte Tunnelströme • führt zu Gate-Oxide Breakdown: Durchbruch des Isolators • Häufigster Alterungsdefekt

  11. Electromigration • Elektronenwind bewegt Atome und verschiebt Material • Black‘s Law: J...Stromdichte [A/cm2], E = 0.5 ... 1.5eV, A ... Konstante, T...Temperatur [K], k ... Boltzmann-Konst. = 8.6*10-5eV/K Voiding Hillock

  12. Single Event Upsets • Verursachen Bitflips in Speicherelementen und Glitches in Logik Elementen • Werden verursacht durch: • Neutronen Strahlung: • kosmische Strahlung • Höhen- und Ortsabhängig • Alpha Partikel: • Überreste vom Erzeugungsverfahren und vom Packaging Material • < 0.01 Alpha / cm2-hr • SER für Altera Cyclone II EP2C20 (New York, Meereshöhe):

  13. Typische Verteilung „Badewannenkurve“ - Weibull Verteilung: • Infant mortality: hohe Ausfallsrate, β < 1 • Useful life: kleine, konstante Ausfallsrate, β = 1 • Wear-out: starker Anstieg der Ausfallsrate, β > 1

  14. Trends Hardware Trends: • ~ alle 2 Jahre Verdopplung der Transistorendichte • geringere Betriebsspannungen • geringere Ladung in Speicherelementen • Erhöhung der Taktfrequenzen Fehlertrends: • Signifikante Steigerung der SER • Höherer Anteil an multi-bit upsets • Mehr Verletzungen von timing-safety Margen • Mehr Intermittierende Fehler durch Prozessvariationen und Prozessrückstände

  15. Typische Fehlerraten

  16. Beispiel 1 – Intermittierender Fehler durch Produktionsrückstände • Single-Bit error bursts bei einer Communication Controller Serie • Messungen ergaben hohen Widerstand einer Durchkontaktierung • Elektronenmikroskopie ergab: • Ätzprozess verursachte Polymerhärtung • Säuberungsprozess der Ablagerungen konnte Polymer nicht komplett entfernen • partielle Metallabscheidung und resistiver Ring gebildet • =>Intermittierender Kontakt

  17. Beispiel 2 – Speicherfehler durch Timing violations • 10 boards wurden auf single- und multi bit Fehler überprüft • Testumgebung: • Boards bearbeiteten Matrizenberechnungen • Temperaturvariationen: -10°C bis 70°C • Spannungsversorgungsschwankungen: 10% • Ergebnis: 90,5% Silent-Data-Corruption • Fehler analyse: • Clock Fehler und Setup/Hold Violations eines VLSI Schaltkreis • => multi-bit Fehler während write-Zyklen

  18. Referenzen • MTBF Calculator: http://mtbf.polimore.com • MIL-HDBK-217F • Electromigration-induced failures in VLSI interconnects, P. B. Ghate, Texas Instruments Incorporated • Radiation Results of the SER Test of Actel FPGA December 2005, Overview of iRoC Technologies Report, Actel, 2005 • Impact of Deep Submicron Technology on Dependability of VLSI Circuits, C. Constantinescu, Proc. Int’l Conf. Dependable Systems and Networks (DSN-2002), pp. 205-209, 2002. • Folien zur VO “Dependable Systems”, S. Poledna • Folien zur VO Digitales Design A. Steininger

  19. Fragen ?!? ASIC vs. FPGA - A Comparisson

More Related