160 likes | 280 Views
“Soft Errors in Advanced Computer Systems”. Robert Baumann (IEEE Design & Test of Computers, May-June 2005). Introdução. Aumento da integração, aumento da sensibilidade dos dispositivos Fenômenos observados por duas décadas: Partículas-alfa: U e To
E N D
“Soft Errors in Advanced Computer Systems” Robert Baumann (IEEE Design & Test of Computers, May-June 2005)
Introdução • Aumento da integração, aumento da sensibilidade dos dispositivos • Fenômenos observados por duas décadas: • Partículas-alfa: U e To • Nêutrons de alta energia: radiação cósmica • Interação nêutrons de baixa energia: 10B (borophosphosilicate glass – BPSG) • Erros não esperados em tecnologias >65ηm
Geração de cargas • A magnitude da perturbação de um íon depende de sua Linear Transfer Energy (LET), medida em [MeVcm²/mg] – depende da massa e da energia da partícula e do material pelo qual ela está ‘passando’ • Em um substrato de Si, cada 3.6 eV de energia produz um par elétron-buraco
Geração de cargas • Quão mais longe da junção NP, menor a carga coletada (Qcoll) e menor a chance de causar um erro • Hoje nodos não isolados – mar de nodos, próximos uns dos outros causam o compartilhamento das cargas e ação bipolar parasita entre as junções • Pode influenciar o montante Qcoll, além do tamanho e localização de erros de V e I
Magnitude de Qcoll • Depende de: • tamanho do dispositivo • ‘biasing’ dos nodos do circuito • estrutura do substrato • dopagem • tipo do íon (energia, trajetória e ocorrência) • estado do dispositivo • Mas, Qcoll é a ‘metade da história’...
Magnitude de Qcoll • Sensibilidade depende dos seguintes fatores: • capacitância dos nodos • tensão de operação • resistência dos transistores • Todos estes fatores influenciam Qcrit: montante de carga necessário para disparar e alterar um estado de um nodo
Magnitude de Qcrit • A resposta do dispositivo à injeção de cargas é dinâmica e depende da magnitude do pulso de radiação e de características temporais • Por isso, o efeito é difícil de ser modelado para a determinação de Qcrit, que não é constante • Qcoll>> Qcrit : soft error induzido • Qcoll< Qcrit : soft error não ocorre
Soft Error Rate – SER • Medida para determinar a taxa de existência de erros ocorridos num dado dispositivo • Failure in Time – FIT: um erro a cada 109 horas de operação • Grande preocupação quando não corrigidos: a taxa de erros supera as características de mecanismos confiáveis
Memory SER • DRAM bit SER diminuiu cerca de 1000x em 7 gerações, mas DRAM system SER permanece + ou - constante • SRAM bit SER e SRAM system SER diminuíram pelo não-uso do BPSG • aumento da densidade de SRAM: a saturação SRAM bit SER não traduz em SRAM system SER
Mitigating Soft Errors • Duas causas de soft errors são facilmente contornáveis: • Partículas-alfa: purificando o processo • Interação nêutrons de baixa energia: evitando o uso do BPSG • Porém, uma causa não é contornável: • Nêutrons de alta energia: radiação cósmica sempre há em qualquer lugar • Esta última, é determinante do SER
Suavização de erros • Modificações no processo e ajustes na tecnologia disponível: isolamento por poços e guard rings; processos caros • Simplificações no projeto ou ajustes do layout: aumentar Qcrit sem alterar Qcoll ; aumento do atraso e área utilizada • Detecção e correção de erros: paridade e SEC/DED; alta complexidade e latência introduzida
Suavização de erros • Design and layout tricks: redundância e votador; custo de área pode ser contornado com um votador multiplexado no tempo • Redundância de todo o sistema: replicação completa, execução em paralelo; reinício da execução ou votador (+ caro, mas a taxa de erros cai a praticamente zero)
Perspectivas • 1 FIT = 1 erro por bilhão de horas de operação • 50k FIT para SRAM de alguns Mb (estimado) ≈ 1 erro a cada dois anos de operação • A quantidade de erros cresce conforme a quantidade de chips no sistema • O nível aceitável de erros para atender as expectativas de confiabilidade do consumidor depende muito mais da aplicação final que dos componentes utilizados nos dispositivos