470 likes | 586 Views
Pontifícia Universidade Católica do Rio Grande do Sul PPGCC - Faculdade de Informática. Aspectos de Confiabilidade na Implementação da Unidade de Telecomando e Telemetria para Plataformas Orbitais. Luciano Rigelo Azevedo Mestrando em Ciência da Computação luciano.azevedo@pucrs.br.
E N D
Pontifícia Universidade Católica do Rio Grande do Sul PPGCC - Faculdade de Informática Aspectos de Confiabilidade na Implementação da Unidade de Telecomando e Telemetria para Plataformas Orbitais Luciano Rigelo Azevedo Mestrando em Ciência da Computação luciano.azevedo@pucrs.br Eduardo Augusto Bezerra Professor Orientador eduardo.bezerra@computer.org Porto Alegre, 22 de Março de 2010
Sumário • Introdução • Tolerância a Falhas e Confiabilidade • Estado da Arte • Arquitetura do Módulo UTMC • Técnicas Propostas • Resultados • Conclusões e Trabalhos Futuros
Introdução • A importância dos Veículos Espaciais • Sistemas distintos: Plataforma Orbital e Carga Útil • Tecnologias para aplicações espaciais, FPGA SRAM, Antifuse e ASIC • Função da UTMC na Plataforma Orbital • Padrão CCSDS/ESA na UTMC • Tipos de TC e TM • Aplicação de ordem crítica na missão
Introdução • Proteção contra SEUs é imperativo na UTMC • Avanço tecnológico deixou sistemas altamente suscetíveis a radiação oriundas do espaço • Ambiente extremamente hostil: variações na temperatura, variações na tensão de alimentação e EMI • Tolerância a falhas também é um fator importante para equipamentos a nível terrestre
Motivação • Grande demanda pelos serviços fornecidos nas plataformas orbitais: • Exploração espacial • Comunicação • Aplicações Científicas • Militar • Meteorologia • Aplicações espaciais são exóticas e apresentam muitos desafios a respeito de sua confiabilidade • Utilizar FPGA no módulo UTMC é uma solução atrativa • Agregar confiabilidade em todo o módulo UTMC é essencial para o sucesso da missão
Objetivos • Analisar aspectos de confiabilidade existentes no projeto atual da UTMC • Descrever os recursos • Descrever as técnicas de tolerância a falhas aplicáveis • TMR • DWC-CED • Avaliar técnicas de confiabilidade no módulo da UTMC • Avaliar o impacto da aplicação das técnicas na UTMC • Determinar qual é a técnica de tolerância a falhas a ser empregada na UTMC • Relatar as dificuldades enfrentadas
Sumário • Introdução • Tolerância a Falhas e Confiabilidade • Estado da Arte • Arquitetura do Módulo UTMC • Técnicas Propostas • Resultados • Conclusões e Trabalhos Futuros
Tolerância a Falhas e Confiabilidade • Tecnologia tolerante a radiação • Objetivo das técnicas: eliminar ponto único de falha • Inserir redundância é base de tudo • Hardware – TMR, módulos redundantes, EDAC RAM • Software – Programação diversitária • Informação – BCH, RS, Convolucional, Paridade • Tempo – Repetição da operação, re-envio de mensagem • Mascarar falhas transientes e permanentes • Custo da técnica deve ser observado
Tolerância a Falhas e Confiabilidade • Modelo Falha – Erro – Defeito • Medidas de Confiabilidade • Índices de Confiabilidade • Confiança • MTTF • MTBF • Taxa de Falha
Tolerância a Falhas e Confiabilidade • Confiabilidade em Sistemas Espaciais • Variação de Temperatura • Variação na Tensão • EMI • Radiação • SEE – Single Event Effects • SEU – Single Event Upset • SHE – Single Hard Error • SHL – Single Hard Latchup • Avanço tecnológico acentua esses problemas • Menor tolerância a ruídos • Maior ocorrência de perturbações • Ocorrência desses efeitos a nível terrestre
Sumário • Introdução • Tolerância a Falhas e Confiabilidade • Estado da Arte • Arquitetura do Módulo UTMC • Técnicas Propostas • Resultados • Conclusões e Trabalhos Futuros
Trabalhos Relacionados • Projeto PUC#SAT – G. Almeida • Improving FPGA Design Robustness with Partial TMR – B. Pratt, M. Caffrey • Fault Tolerance Implementation within SRAM Based FPGA – D. Fay, A. Shye • Evaluating TMR Techniques in the Presence of Single Event Upsets – N. Rollins, M. Wirthlin, M. Caffrey
Trabalhos Relacionados • Designing Fault-Tolerant Techniques for SRAM-Based FPGAs – F. Kastensmidt, G. Neuberger, L. Carro,R. Rei • Fault-Tolerance in FPGAs through CRC Voting – H. Castro, A. Coelho, R. Silveira • Which Concurrent Error Detection Scheme to choose – S. Mitra, E. McCluskey • Antifuse FPGA Technology: Best Option for Satellite Applications – K. O’Neill • On Fault Modeling and Fault Tolerance of Antifuse Based FPGAs – K. Roy
Trabalhos Relacionados • An Adaptive Fault Tolerant Memory System for FPGA Based Architectures in Space Environment – K. O’Neill • Synchronous Resets? Asynchronous Resets?I am so confused!How will I ever know which to use? – Clifford E. Cummings • Understanding Metastability in FPGAs – J. Chen D. Fung R. Stephenson • Arquitetura de Hardware do Computador de Bordo para o Satélite Universitário ITASAT e Confiabilidade – E.Vinci, O. Saotome
Sumário • Introdução • Tolerância a Falhas e Confiabilidade • Estado da Arte • Arquitetura do Módulo UTMC • Técnicas Propostas • Resultados • Conclusões e Trabalhos Futuros
Análise do Módulo da UTMC • Implementa o protocolo de comunicação de acordo com as recomendações CCSDS/ESA • FPGA Actel ProAsic3e – migração para Antifuse • A plataforma orbital possui duas UTMCs
Análise do Módulo da UTMC • Implementação das camadas do padrão CCSDS/ESA
Análise do Módulo da UTMC • Fluxo de TC
Análise do Módulo da UTMC • Fluxo de TM
Sumário • Introdução • Tolerância a Falhas e Confiabilidade • Estado da Arte • Arquitetura do Módulo UTMC • Técnicas Propostas • Resultados • Conclusões e Trabalhos Futuros
Análise do Módulo da UTMC • Recursos de confiabilidades existentes • Telecomando • BCH • FARM • CRC nos pacotes e frames • Telemetria • RS com Interleaving • Convolucional • CRC nos pacotes e frames • CLCW • ACK/NACK
TMR – Triple Modular Redundancy • Altos índices de confiabilidade • Redundância completa do circuito • I/O (Input/Output) • Clock • Reset • Registradores • Necessita de um circuito de seleção • Aplicação de TMR depende da estrutura de dados • Lógica sem realimentação • FSM • I/Os • Recursos específicos – ex: BRAMs
TMR – Triple Modular Redundancy TMR com realimentação • Lógicas com realimentação • Votação com realimentação • Recuperação autônoma do circuito aos efeitos de SEUs • Triplicação dos votadores elimina ponto único de falha
TMR – Triple Modular Redundancy Seleção de saída por votador de minoria Elimina a necessidade de um circuito adicional, externo ao FPGA, para unificar as saídas do TMR
TMR – Triple Modular Redundancy TMR na UTMC
TMR – Triple Modular Redundancy Aplicação do TMR na camada de Codificação
TMR – Triple Modular Redundancy Votação do estado da FSM
TMR – Triple Modular Redundancy • Confiabilidade na Memória do FPGA • Módulo IP – EDAC (Error Detection and Correction) • TMR combinado com refresh de memória • Registradores protegidos por TMR com votador único • Dados codificados em memória • Cada palavra possui 1 bit de paridade associado • Verificação periódica da memória
DWC-CED • TMR completo é custoso em termos de área, consumo, I/Os e complexidade. • DWC – Duplication with Comparison • CED – Concurrent Error Detection • Redundância Temporal • Somente DWC não é suficiente • Detecta somente falhas transientes • Não permite votação na saída do circuito • CED • Aliado ao DWC detecta erros permanentes • Permite seleção do canal de saída
DWC-CED CED na UTMC Assinatura CRC de 16 bits Aplicação entre as camadas do fluxo de TC e TM A estrutura fixa dos dados de controle permite adição da assinatura de CRC entre as camadas Codificação BCH somente adiciona bits de paridade Codificação RS e Convolucional não possuem CED CED não é garantia de funcionamento
DWC-CED DWC-CED com redundância temporal
DWC-CED CED no fluxo de TC
DWC-CED CED no fluxo de TM
DWC-CED DWC-CED na UTMC
Sumário • Introdução • Tolerância a Falhas e Confiabilidade • Estado da Arte • Arquitetura do Módulo UTMC • Técnicas Propostas • Resultados • Conclusões e Trabalhos Futuros
Dificuldades Enfrentadas • Sistema desenvolvido a partir dos requisitos do INPE • Duas entradas de dados de TC, de 4kbps (CLTUs) • Uma saída de TC 4kbps duplicada para envio aos OBCs(TCRs) • Duas entradas de dados de TM, de 650kbps • Uma saída de TM de 650kbps • Um clock global de 13Mhz • Total de 7 domínios de clocks • Dificuldades • Multiplos Domínios de clock • Sincronismo de reset • Inferência de Memória • Depuração do código
Dificuldades Enfrentadas Metaestabilidade
Dificuldades Enfrentadas Solução: Circuito sincronizador
Dificuldades Enfrentadas Sincronismo de reset. Problema: Ruído pode acionar o reset
Dificuldades Enfrentadas • Inferência automática de memória realizada pelo Synplify • Migração de código a partir da plataforma Virtex II Pro da Xilinx • Inferência na Virtex II não apresentou problemas • Utilização de IP core de memória solucionou o problema • Proasic3e disponibiliza bancos de: • 512x18 bits • 4k9 bits • Inferência automática dos módulos de 512x18 bits • IP core utilizado foi de 4k9 bits
Dificuldades Enfrentadas Desenvolvimento da ferramenta de validação do fluxo de TC e TM Depuração do código VHDL e depuração do código do LabView simultaneamente Hardware da UTMC não estava validado Falhas de Hardware atrasaram o projeto
Resultados Obtidos • Metaestabilidade resolvida • Margem de erro inicial de 40% • Solução eliminou a margem de erro • Sincronismo de reset • Margem de erro de 50% • Solução eliminou a margem de erro • Aplicação das técnicas na camada de codificação • Incremento de área e consumo para TMR e DWC • Alta complexidade para a correta aplicação de TMR • DWC adiciona funcionalidades antes inexistentes
Resultados Obtidos • Área ocupada da FPGA (Sem codificação) • Core Cells : 13992 of 38400 (36%) • Block Rams : 18 of 60 (30%) • Área ocupada da FPGA (RS+Convolucional) • Core Cells : 21612 of 38400 (56%) • Block Rams : 18 of 60 (30%) • Publicação de Artigo – 17 Março 2010 IEEE-NASA/ESA • An Adaptive Communications Module for On-board Computers of Satellites • 2010 IEEE NASA/ESA Conference on Adaptive Hardware andSystems (a ser realizada concomitantemente com o DAC)
Sumário • Introdução • Tolerância a Falhas e Confiabilidade • Estado da Arte • Arquitetura do Módulo UTMC • Técnicas Propostas • Resultados • Conclusões e Trabalhos Futuros
Conclusões • Análise dos aspectos de confiabilidade da UTMC • TMR na UTMC é eficaz porém complexo • DWC é a solução mais atrativa • Alternativas de implementação são apresentadas • Solução de problemas requisitados pelo INPE • Alteração do hardware protótipo é desejável • Redução dos níveis de área e consumo ainda são uma preocupação • Falhas são por natureza assíncronas • Encontrar uma solução 100% efetiva é impossível
Trabalhos Futuros • Implementação completa das técnicas apresentadas • Alterar o hardware da UTMC • Aplicar as técnicas no modelo de vôo • Determinar procedimento de teste • Plano de teste • Documentação também é um item de confiabilidade dentro do projeto da UTMC
Pontifícia Universidade Católica do Rio Grande do Sul PPGCC - Faculdade de Informática Aspectos de Confiabilidade na Implementação da Unidade de Telecomando e Telemetria para Plataformas Orbitais Luciano Rigelo Azevedo Mestrando em Ciência da Computação luciano.azevedo@pucrs.br Eduardo Augusto Bezerra Professor Orientador eduardo.bezerra@computer.org Porto Alegre, 22 de Março de 2010