750 likes | 998 Views
Gestão de Serviços de TI com ITIL Versão 3 2. Operação de Serviços. Márcio Moreira & Mário Peixoto marcio.moreira@pitagoras.com.br http:// si.lopesgazzani.com.br/docentes/marcio/. Operação de Serviços. Processos envolvidos: Gestão de Eventos ( novo ) Gestão de Incidentes
E N D
Gestão de Serviços de TIcom ITIL Versão 32. Operação de Serviços Márcio Moreira & Mário Peixoto marcio.moreira@pitagoras.com.br http://si.lopesgazzani.com.br/docentes/marcio/
Operação de Serviços • Processos envolvidos: • Gestão de Eventos (novo) • Gestão de Incidentes • Execução de Requisições de Serviço (novo) • Gestão de Problemas • Gestão de Acessos (novo) • Funções Envolvidas: • Service Desk • Gestão de Operações de TI (novo) • Gestão de Aplicações (novo) • Gestão Técnica (novo) • Atividades Comuns: • Monitoramento e Controle • Conceitos chaves: • Eventos • Incidentes • Problemas • Erro Conhecido • Operação de Serviços: • Pode ser chamada de a Fábrica de Serviços de TI • Seu propósito é entregar e manter serviços de TI • Seu propósito é coordenar e entregar atividades e processos necessários para entregar e manter o nível de serviço combinado com o cliente e o negócio
Gestão de Eventos • Evento: • Qualquer ocorrência detectável ou discernível que tem impacto e significância para a gestão de infraestrutura ou entrega de serviços de TI. • Normalmente, são notificações criadas pelo serviço, itens de configuração ou ferramenta de monitoramento. • Categorias de Eventos: • Informacional: • Evento detectável, porém de baixa importância no momento. Ex.: Log na rede. • Aviso (Warning): • Evento que requer uma auto resposta ou intervenção humana. Ex.: Disco enchendo. • Exceção: • Evento que sinaliza um Incidente (evento indesejado) na infraestrutura. Ex,: O servidor caiu. • Propósito: • É um processo que trabalha todos os eventos que ocorrem na infraestrutura de TI que permitem a operação normal e também a detecção e escalação de exceções. Trabalha os eventos gerados pelo monitoramento.
Relações da Gestão de Eventos • Atividade de Monitoramento: • Para funcionar bem, a Gestão de Eventos depende da atividade comum de monitoramento. • Papel: • Este processo normalmente é de responsabilidade da Área de Monitoramento, da Gestão de Operação ou Service Desk. • Tipos de Monitoramento: • Ativo: • Monitora CIs chaves e notifica corretamente as exceções. • CI: Configuration Item ou Item de Configuração, que é componente da infraestrutura. Exemplos: Documento, Aplicação, Software, Banco de Dados, Servidor, Firewall, etc. • Passivo: • Detecta e correlaciona alertas operacionais e comunicações geradas pelos CIs.
Processo de Gestão de Eventos Informational Trigger Exception
Aplicações, importância e atividades • Aplicações: • CIs, ambiente (fumaça ou fogo), software, segurança, aplicações, etc. • Importância: • Mecanismo de detecção de Incidentes, mesmo antes do serviço cair • Monitoramento de exceções reduz custos e o downtime • Se integrado a outros processos sinaliza exceções para equipe • Base para automação aumenta eficiência • Atividades: • Ocorrência e notificação • Detecção • Filtragem • Significância: • Informação, aviso, exceção • Correlação • Gatilho • Resposta: • Registro, auto-resposta, alerta/intervenção humana, incidente, problema ou RFC • Revisão de ações • Fechamento
Gestão de Incidentes • Incidente: • Evento que não faz parte da operação padrão de um serviço e que causa, ou pode causar, interrupção e/ou redução na qualidade desses serviços. • Podem ser comunicados pelo cliente ou detectados (Gestão Eventos). • Solução de Contorno: • Método de resolver o Incidente a partir de uma reparação temporária. • Propósito: • Processo reativo, cujo principal objetivo é restaurar o nível de serviço o mais rápido possível, minimizando os efeitos negativos no negócio. • Pode se valer de soluções de contorno para restaurar o serviço.
Objetivos e Importância Objetivos Importância Melhora a disponibilidade e uso dos serviços projetados A priorização dos Incidentes por impacto de negócio, faz o alinhamento de TI e negócio em tempo real. Permite a identificação de melhorias nos serviços de negócio. Permite a identificação de treinamentos que a área de TI deve fazer para a área de negócio. • Garantir o melhor nível possível de disponibilidade e qualidade do serviço. • Respeitar os acordos de níveis de serviço. • SLA: Service Level Agreement, Acordo de Nível de Serviços • Desenvolver e manter registros eficazes para uso posterior.
Atividades da Gestão de Incidentes • Registro • Categorização: • Tipificação do Hardware • Tipificação do Software • Priorização: • Urgência (3): • Baixa, Média ou Alta • Prioridade (5): • Planejada, Baixa, Média, Alta ou Crítica • Diagnóstico inicial • Escalação: • Funcional e hierárquica • Investigação & diagnóstico: • O que realmente ocorreu • Ordem dos eventos e fatos • Pesquisa de ocorrências • Resolução e recuperação: • Resolver (usando recursos internos e parceiros) e testar • Fechamento: • Categorizar fechamento • Checar satisfação do usuário • Documentar incidente • Incidente recorrente ou novo • Fechamento formal
Conceitos Adicionais de Incidentes • Limites de Tempo: • Quando fazer escalações? • Prioridade (impacto x urgência) • SLA (acordado com cliente) • OLA (acordo com outras áreas) • UC (acordo com fornecedor) • Modelos de Incidentes: • A solução de Incidentes antigos pode ser automatizada (através de modelos) de forma a melhorar a produtividade. • Incidentes Maiores: • Um procedimento especial (sala de guerra) deve ser utilizado para Incidentes de grande impacto no negócio. • Prioridade: • Combina Impacto e Urgência usando uma escala de 3 pontos: • Resultando na priorização:
Escalação eníveis dos Incidentes Vertical Horizontal • Funcional (Horizontal): • Buscar apoio técnico de outros níveis (2 ao 4) para resolução • Hierárquica (Vertical): • Informar aos superiores sobre Incidentes de alto impacto. Gatilhos: • Criticidade (abertura) • Consumo do SLA
Benefícios e Desafios (CSF) Benefícios Desafios (CSF) Detectar os Incidentes o mais cedo possível (treinamento, usuários chaves e eventos) Convencer as pessoas (staff e usuários) a registrar todos os Incidentes Disponibilizar informações de soluções de Erros Conhecidos Manter a integridade da base de CIs para facilitar a resolução Integrar a Gestão de Incidentes com a Gestão de Nível de Serviços para manter o alinhamento de TI com o negócio e beneficiar os clientes • Clientes: • Detecção e resolução de incidentes menor downtime maior disponibilidade • Identificação de pontos de melhoria do serviço • Melhora da comunicação durante o tratamento do Incidente • Negócio: • Maior produtividade das pessoas • Alinhamento em tempo real de TI com as prioridades de negócio maior aderência aos SLAs melhora na satisfação dos clientes • Identificação de novas oportunidades de negócio (serviços, treinamento, etc.)
Indicadores e Papel do Gerente Indicadores (KPIs) Papel do Gerente Gerenciar os resultados do processo buscando eficiência e eficácia Produzir informações gerenciais (KPIs) e tratar os ofensores Gerenciar o trabalho das equipes Gerenciar as escalações Desenvolver e manter processo e procedimentos Apoiar a implantação e melhoria de processos em outras áreas • Indicadores: • Incidentes / Transação • % de cumprimento do SLA / dimensão • First Call Resolution (% de Incidentes resolvidos no 1º Nível) • % de Incidentes / dimensão • Tempo médio de resolução / dimensão • Custo ou % de custo / dimensão • Dimensões: • Prioridade, Categoria, Nível, Item de Configuração, Agente
Execução de SRsRequest Fulfilment • Requisição de Serviços (SR: Service Request): • Requisição do usuário de um conselho, informação, uma pequena mudança, suporte, entrega, documentação ou acesso à infra de TI. • Não é uma falha da infraestrutura de TI, como no caso do Incidente. • Exemplos: reset de senha, criação de usuário, restauração de backup, troca de impressora de lugar, instalação de software, etc. • As pequenas mudanças (instalação de software, liberação de ramal, etc.) devem ser previamente autorizadas. • Propósito: • Entregar as SR evitando congestionamento ou obstrução da Gestão de Incidentes e de Mudanças. • Considerações: • Muitas empresas gerem as SR junto com os incidentes no Service Desk. A junção ou separação depende do volume e estrutura da empresa. • As SR são “eventos que podem ser planejados”, os Incidentes não.
Objetivos e Importância das SR Objetivos Importância Acesso rápido e efetivo a serviços padrões Melhora produtividade e qualidade do staff Redução da burocracia e do custo de operação A centralização da execução aumenta o nível de controle dos serviços Aumenta o poder de negociação com fornecedores • Oferecer um canal para solicitar e receber serviços padrões com aprovações e qualificação pré-definidas • Informações sobre quais serviços são prestados e como obtê-los • Fornecer e entregar componentes (ex: mídia, licenças, documentos, etc.) • Assistência com informações, reclamações e comentários
Princípios Básicos das SRs Políticas de SRs Modelos de SRs Para cada SR defina: Nome e Descrição SLA Requisitos de Aprovação Pré-requisitos de execução O Fluxo de Trabalho: Área ou equipe Atividade OLA Etc. • As SRs são recorrentes defina um fluxo de trabalho • Defina o SLA e as regras de escalação de cada SR • O Service Desk deve monitorar, escalar e executar as SRs • Padronize a aprovação prévia e os pré-requisitos básicos de cada SR
Atividades e interfaces das SR • Interfaces: • Service Desk: • Porta de entrada da SR • Gestão de Incidentes: • Pode atender boa parte das SR (depende do modelo de entrega) • Gestão de Versões e Distribuição & Gestão de Configuração e Ativos de Serviços: • Muitas SR referem-se a Liberações e CIs
Gestão de Problemas • Conceitos: • Problema (Problem): • Causa desconhecida de um ou mais incidentes (existentes ou não). • Erro (Error): • Causa conhecida de um ou mais Incidentes. • Erro Conhecido (Known Error): • Problema com causa raiz determina e ao menos uma solução definida. • RFC (Request For Change): • Solicitação de mudança para eliminação de um Erro Conhecido. • Gestão de Problemas: • Processo responsável por gerir o ciclo de vida dos problemas, evitar novos problemas, reduzir a ocorrência ou recorrência de Incidentes e minimizar o impacto de incidentes inevitáveis.
Objetivos e Importância Objetivos Importância Aumenta a disponibilidade dos serviços de TI Aumenta a produtividade do negócio e do staff Reduz os custos com soluções paliativas ou soluções inadequadas Reduz o custo de “apagar incêndios” ou de resolver Incidentes repetidos • Evitar Problemas e os Incidentes resultantes deles • Eliminar Incidentes recorrentes • Minimizar o impacto de Incidentes que não são evitáveis • Melhorar a produtividade da equipe de Incidentes através do registro de Soluções de Contorno na KEDB (Known Errors Data Base ou Base de Dados de Erros Conhecidos).
Tipos de Problemas e de Processos Modelos de Problemas Sub-processos • Boa parte dos problemas são únicos e requerem tratamento individual • A solução de alguns problemas pode ser mais cara do que conviver com eles. Neste caso, é melhor modelar estes problemas: • A KEDB deve ser utilizada para acelerar o diagnóstico e a resolução dos Incidentes
Processo de Gestão de Problemas
Atividades da Gestão de Problemas • Detectar o Problema • Registrar o Problema • Avaliar os Incidentes • Categorizar o Problema • Priorizar o Problema • Investigar e Diagnosticar: • Investigação cronológica • Fluxograma • Análise de Pareto • Diagrama de Ishikawa • Análise de valor da dor (pessoas, duração e custo) • Brainstorming • Método de Kepner e Tregoe • Tem solução de contorno? • Registrar o Erro Conhecido • Requer uma RFC? • Aplicar a resolução • Fechar o Problema • Se for um Problema Maior agendar uma revisão • Proativo: • Detecção de erros no desenvolvimento • Registro na KEDB
Análise de Pareto • Análise de falhas: 20% Causas 80% Falhas
Gestão Proativa de Problemas Ferramentas Gráfico de Tendências • Análise das Tendências: • Incidentes no mesmo CI • Incidentes após mudanças • Ações Preventivas: • Priorizar os Problemas em função da dor dos Incidentes • Revisão de Problemas Maiores: • Programar uma Avaliação após a mudança para corrigir um Problema Crítico • Lições aprendidas
Indicadores e Papéis Indicadores (KPIs) Papéis Gerente de Problemas: Gerir as atividades da área Garantir os KPIs da área Manter e aprovar a KEDB Analista de Problemas: Identificar e tratar Problemas Auxiliar na resolução de Incidentes Maiores e Críticos Manter a KEDB Fornecedor: Apoiar a resolução de Problemas Service Desk: Manter os gatilhos de Problemas • Indicadores: • Redução dos Incidentes / Transação • % de Problemas / dimensão • % de cumprimento do SLA / dimensão • % de Problemas com SLA estourado (backlog) • % de Problemas no backlog / dimensão • Custo médio / Problema • % de Erros Conhecidos / dimensão • Dimensões: • Tempo, Severidade, Prioridade, Situação, Item de Configuração
Questões de prova • 1) Qual é o primeiro passo do registro de um incidente? • A. Registrar os dados do incidente. • B. Atribuir um número ao incidente. • C. Pesquisar as possíveis soluções do incidente. • D. Determinar a prioridade do incidente. • 2) Quando a causa de um ou mais incidentes não é conhecida, recursos adicionais são alocados para descobrir esta causa. Qual processo ITIL é responsável por isto? • A. Gestão de Capacidade. • B. Gestão de Incidentes. • C. Gestão de Problemas. • D. Gestão do Nível de Serviços.
Questões de prova • 3) Como a Gestão de Problemas contribui para aumentar o % de solução aplicada pelo 1º nível de suporte? • A. Analisando os incidentes abertos. • B. Avaliando os incidentes com os clientes. • C. Prevenindo incidentes. • D. Disponibilizando a base de dados de Erros Conhecidos (KEDB). • 4) Quem é responsável por monitorar um incidente? • A. O Gerente de Problemas. • B. Os analistas da Gestão de Problemas. • C. O Service Desk. • D. O Gerente de Nível de Serviço.
Gestão de Acessos • Propósito: • Garantir o acesso, de usuários autorizados, ao serviço e evitar o acesso dos demais usuários. • Comentários: • Também é chamado de Gestão de Direitos ou Gestão de Identidade. • As solicitações de acessos podem nascer de SR no Service Desk. • É recomendável que a coordenação deste processo seja única, normalmente pela Gestão do Service Desk ou Gestão de Operação de TI. • Objetivos: • Garantir a execução da Política de Segurança e de Gestão de Disponibilidade. • Fornecer o direito de acesso dos usuários aos serviços ou grupos de serviços.
Importância e Papéis Importância Papéis Gestão do Processo: Assegurar o cumprimento das políticas de acesso Gestão de Aplicações: Garantir que os requisitos de gestão de acessos sejam implementados Gestão Técnica: Testar as funcionalidades de acesso Tratar os Incidentes e Problemas de acesso • Ajuda a manter eficiência na confidencialidade • Habilita os usuários a desempenhar seus papéis • Reduz os erros de pessoas inexperientes • Auditoria de uso e rastreabilidade de abusos • Facilita a revogação de direitos • Estar em conformidade
Conceitos da Gestão de Acesso • Acesso: • Refere-se ao nível e extensão de uma funcionalidade do serviço que o usuário quer usar • Identidade: • Forma de identificação única de cada usuário • Direitos (privilégios): • Funcionalidades que o usuário pode acessar • Serviços ou grupos de serviços: • Um usuário ou grupo de usuários pode ter acesso a serviços ou grupos de serviços • Serviços de diretório: • Tipo de ferramenta que é utilizada para gerenciar acessos, direitos e usuários e grupos
Atividades da Gestão de Acesso • Mudanças de estados: • Mudanças de papéis • Promoções ou rebaixamento • Transferências • Morte, abandono ou renúncia • Aposentadoria • Ação disciplinar • Demissão • Etc.
Atividades Comuns:Monitoramento e controle • Conceitos: • Monitoramento: • Refere-se a atividade de observar uma situação e detectar mudanças que acontecem ao longo do tempo. • Reportar: • Refere-se à atividade de analisar, produzir e distribuir um relatório da saída de uma atividade de monitoramento. • Propósito: • Medir e controlar o serviço baseado no monitoramento, reportar e se necessário gerar ações subseqüentes. • Consideração: • Como o monitoramento é uma atividade operacional, para agregar valor, todas as fases anteriores do ciclo de vida dos serviços devem garantir que as medidas e controles sejam definidas e executadas.
Monitoramento simples • A saída é medida e comparada com um padrão aceitável, se não aceitável uma ação corretiva é acionada • Tipos: • Sistemas de ciclo aberto: • Executa uma atividade independente das condições do ambiente • Ex.: Sistemas de backup (executa o backup nas datas e horas definidas) • Sistemas de ciclo fechado: • Monitora o ambiente e responde a mudanças nele • Ex.: Balanceamento de carga
Monitoramento complexo 1 ciclo externo (geral) Controlando o processo 3 ciclos simples (internos) Controlando 3 atividades Processo com 3 Atividades
Usos do monitoramento • Performance de atividades em um processo ou procedimento • Ex.: Gestão de Incidentes (monitora e escala) • Efetividade de um processo, procedimento ou papel • Ex.: Gestão de Mudanças (as mudanças devem ser implementadas no tempo e custo esperado) • Performance de um dispositivo • Ex.: Tempo de resposta de um servidor a plena carga • Performance de uma série de dispositivos: • Ex.: Tempo de resposta da aplicação para o usuário
Loop de monitoramento de ITSM • Seta 1: • O CSI detectou que o serviço precisa melhorar (ex: ampliação do portfólio ou arquitetura errada) e submete uma RFC para a Estratégia • Seta 2: • Os SLRs precisam ser ajustados (ex: melhoria de performance ou preço) • Seta 3: • Os valores padrões precisam ser ajustados (ex: inadequado, falta de treinamento, etc.) ou adequado às regras
Tipos de monitoramento de ITSM 1 • Ativo x Passivo: • Ativo: • Verificação on-line de um dispositivo ou sistema para determinar seu estado. • Pode consumir muitos recursos é usado no monitoramento proativo • Passivo: • O próprio dispositivo gera e transmite eventos para um ouvinte (listener) ou agente • Tipo mais comum, depende da geração dos eventos e do sucesso do agente ou ouvinte • Reativo x Proativo: • Reativo: • Gera uma requisição ou aciona um gatilho para um certo tipo de falha ou evento • Ex: Prompt após batch • É mais utilizado para tratar exceções • Proativo: • Usado para detectar padrões de eventos que indicam uma possível falha • Ex: Ataque eminente • Requer maturidade • Podem ser ativo ou passivo e vice-versa
Tipos de monitoramento de ITSM 2 • Medição contínua: • O sistema ou dispositivo é verificado em tempo real (de tempos em tempos) para ver se atende ao valor padrão • Medição baseado em exceções: • Não monitora em tempo real, somente detecta e trata as exceções geradas pelo dispositivo • Todas as combinações são possíveis: Contínuo x Exceções Ativo x Passivo Reativo x Proativo
Funções da Operação de Serviços Service Desk Gestão de Operações de TI Gestão de Aplicações Gestão Técnica
Função: Service Desk (SD) • Função (não é processo) de Service Desk: • Unidade funcional criada para lidar com eventos, recebidos via: telefone, site, gerências de monitoramento de infraestrutura, etc. • Objetivos: • Deve ser o ponto único de contato (SPOC: Single Point of Contact) dos usuários com a TI e deve gerir todos os incidentes e requisições de serviços (SR). • Sua presença é vital para o sucesso da unidade de TI, pois funciona como um anteparo da área de TI. • Ajudar os usuários a restaurar o nível normal de serviços o mais rápido possível, sejam por incidentes ou SR.
Responsabilidades do SD • Registrar incidentes e SR, definindo categoria e prioridade • Fornecer o 1º nível de investigação e diagnóstico • Resolver os incidentes e SR de 1º nível • Escalar e gerenciar os incidentes e SR de outros níveis • Manter os usuários informados do andamento do trabalho • Fechar os incidentes e SR resolvidos • Verificar a satisfação do cliente e usuários • Negociar janelas de mudanças com cliente e usuários • Atualizar o CMS (Configuration Management System ou Sistema de Gestão de Configuração), se combinado com SACM (Service Asset and Configuration Managementou Gestão de Configuração e Ativos de Serviço)
Papéis de gestão do SD • Gerente: • Gerir o SD • Em grandes empresas requer supervisores • Atividades: • Gestão geral incluindo os supervisores • Receber escalações • Cuidar dos clientes • Reportar aos superiores incidentes significantes • Participar do CAB (Mudanças) • Responder pelo SD • Supervisor: • Gerenciar um grupo, turno ou clientes do SD • Atividades: • Garantir perfil adequado a qualquer hora no SD • Gerir os analistas • Receber escalações • Gerir relatórios estatísticos • Gerir treinamentos • Representar SD em reuniões