1 / 69

Gestão de Serviços de TI com ITIL Versão 3 2. Operação de Serviços

Gestão de Serviços de TI com ITIL Versão 3 2. Operação de Serviços. Márcio Moreira & Mário Peixoto marcio.moreira@pitagoras.com.br http:// si.lopesgazzani.com.br/docentes/marcio/. Operação de Serviços. Processos envolvidos: Gestão de Eventos ( novo ) Gestão de Incidentes

Download Presentation

Gestão de Serviços de TI com ITIL Versão 3 2. Operação de Serviços

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Gestão de Serviços de TIcom ITIL Versão 32. Operação de Serviços Márcio Moreira & Mário Peixoto marcio.moreira@pitagoras.com.br http://si.lopesgazzani.com.br/docentes/marcio/

  2. Operação de Serviços • Processos envolvidos: • Gestão de Eventos (novo) • Gestão de Incidentes • Execução de Requisições de Serviço (novo) • Gestão de Problemas • Gestão de Acessos (novo) • Funções Envolvidas: • Service Desk • Gestão de Operações de TI (novo) • Gestão de Aplicações (novo) • Gestão Técnica (novo) • Atividades Comuns: • Monitoramento e Controle • Conceitos chaves: • Eventos • Incidentes • Problemas • Erro Conhecido • Operação de Serviços: • Pode ser chamada de a Fábrica de Serviços de TI • Seu propósito é entregar e manter serviços de TI • Seu propósito é coordenar e entregar atividades e processos necessários para entregar e manter o nível de serviço combinado com o cliente e o negócio

  3. 1ª Parte

  4. Gestão de Eventos • Evento: • Qualquer ocorrência detectável ou discernível que tem impacto e significância para a gestão de infraestrutura ou entrega de serviços de TI. • Normalmente, são notificações criadas pelo serviço, itens de configuração ou ferramenta de monitoramento. • Categorias de Eventos: • Informacional: • Evento detectável, porém de baixa importância no momento. Ex.: Log na rede. • Aviso (Warning): • Evento que requer uma auto resposta ou intervenção humana. Ex.: Disco enchendo. • Exceção: • Evento que sinaliza um Incidente (evento indesejado) na infraestrutura. Ex,: O servidor caiu. • Propósito: • É um processo que trabalha todos os eventos que ocorrem na infraestrutura de TI que permitem a operação normal e também a detecção e escalação de exceções. Trabalha os eventos gerados pelo monitoramento.

  5. Relações da Gestão de Eventos • Atividade de Monitoramento: • Para funcionar bem, a Gestão de Eventos depende da atividade comum de monitoramento. • Papel: • Este processo normalmente é de responsabilidade da Área de Monitoramento, da Gestão de Operação ou Service Desk. • Tipos de Monitoramento: • Ativo: • Monitora CIs chaves e notifica corretamente as exceções. • CI: Configuration Item ou Item de Configuração, que é componente da infraestrutura. Exemplos: Documento, Aplicação, Software, Banco de Dados, Servidor, Firewall, etc. • Passivo: • Detecta e correlaciona alertas operacionais e comunicações geradas pelos CIs.

  6. Processo de Gestão de Eventos Informational Trigger Exception

  7. Aplicações, importância e atividades • Aplicações: • CIs, ambiente (fumaça ou fogo), software, segurança, aplicações, etc. • Importância: • Mecanismo de detecção de Incidentes, mesmo antes do serviço cair • Monitoramento de exceções  reduz custos e o downtime • Se integrado a outros processos  sinaliza exceções para equipe • Base para automação  aumenta eficiência • Atividades: • Ocorrência e notificação • Detecção • Filtragem • Significância: • Informação, aviso, exceção • Correlação • Gatilho • Resposta: • Registro, auto-resposta, alerta/intervenção humana, incidente, problema ou RFC • Revisão de ações • Fechamento

  8. Gestão de Incidentes • Incidente: • Evento que não faz parte da operação padrão de um serviço e que causa, ou pode causar, interrupção e/ou redução na qualidade desses serviços. • Podem ser comunicados pelo cliente ou detectados (Gestão Eventos). • Solução de Contorno: • Método de resolver o Incidente a partir de uma reparação temporária. • Propósito: • Processo reativo, cujo principal objetivo é restaurar o nível de serviço o mais rápido possível, minimizando os efeitos negativos no negócio. • Pode se valer de soluções de contorno para restaurar o serviço.

  9. Objetivos e Importância Objetivos Importância Melhora a disponibilidade e uso dos serviços projetados A priorização dos Incidentes por impacto de negócio, faz o alinhamento de TI e negócio em tempo real. Permite a identificação de melhorias nos serviços de negócio. Permite a identificação de treinamentos que a área de TI deve fazer para a área de negócio. • Garantir o melhor nível possível de disponibilidade e qualidade do serviço. • Respeitar os acordos de níveis de serviço. • SLA: Service Level Agreement, Acordo de Nível de Serviços • Desenvolver e manter registros eficazes para uso posterior.

  10. Processo de Gestão de Incidentes  

  11. Atividades da Gestão de Incidentes • Registro • Categorização: • Tipificação do Hardware • Tipificação do Software • Priorização: • Urgência (3): • Baixa, Média ou Alta • Prioridade (5): • Planejada, Baixa, Média, Alta ou Crítica • Diagnóstico inicial • Escalação: • Funcional e hierárquica • Investigação & diagnóstico: • O que realmente ocorreu • Ordem dos eventos e fatos • Pesquisa de ocorrências • Resolução e recuperação: • Resolver (usando recursos internos e parceiros) e testar • Fechamento: • Categorizar fechamento • Checar satisfação do usuário • Documentar incidente • Incidente recorrente ou novo • Fechamento formal

  12. Conceitos Adicionais de Incidentes • Limites de Tempo: • Quando fazer escalações? • Prioridade (impacto x urgência) • SLA (acordado com cliente) • OLA (acordo com outras áreas) • UC (acordo com fornecedor) • Modelos de Incidentes: • A solução de Incidentes antigos pode ser automatizada (através de modelos) de forma a melhorar a produtividade. • Incidentes Maiores: • Um procedimento especial (sala de guerra) deve ser utilizado para Incidentes de grande impacto no negócio. • Prioridade: • Combina Impacto e Urgência usando uma escala de 3 pontos: • Resultando na priorização:

  13. Escalação eníveis dos Incidentes Vertical Horizontal • Funcional (Horizontal): • Buscar apoio técnico de outros níveis (2 ao 4) para resolução • Hierárquica (Vertical): • Informar aos superiores sobre Incidentes de alto impacto. Gatilhos: • Criticidade (abertura) • Consumo do SLA

  14. Benefícios e Desafios (CSF) Benefícios Desafios (CSF) Detectar os Incidentes o mais cedo possível (treinamento, usuários chaves e eventos) Convencer as pessoas (staff e usuários) a registrar todos os Incidentes Disponibilizar informações de soluções de Erros Conhecidos Manter a integridade da base de CIs para facilitar a resolução Integrar a Gestão de Incidentes com a Gestão de Nível de Serviços para manter o alinhamento de TI com o negócio e beneficiar os clientes • Clientes: • Detecção e resolução de incidentes  menor downtime  maior disponibilidade • Identificação de pontos de melhoria do serviço • Melhora da comunicação durante o tratamento do Incidente • Negócio: • Maior produtividade das pessoas • Alinhamento em tempo real de TI com as prioridades de negócio  maior aderência aos SLAs  melhora na satisfação dos clientes • Identificação de novas oportunidades de negócio (serviços, treinamento, etc.)

  15. Indicadores e Papel do Gerente Indicadores (KPIs) Papel do Gerente Gerenciar os resultados do processo buscando eficiência e eficácia Produzir informações gerenciais (KPIs) e tratar os ofensores Gerenciar o trabalho das equipes Gerenciar as escalações Desenvolver e manter processo e procedimentos Apoiar a implantação e melhoria de processos em outras áreas • Indicadores: • Incidentes / Transação • % de cumprimento do SLA / dimensão • First Call Resolution (% de Incidentes resolvidos no 1º Nível) • % de Incidentes / dimensão • Tempo médio de resolução / dimensão • Custo ou % de custo / dimensão • Dimensões: • Prioridade, Categoria, Nível, Item de Configuração, Agente

  16. Interfaces com outros processos

  17. Execução de SRsRequest Fulfilment • Requisição de Serviços (SR: Service Request): • Requisição do usuário de um conselho, informação, uma pequena mudança, suporte, entrega, documentação ou acesso à infra de TI. • Não é uma falha da infraestrutura de TI, como no caso do Incidente. • Exemplos: reset de senha, criação de usuário, restauração de backup, troca de impressora de lugar, instalação de software, etc. • As pequenas mudanças (instalação de software, liberação de ramal, etc.) devem ser previamente autorizadas. • Propósito: • Entregar as SR evitando congestionamento ou obstrução da Gestão de Incidentes e de Mudanças. • Considerações: • Muitas empresas gerem as SR junto com os incidentes no Service Desk. A junção ou separação depende do volume e estrutura da empresa. • As SR são “eventos que podem ser planejados”, os Incidentes não.

  18. Objetivos e Importância das SR Objetivos Importância Acesso rápido e efetivo a serviços padrões Melhora produtividade e qualidade do staff Redução da burocracia e do custo de operação A centralização da execução aumenta o nível de controle dos serviços Aumenta o poder de negociação com fornecedores • Oferecer um canal para solicitar e receber serviços padrões com aprovações e qualificação pré-definidas • Informações sobre quais serviços são prestados e como obtê-los • Fornecer e entregar componentes (ex: mídia, licenças, documentos, etc.) • Assistência com informações, reclamações e comentários

  19. Princípios Básicos das SRs Políticas de SRs Modelos de SRs Para cada SR defina: Nome e Descrição SLA Requisitos de Aprovação Pré-requisitos de execução O Fluxo de Trabalho: Área ou equipe Atividade OLA Etc. • As SRs são recorrentes  defina um fluxo de trabalho • Defina o SLA e as regras de escalação de cada SR • O Service Desk deve monitorar, escalar e executar as SRs • Padronize a aprovação prévia e os pré-requisitos básicos de cada SR

  20. Atividades e interfaces das SR • Interfaces: • Service Desk: • Porta de entrada da SR • Gestão de Incidentes: • Pode atender boa parte das SR (depende do modelo de entrega) • Gestão de Versões e Distribuição & Gestão de Configuração e Ativos de Serviços: • Muitas SR referem-se a Liberações e CIs

  21. Gestão de Problemas • Conceitos: • Problema (Problem): • Causa desconhecida de um ou mais incidentes (existentes ou não). • Erro (Error): • Causa conhecida de um ou mais Incidentes. • Erro Conhecido (Known Error): • Problema com causa raiz determina e ao menos uma solução definida. • RFC (Request For Change): • Solicitação de mudança para eliminação de um Erro Conhecido. • Gestão de Problemas: • Processo responsável por gerir o ciclo de vida dos problemas, evitar novos problemas, reduzir a ocorrência ou recorrência de Incidentes e minimizar o impacto de incidentes inevitáveis.

  22. Objetivos e Importância Objetivos Importância Aumenta a disponibilidade dos serviços de TI Aumenta a produtividade do negócio e do staff Reduz os custos com soluções paliativas ou soluções inadequadas Reduz o custo de “apagar incêndios” ou de resolver Incidentes repetidos • Evitar Problemas e os Incidentes resultantes deles • Eliminar Incidentes recorrentes • Minimizar o impacto de Incidentes que não são evitáveis • Melhorar a produtividade da equipe de Incidentes através do registro de Soluções de Contorno na KEDB (Known Errors Data Base ou Base de Dados de Erros Conhecidos).

  23. Tipos de Problemas e de Processos Modelos de Problemas Sub-processos • Boa parte dos problemas são únicos e requerem tratamento individual • A solução de alguns problemas pode ser mais cara do que conviver com eles. Neste caso, é melhor modelar estes problemas: • A KEDB deve ser utilizada para acelerar o diagnóstico e a resolução dos Incidentes

  24. Processo de Gestão de Problemas    

  25. Atividades da Gestão de Problemas • Detectar o Problema • Registrar o Problema • Avaliar os Incidentes • Categorizar o Problema • Priorizar o Problema • Investigar e Diagnosticar: • Investigação cronológica • Fluxograma • Análise de Pareto • Diagrama de Ishikawa • Análise de valor da dor (pessoas, duração e custo) • Brainstorming • Método de Kepner e Tregoe • Tem solução de contorno? • Registrar o Erro Conhecido • Requer uma RFC? • Aplicar a resolução • Fechar o Problema • Se for um Problema Maior agendar uma revisão • Proativo: • Detecção de erros no desenvolvimento • Registro na KEDB

  26. Análise de Pareto • Análise de falhas: 20% Causas  80% Falhas

  27. Exemplo do Diagrama de Ishikawa

  28. Método de Kepner e Tregoe

  29. Gestão Proativa de Problemas Ferramentas Gráfico de Tendências • Análise das Tendências: • Incidentes no mesmo CI • Incidentes após mudanças • Ações Preventivas: • Priorizar os Problemas em função da dor dos Incidentes • Revisão de Problemas Maiores: • Programar uma Avaliação após a mudança para corrigir um Problema Crítico • Lições aprendidas

  30. Indicadores e Papéis Indicadores (KPIs) Papéis Gerente de Problemas: Gerir as atividades da área Garantir os KPIs da área Manter e aprovar a KEDB Analista de Problemas: Identificar e tratar Problemas Auxiliar na resolução de Incidentes Maiores e Críticos Manter a KEDB Fornecedor: Apoiar a resolução de Problemas Service Desk: Manter os gatilhos de Problemas • Indicadores: • Redução dos Incidentes / Transação • % de Problemas / dimensão • % de cumprimento do SLA / dimensão • % de Problemas com SLA estourado (backlog) • % de Problemas no backlog / dimensão • Custo médio / Problema • % de Erros Conhecidos / dimensão • Dimensões: • Tempo, Severidade, Prioridade, Situação, Item de Configuração

  31. Interfaces da Gestão de Problemas

  32. Questões de prova • 1) Qual é o primeiro passo do registro de um incidente? • A. Registrar os dados do incidente. • B. Atribuir um número ao incidente. • C. Pesquisar as possíveis soluções do incidente. • D. Determinar a prioridade do incidente. • 2) Quando a causa de um ou mais incidentes não é conhecida, recursos adicionais são alocados para descobrir esta causa. Qual processo ITIL é responsável por isto? • A. Gestão de Capacidade. • B. Gestão de Incidentes. • C. Gestão de Problemas. • D. Gestão do Nível de Serviços.

  33. Questões de prova • 3) Como a Gestão de Problemas contribui para aumentar o % de solução aplicada pelo 1º nível de suporte? • A. Analisando os incidentes abertos. • B. Avaliando os incidentes com os clientes. • C. Prevenindo incidentes. • D. Disponibilizando a base de dados de Erros Conhecidos (KEDB). • 4) Quem é responsável por monitorar um incidente? • A. O Gerente de Problemas. • B. Os analistas da Gestão de Problemas. • C. O Service Desk. • D. O Gerente de Nível de Serviço.

  34. 2ª Parte

  35. Gestão de Acessos • Propósito: • Garantir o acesso, de usuários autorizados, ao serviço e evitar o acesso dos demais usuários. • Comentários: • Também é chamado de Gestão de Direitos ou Gestão de Identidade. • As solicitações de acessos podem nascer de SR no Service Desk. • É recomendável que a coordenação deste processo seja única, normalmente pela Gestão do Service Desk ou Gestão de Operação de TI. • Objetivos: • Garantir a execução da Política de Segurança e de Gestão de Disponibilidade. • Fornecer o direito de acesso dos usuários aos serviços ou grupos de serviços.

  36. Importância e Papéis Importância Papéis Gestão do Processo: Assegurar o cumprimento das políticas de acesso Gestão de Aplicações: Garantir que os requisitos de gestão de acessos sejam implementados Gestão Técnica: Testar as funcionalidades de acesso Tratar os Incidentes e Problemas de acesso • Ajuda a manter eficiência na confidencialidade • Habilita os usuários a desempenhar seus papéis • Reduz os erros de pessoas inexperientes • Auditoria de uso e rastreabilidade de abusos • Facilita a revogação de direitos • Estar em conformidade

  37. Conceitos da Gestão de Acesso • Acesso: • Refere-se ao nível e extensão de uma funcionalidade do serviço que o usuário quer usar • Identidade: • Forma de identificação única de cada usuário • Direitos (privilégios): • Funcionalidades que o usuário pode acessar • Serviços ou grupos de serviços: • Um usuário ou grupo de usuários pode ter acesso a serviços ou grupos de serviços • Serviços de diretório: • Tipo de ferramenta que é utilizada para gerenciar acessos, direitos e usuários e grupos

  38. Atividades da Gestão de Acesso • Mudanças de estados: • Mudanças de papéis • Promoções ou rebaixamento • Transferências • Morte, abandono ou renúncia • Aposentadoria • Ação disciplinar • Demissão • Etc.

  39. Atividades Comuns:Monitoramento e controle • Conceitos: • Monitoramento: • Refere-se a atividade de observar uma situação e detectar mudanças que acontecem ao longo do tempo. • Reportar: • Refere-se à atividade de analisar, produzir e distribuir um relatório da saída de uma atividade de monitoramento. • Propósito: • Medir e controlar o serviço baseado no monitoramento, reportar e se necessário gerar ações subseqüentes. • Consideração: • Como o monitoramento é uma atividade operacional, para agregar valor, todas as fases anteriores do ciclo de vida dos serviços devem garantir que as medidas e controles sejam definidas e executadas.

  40. Monitoramento simples • A saída é medida e comparada com um padrão aceitável, se não aceitável uma ação corretiva é acionada • Tipos: • Sistemas de ciclo aberto: • Executa uma atividade independente das condições do ambiente • Ex.: Sistemas de backup (executa o backup nas datas e horas definidas) • Sistemas de ciclo fechado: • Monitora o ambiente e responde a mudanças nele • Ex.: Balanceamento de carga

  41. Monitoramento complexo 1 ciclo externo (geral) Controlando o processo 3 ciclos simples (internos) Controlando 3 atividades Processo com 3 Atividades

  42. Usos do monitoramento • Performance de atividades em um processo ou procedimento • Ex.: Gestão de Incidentes (monitora e escala) • Efetividade de um processo, procedimento ou papel • Ex.: Gestão de Mudanças (as mudanças devem ser implementadas no tempo e custo esperado) • Performance de um dispositivo • Ex.: Tempo de resposta de um servidor a plena carga • Performance de uma série de dispositivos: • Ex.: Tempo de resposta da aplicação para o usuário

  43. Loop de monitoramento de ITSM

  44. Loop de monitoramento de ITSM • Seta 1: • O CSI detectou que o serviço precisa melhorar (ex: ampliação do portfólio ou arquitetura errada) e submete uma RFC para a Estratégia • Seta 2: • Os SLRs precisam ser ajustados (ex: melhoria de performance ou preço) • Seta 3: • Os valores padrões precisam ser ajustados (ex: inadequado, falta de treinamento, etc.) ou adequado às regras

  45. Tipos de monitoramento de ITSM 1 • Ativo x Passivo: • Ativo: • Verificação on-line de um dispositivo ou sistema para determinar seu estado. • Pode consumir muitos recursos é usado no monitoramento proativo • Passivo: • O próprio dispositivo gera e transmite eventos para um ouvinte (listener) ou agente • Tipo mais comum, depende da geração dos eventos e do sucesso do agente ou ouvinte • Reativo x Proativo: • Reativo: • Gera uma requisição ou aciona um gatilho para um certo tipo de falha ou evento • Ex: Prompt após batch • É mais utilizado para tratar exceções • Proativo: • Usado para detectar padrões de eventos que indicam uma possível falha • Ex: Ataque eminente • Requer maturidade • Podem ser ativo ou passivo e vice-versa

  46. Tipos de monitoramento de ITSM 2 • Medição contínua: • O sistema ou dispositivo é verificado em tempo real (de tempos em tempos) para ver se atende ao valor padrão • Medição baseado em exceções: • Não monitora em tempo real, somente detecta e trata as exceções geradas pelo dispositivo • Todas as combinações são possíveis: Contínuo x Exceções Ativo x Passivo Reativo x Proativo

  47. Funções da Operação de Serviços Service Desk Gestão de Operações de TI Gestão de Aplicações Gestão Técnica

  48. Função: Service Desk (SD) • Função (não é processo) de Service Desk: • Unidade funcional criada para lidar com eventos, recebidos via: telefone, site, gerências de monitoramento de infraestrutura, etc. • Objetivos: • Deve ser o ponto único de contato (SPOC: Single Point of Contact) dos usuários com a TI e deve gerir todos os incidentes e requisições de serviços (SR). • Sua presença é vital para o sucesso da unidade de TI, pois funciona como um anteparo da área de TI. • Ajudar os usuários a restaurar o nível normal de serviços o mais rápido possível, sejam por incidentes ou SR.

  49. Responsabilidades do SD • Registrar incidentes e SR, definindo categoria e prioridade • Fornecer o 1º nível de investigação e diagnóstico • Resolver os incidentes e SR de 1º nível • Escalar e gerenciar os incidentes e SR de outros níveis • Manter os usuários informados do andamento do trabalho • Fechar os incidentes e SR resolvidos • Verificar a satisfação do cliente e usuários • Negociar janelas de mudanças com cliente e usuários • Atualizar o CMS (Configuration Management System ou Sistema de Gestão de Configuração), se combinado com SACM (Service Asset and Configuration Managementou Gestão de Configuração e Ativos de Serviço)

  50. Papéis de gestão do SD • Gerente: • Gerir o SD • Em grandes empresas requer supervisores • Atividades: • Gestão geral incluindo os supervisores • Receber escalações • Cuidar dos clientes • Reportar aos superiores incidentes significantes • Participar do CAB (Mudanças) • Responder pelo SD • Supervisor: • Gerenciar um grupo, turno ou clientes do SD • Atividades: • Garantir perfil adequado a qualquer hora no SD • Gerir os analistas • Receber escalações • Gerir relatórios estatísticos • Gerir treinamentos • Representar SD em reuniões

More Related