Tanto empresas públicas quanto privadas buscam melhorar a produtividade e evitar incertezas para garantir um trabalho bem executado. Nesse cenário, a Tecnologia da Informação (TI) ganha um papel central e estratégico, porque permite atender às demandas da organização ao mesmo tempo em que realiza uma gestão de incidentes eficiente.

É necessário compreender que muitos processos de negócio dependem diretamente da TI. Por isso, esse setor tem a função de assegurar o cumprimento dos valores organizacionais e monitorar os riscos para haver um alinhamento entre a área e os objetivos estratégicos da empresa.

O resultado é a execução de uma atividade reativa que diminui ou elimina os impactos reais ou potenciais para os usuários. Por sua vez, estes conseguem trabalhar continuamente e perseguir as metas traçadas no planejamento estratégico.

Para entender melhor esse contexto, neste post vamos abordar o gerenciamento de incidentes, destacando seu conceito, importância de investir em soluções de monitoramento e segurança em TI, etapas existentes e mais. Acompanhe!

O que é a gestão de incidentes em TI?

Essa prática é um processo da Information Technology Infrastructure Library (ITIL), biblioteca que reúne as boas práticas relacionadas à manutenção, operação e infraestrutura de serviços de TI, tanto para os setores operacionais quanto estratégicos.

Nesse contexto, o gerenciamento de incidentes consiste na restauração rápida da operação para reduzir os prejuízos à empresa e aumentar os níveis de disponibilidade e de serviço. Quando o funcionamento está normal, é determinado dentro do Service Level Agreement (SLA), ou acordo de nível de serviço, outro processo ITIL.

Perceba que a finalidade da gestão dos incidentes é encontrar um reparo rápido para que o cliente interno ou externo volte a trabalhar, mesmo que de maneira alternativa. Por isso, a equipe de TI que cuida dessa parte precisa conhecer e ser atualizada sobre qualquer mudança ocorrida.

Para compreender melhor esse conceito, é preciso assimilar algumas definições:

  • incidente: é todo evento que extrapola a operação padrão e gera uma interrupção ou diminuição na qualidade do serviço;
  • problema: é um erro de causa desconhecida;
  • requisição de serviços: interpreta-se como uma categoria de incidentes que não provoca falhas na infraestrutura nem ocasiona paradas — é o caso da solicitação de documentos ou informação;
  • posição no fluxo de trabalho: reflete o status do incidente e sua situação atual no ciclo de vida;
  • carga de trabalho: é o esforço ou o tempo empregado para solucionar o problema;
  • prioridade: é determinada pelo impacto causado pelo evento ocorrido sobre as atividades da empresa, varia conforme a organização e é dividida em 5 códigos (crítico — prazo para solução de 1 hora; alto — 8 horas; médio — 24 horas; baixo — 48 horas; e planejado);
  • urgência x impacto: consiste na matriz de categorização dos incidentes conforme a prioridade para a execução do suporte — esse assunto será abordado com mais profundidade a seguir.

Considerando esse contexto e a necessidade de ter uma proximidade maior com os usuários para solucionar os problemas, a peça-chave dessa gestão é a central de serviços (service desk). Essa equipe segue o fluxo adequado para resolver o incidente, independentemente de ser de primeira instância ou um atendimento especializado.

Em suma, adotar essa prática é essencial na empresa, porque é a partir da gestão que se conhecem os erros da infraestrutura de TI. Essa abordagem gera, ainda, os insumos necessários à execução de um trabalho proativo por meio de um processo claro e de melhoria contínua.

O resultado é um service desk que avalia se a tecnologia implementada é realmente viável e com possibilidade de aprimoramento de processo, bem como de alinhamento de iniciativas e rapidez para alcançar os objetivos esperados. Desse modo, a TI se torna um aspecto estratégico para alavancar os resultados obtidos.

Por que sua empresa precisa investir em soluções de segurança e monitoramento?

A administração de incidentes é uma atividade contínua que requer acompanhamento dos processos para garantir que continuem funcionando apropriadamente. A equipe de TI precisa controlar os serviços mantidos em operação e atender às demandas organizacionais pelo desenvolvimento de soluções, pela implantação de serviços e pela avaliação de resultados.

Para garantir que todos esses objetivos sejam atingidos, é fundamental contar com uma solução de segurança e monitoramento de infraestrutura de TI, como a da Vectra. Nesse momento é importante destacar que a terceirização de TI, especialmente no setor público, contribui para a redução de custos e qualidade dos serviços.

A partir da implementação de uma ferramenta apropriada — seja em empresas privadas, seja em organizações públicas — você consegue visualizar toda a infraestrutura, o que facilita a identificação de problemas e o isolamento da causa real do incidente.

Nesse contexto, as principais funções de uma ferramenta de monitoramento e segurança pública são:

  • centralização da operação, gestão e virtualização dos ativos de TI;
  • consolidação dos eventos de diferentes áreas;
  • agilidade na resolução de problemas;
  • automatização dos processos de solução;
  • visualização da saúde dos serviços de TI;
  • gestão da performance e análise de tendências;
  • melhoria da qualidade dos serviços fornecidos;
  • redução do tempo médio de reparo, porque o foco é voltado para a causa, em vez do sintoma;
  • oferta de ferramentas adequadas para que a equipe de primeiro nível solucione o incidente rapidamente;
  • delimitação correta da infraestrutura de recursos necessários para suportar o negócio e o crescimento da empresa.

Além disso, a falta de monitoramento e de controle constante não fornece transparência dos eventos aos usuários, o que ocasiona prejuízos à reputação da empresa e ao setor de TI. Em âmbito mais elevado, gera perdas financeira e de produtividade.

Por fim, outra situação comumente encontrada é o monitoramento unificado. Essa prática consiste em diferentes mecanismos de controle de TI, definidos pela equipe. O esforço dobrado e desnecessário aumenta os custos e o tempo de resolução dos problemas.

Portanto, o ideal é contar com uma plataforma única, que possibilite visualizar todos os processos e ativos presentes na infraestrutura. Dessa forma, diminui-se a chance do incidente de uma área impactar outra — caso de um storage que causa problemas no backup, banco de dados ou servidor de arquivos, por exemplo.

Quais são as principais etapas do gerenciamento de incidentes?

Esse processo pode ser feito de diferentes maneiras, mas é mais comum seguir a abordagem ITIL, que contribui também para o gerenciamento de mudanças, alavancagem do crescimento da empresa e transformação digital. Dentro desse escopo, as principais etapas que compõem a gestão dos incidentes são:

Detecção

Na prática, o mais comum é que o evento perturbador gere uma chamada feita por algum usuário. O atendimento deve ser realizado por meio de diferentes canais, especialmente as interfaces de internet — como chats e e-mails — e o telefone.

Todas as assistências devem ser registradas para a criação de um histórico, que posteriormente ajudará a identificar o padrão de procedimentos adotado. Essa medida deixa os atendentes de primeiro nível mais capacitados para solucionar os problemas e reduz a quantidade de chamados a passar para a etapa seguinte.

Classificação

A importância dessa atividade será melhor abordada ao final do post, mas é relevante destacar que a categorização dos incidentes é fundamental para começar o atendimento e definir qual caminho deve ser seguido. Nesse processo 2 fatores são levados em consideração:

  • categoria: determina o item afetado, que pode ser, por exemplo, o hardware ou um software;
  • prioridade: define a ordem de atendimento de cada chamado a partir de 2 vieses, o impacto e a urgência — o primeiro analisa as possíveis consequências do incidente e, o segundo, o tempo previsto para a solução do problema.

Diagnóstico

Esse é o momento de compreender o evento perturbador e saber o que ele gerou para a empresa. Cabe aqui utilizar a base de conhecimentos obtida para identificar de que forma pode solucionar a questão.

Para isso, o atendente faz perguntas para saber se o usuário já realizou os procedimentos básicos. Se o problema persistir, deve-se partir para o próximo nível de assistência, que pode contar com suporte físico no local, compartilhamento de tela, acesso remoto e outras possibilidades.

Resolução

Essa etapa depende da identificação do procedimento a ser realizado a partir da sua base de conhecimentos. Também contempla a identificação de solução ou se é preciso acionar outros setores antes de fechar a chamada.

Fechamento

Nesse momento, os detalhes devem ser formalizados e arquivados de modo apropriado para comunicar a solução do incidente.

Monitoramento

A falta de resolução de muitos incidentes na primeira chamada exige a atenção da central de atendimento. O ideal é criar um workflow adequado e mecanismos que permitam ao usuário buscar informações sobre a chamada e saber quais medidas estão sendo tomadas para solucionar o problema. Ele também deve ter acesso a uma previsão de quando o sistema voltará a funcionar normalmente.

Qual é a diferença entre incidente e problema em TI?

Essas duas palavras são muitas vezes usadas como sinônimos, mas têm conceitos diferentes quando se fala em seus processos de gestão. O gerenciamento de incidentes, como vimos, visa a restauração da operação normal de um serviço em um intervalo de tempo curto a fim de cumprir o SLA.

Já a administração de problemas busca encontrar a origem de um ou mais incidentes para eliminá-los da infraestrutura e evitar a recorrência. Devido a essa característica, também aprimora o atendimento e o SLA ao mesmo tempo em que oferta maior disponibilidade.

Na teoria, os service desks costumam abordar a gestão de incidentes mas, na prática, tratam os problemas dentro desse procedimento. Essa situação pode ser exemplificada da seguinte forma: a operação foi restaurada, mas a chamada permanece aberta para encontrar a causa do evento perturbado e evitar que ela ocorra novamente.

No entanto, pelo método ITIL, o serviço restaurado deve ter seu incidente finalizado com a consequente abertura de um problema. O ID do procedimento encerrado é relacionado para que, então, a origem seja analisada. 

Apesar de as duas medidas serem similares, o que muda é que a gestão de problemas aliada a de incidentes permite coletar informações relevantes, que auxiliam a tomada de decisão — sem contar que tratar apenas um chamado para 2 situações distintas pode gerar uma lista de atividades enorme e que se torna difícil de ser zerada.

Por isso, o recomendado é sempre separar os processos, ainda que a equipe seja a mesma — vale lembrar que, para o ITIL, o ideal é ter times diferentes para tratar ambas as situações. A ferramenta adotada também deve permitir essa separação, porque assim é possível identificar quantos eventos estão relacionados ao mesmo problema.

A partir dessa mudança de atitude, fica mais fácil priorizar a solução e colocar em prática a sugestão de que 80% do tempo deve ser dedicado à resolução de incidentes e 20% para acabar com os problemas. É assim que as atividades se manterão organizadas e que a sua TI atingirá a maturidade necessária para tomar decisões mais acertadas.

Quais são as 5 dicas para otimizar o processo de gerenciamento de incidentes?

O procedimento a ser adotado requer algumas precauções para que surtam bons efeitos em curto e longo prazo. A seguir, estão listadas algumas dicas que ajudam no gerenciamento de incidentes a partir das melhores práticas da ITIL:

1. Cuide da quantidade de canais de entrada

A identificação e registro de incidentes depende da definição de canais de entrada, que podem ser:

Apesar de ser necessária a oferta de diferentes meios, é preciso ter atenção, porque quanto maior o número de canais, mais difícil será administrar os níveis de serviço, caso do tempo de restauração. Por isso, é importante determinar alguns métodos para organizar e monitorar essa questão, mas isso depende da equipe e sistematização interna.

2. Crie indicadores para a atividade de categorização

Essa tarefa é a mais importante entre aquelas que compõem o primeiro nível de atendimento. Nesse momento é necessário determinar alguns aspectos:

  • questionamentos para o usuário que percebeu o incidente;
  • erros conhecidos e que podem estar associados;
  • tempo de previsão de resolução;
  • departamento que deve fornecer o suporte necessário.

Devido a esses pontos, a equipe de primeiro nível deverá monitorar os incidentes que são ou não categorizados. É recomendado determinar um indicador de desempenho que avalie o total de eventos classificados incorretamente, porque esse índice ajuda a tomar decisões a respeito do treinamento da equipe e documentação de processos.

3. Delimite prioridades parametrizadas e pré-estabelecidas

Os privilégios de resolução são obrigatórios, porque o momento de ocorrência do incidente deve ter esse dado como embasamento. Caso contrário, é comum acreditar que há urgência para todos os eventos — o que é irreal.

Para determinar as prioridades, o ideal é desenvolver uma matriz com base em serviços, cliente e/ou outros parâmetros que forem relevantes para o seu negócio e equipe de TI. Além disso, cada serviço deve contar com um nível específico de atendimento em caso de incidente.

Outra ideia para criar um método de priorização de incidentes é o passo a passo a seguir, que também inclui a definição de SLA:

3.1. Construa um catálogo de serviços

Esse documento é o primeiro passo para determinar a prioridade dos chamados e definir o SLA. Contudo, vá além, porque há vários cenários imprevisíveis dependendo do serviço.

3.2. Defina variáveis críticas

Essa determinação deve se basear no negócio e precisa considerar alguns parâmetros, como interrupção de vendas, faturamento, serviços e usuários afetados. A biblioteca ITIL ainda indica mapear áreas relevantes e funções vitais.

3.3. Elabore cenários

A ideia é considerar as possíveis combinações das variáveis críticas. Por exemplo: se os itens foram criticidade do processo e do usuário, há 4 alternativas:

  • usuário crítico x processo crítico;
  • usuário crítico x processo não crítico;
  • usuário não crítico x processo crítico;
  • usuário não crítico x processo não crítico.

3.4. Parametrize a ferramenta

Os acordos, as regras, os serviços, o tempo e os processos definidos devem ser formalizados por meio de uma ferramenta para permitir sua mensuração. Também é importante apostar em técnicas de governança de TI para assegurar a realização de procedimentos adequados.

4. Determine metas para todos os níveis de prioridade

O tempo de solução geral é insuficiente para resolver os eventos em tempo hábil. É preciso que cada nível de suporte se mantenha comprometido com uma meta para a restauração do serviço no período adequado. Também se deve delimitar as responsabilidades para que todos saibam exatamente o que devem fazer.

5. Conte com a gestão de problemas

Essa etapa, como vimos, é diferente da gestão dos incidentes. Dentro desse processo, existem duas subdivisões. Assim, ele é reativo quando analisa os eventos que ocorrem e procuram solucionar sua origem para evitar a recorrência. Por exemplo: o servidor foi reiniciado para resolver um travamento e identificar nos logs o que gerou a situação.

Por sua vez, é proativo quando busca oportunidades de melhoria pela avaliação de informações dos Itens de Configuração (ICs). A partir disso é possível criar entradas para elaborar um Plano de Melhoria do Serviço. É o caso de uma análise de gráficos de recursos dos servidores, feita mensalmente. Assim, é possível prever que o disco C: vai encher em 3 meses.

Como unir Scrum e ITIL?

A biblioteca ITIL é fundamental para gerenciar os incidentes mas é importante que eles sejam rapidamente solucionados. É aí que se torna importante investir no Scrum, uma metodologia ágil. 

Essa integração pode ser realizada em diversos aspectos, mas é importante que o product backlog seja imutável por determinado período. Caso contrário, a prioridade será alterada continuamente e o sprint não será executado de maneira acertada.

Mais que isso, é importante que a equipe seja separada. Pelo menos 1 ou 2 colaboradores devem ser voltados para a gestão de incidentes, enquanto o restante deve criar um item de investigação e atuar diretamente na origem do evento para catalogá-lo no product backlog e priorizá-lo pelo product owner. O resto é cuidado pela equipe de sustentação.

É importante destacar que o product backlog deve conter os itens investigativos e de melhorias evolutivas. Cada um deles pode ser desenvolvido em sprints predeterminados para haver entregas únicas e impedir a geração de diversas ordens de serviço, que acabam por ser pouco gerenciáveis.

Por sua vez, para evitar a desmotivação da equipe de incidentes, a ideia é adotar um sistema de rodízio. Desse modo, semanal ou mensalmente é alterado o responsável por essa atuação. Ao mesmo tempo, a inclusão do item investigativo no product backlog assegura a análise e resolução da causa do evento, o que tende a diminuir a necessidade de soluções urgentes.

Qual é a importância da classificação de incidentes de TI?

A rapidez na solução dos eventos ocorridos depende diretamente da eficácia e da eficiência do desempenho das atividades inseridas no ciclo de vida do incidente. As primeiras tarefas são executadas pelo service desk, limitando-se ao diagnóstico inicial.

O que nem sempre se percebe é que essas atividades são as mais relevantes para o cumprimento de todo o ciclo do processo. Isso porque quanto mais cedo o erro aparecer, mais tarefas precisam ser refeitas, situação que aumenta o tempo de indisponibilidade do serviço.

A classificação é essencial nesse processo, sendo um fator de decisão. Alguns motivos que justificam a importância dessa atividade são:

Especificação do serviço relacionado ao incidente

Essa atitude é possível pela classificação. Em alguns casos, essa medida se relaciona ao catálogo de serviço e isso ocorre automaticamente de acordo com a base de conhecimento da ferramenta.

Associação ao SLA apropriado

O incidente classificado é associado a um nível de serviço de atendimento, que tem um prazo para resolução. Possíveis erros ocasionam o tratamento em intervalo de tempo inadequado ou, pelo menos, maior que o necessário.

Definição do grupo de especialistas apropriado para analisar o incidente

A natureza do incidente é identificada pela classificação, o que permite selecionar a equipe apropriada para realizar o suporte. Em caso de erros, o evento tende a passar por diferentes setores até alcançar seu destino e a falha ser detectada.

Determinação de perguntas a serem feitas ao usuário

O atendente de primeiro nível define as questões a serem realizadas ao usuário com base na classificação. Isso pode ser determinado por um checklist predeterminado para a categoria selecionada.

Identificação de erros conhecidos

As falhas previamente identificadas e armazenadas na base de conhecimento são ajustadas por categoria — por exemplo: software, sistemas, hardware, rede e mais. Uma classificação errônea levará a uma solução também inadequada.

Assim, fica evidente que a gestão de incidentes de TI é essencial para identificar eventos, tratar problemas e ter processos internos mais eficientes. Essa prática é indicada para qualquer empreendimento, seja público, seja privado.

Então, que tal seguir as dicas dadas e aprimorar os procedimentos adotados? Aproveite e baixe nosso e-book para saber mais sobre processos de segurança em TI!