Problemas na plataforma ao iniciar, finalizar ou assumir conversas
Incident Report for OmniChat
Postmortem

O que aconteceu?

Entre 08:00 de 8 de setembro de 2021 e 10:00 de 08 de setembro de 2021, a plataforma da OmniChat apresentou um problema que causou erro ao iniciar, assumir ou finalizar conversas.

 

Causa Raiz:

A Engenharia da OmniChat identificou o problema em um serviço de armazenamento que atingiu o limite de chamadas por segundo. Esse serviço é responsável pelo armazenamento de diversas informações criptografadas dentro da plataforma. O serviço apresentou erro intermitente na leitura dos dados. Devido a este comportamento, foi necessário uma análise profunda para conseguir isolar e localizar a causa raiz.

 

 

Resolução e prevenção:

A Engenharia da OmniChat tomou conhecimento de relatos de clientes sobre o problema às 08h00 do dia 8 de setembro, desde então trabalhou para isolar e atenuar o problema. 

Foram executadas análises minuciosas em todos os serviços que apresentaram lentidão, a fim de isolar a causa raiz do problema.

Às 10h do dia 8 de setembro a engenharia da OmniChat encontrou a causa raiz do problema e executou o procedimento de manutenção emergencial para que o problema fosse sanado.

 

Para evitar a recorrência do problema, agir de forma ativa e mais assertiva, a engenharia está tomando as seguintes ações:

 

  • Melhoria no monitoramento automatizado com métricas e alarmes específicos para o serviço em questão mais precisas que sejam capazes de medir os limites no serviço e revisão dos demais alarmes e métricas responsáveis pelo monitoramento de limites a fim de prever possíveis gargalos na plataforma.

 

A OmniChat está comprometida em melhorar continuamente nossa tecnologia e operações para evitar interrupções e degradações do serviço. Agradecemos sua paciência e pedimos desculpas novamente por qualquer impacto em sua organização.

Posted Sep 08, 2021 - 14:58 GMT-03:00

Resolved
Tivemos relatos de que as funções de iniciar assumir ou finalizar conversas estavam retornando erro.

Ao investigar constatamos um problema em um dos serviços da plataforma que retornava erro aleatoriamente para algumas chamadas.

Assim que encontrado o problema foi aplicado a correção fazendo com que os serviços voltassem a operar normalmente.

O postmortem com maiores detalhes será publicado nos próximos dias.
Posted Sep 08, 2021 - 08:00 GMT-03:00