Instabilidade Atendente virtual
Incident Report for OmniChat
Postmortem

No dia 16/07 (terça-feira), identificamos que o BOT STUDIO enfrentou problemas devido a uma nova implementação que afetou a funcionalidade de tratamento de eventos de inatividade. Durante este período, o chatbot não conseguia lidar corretamente com eventos de inatividade dos usuários.

Causa Raiz

Às 16:03h, nossa equipe de engenharia identificou que a recente atualização para compactar as intenções do bot causou uma falha em um dos nossos serviços, especificamente aquele responsável por tratar eventos de inatividade. A implementação tinha como objetivo otimizar o armazenamento das intenções do bot no banco de dados, e não deveria impactar no funcionamento do BOT em nenhum aspecto, mas resultou em uma incompatibilidade com o serviço.

Após diversas análises e testes, descobrimos que a classe responsável pela lógica de compactação introduzida, gerou um problema que conhecemos como dependência circular. Esse é um problema que ocorre quando duas ou mais partes de um sistema dependem umas das outras para funcionar.

Resolução e Prevenção

Após a identificarmos da origem do problema, decidimos reverter a implementação para a versão anterior. Essa ação restaurou a funcionalidade do serviço e o tratamento dos eventos de inatividade foi normalizado por volta das 16:25.

Para evitar problemas semelhantes no futuro, planejamos as seguintes ações preventivas:

  1. Testes mais abrangentes: Vamos ampliar nossos testes antes de lançamentos, especialmente em áreas críticas como o tratamento de eventos.
  2. Monitoramento contínuo: Implementaremos monitoramento contínuo e alarmes específicos para detectar rapidamente falhas em componentes essenciais.
  3. Revisão de processos: Revisaremos nossos processos de atualização para garantir que todas as interdependências entre componentes sejam consideradas.

Nossa equipe está comprometida em aprender com essa experiência para melhorar a confiabilidade e a qualidade do nossos produtos. Agradecemos a paciência de todos durante a resolução deste incidente.

Posted Jul 24, 2024 - 11:24 GMT-03:00

Resolved
O problema com a plataforma foi resolvido as 16:25h . Lamentamos o transtorno e agradecemos a paciência. Tenha certeza de que a confiabilidade do sistema é uma prioridade para a Omnichat, estamos fazendo aprimoramentos contínuos para tornar a sua experiência cada vez melhor. O postmortem será publicado nos próximos dias com maiores detalhes sobre o incidente
Posted Jul 16, 2024 - 17:17 GMT-03:00
Investigating
Foi identificado um problema com mensagem de inatividade do atendente virtual o mesmo esta com lentidão no envio das mensagens.
A equipe está trabalhando na tratativa do problema.
Posted Jul 16, 2024 - 16:03 GMT-03:00
This incident affected: Automations (Bot).