Lentidão na plataforma

Incident Report for OmniChat

Postmortem

O que aconteceu?

Entre 10:00 de 22 de Setembro de 2023 e 16:30 de 22 de Setembro de 2023, a plataforma Web da OmniChat apresentou instabilidades.

 

Causa Raiz:

A Engenharia da OmniChat identificou dois problemas:

  • Rotina de extração de dados gerando consumo excessivo de um de nossos banco de dados;
  • Biblioteca de monitoramento causando uso excessivo de CPU, gerando lenditão na aplicação cliente. O problema acabava sendo acentuado quando o usuário utilizava a funcionalidade de escutar áudio;

 

Resolução e prevenção:

A Engenharia da OmniChat tomou conhecimento de relatos de clientes sobre o problema às 09:42 de 22 de Setembro de 2023. Desde então, trabalhou para isolar e atenuar o problema.

O time de engenharia da OmniChat atuou da seguinte forma em cada item de falha apresentado:

Às 10:20 do dia 22 de Setembro, a engenharia da OmniChat encontrou a causa raiz do problema e executou o procedimento de manutenção emergencial:

  • 10:20 do dia 22 de Setembro - rotina de extração de dados foi desativada;
  • 16:00 do dia 22 de Setembro - biblioteca de monitoramento foi desativada;

Para evitar a recorrência do problema, a engenharia está tomando as seguintes ações:

  • Melhorar monitoramento das triggers e alarmes relacionados ao banco impactado;
  • Melhorar testes na aplicação web para mitigar a possibilidade de entrar itens com consumo excessivo de CPU;
  • Melhorar processo de expedição de pacotes para a aplicação web para rollbacks mais rápidos, assim, reduzindo o tempo para voltar versões da aplicação.

BO-1232: Adicionar monitoramento sobre Disk Util diretamente no canal da SquadBACKLOG

AT-2973: Melhoria nos testes da aplicaçãoTO DO

BO-1233: Criar formato de rollback express para aplicação web-appBACKLOG

 

A OmniChat está comprometida em melhorar continuamente nossa tecnologia e operações para evitar interrupções e degradações do serviço. Agradecemos sua paciência e pedimos desculpas novamente por qualquer impacto em sua organização.

Posted Sep 25, 2023 - 09:20 GMT-03:00

Resolved

O problema com a plataforma foi resolvido. Lamentamos o transtorno e agradecemos a paciência. Tenha certeza de que a confiabilidade do sistema é uma prioridade para a Omnichat, estamos fazendo aprimoramentos contínuos para tornar a sua experiência cada vez melhor. O postmortem será publicado nos próximos dias com maiores detalhes sobre o incidente.
Posted Sep 22, 2023 - 17:51 GMT-03:00

Monitoring

Uma atualização que resolve o problema por completo foi implementada e está sendo distribuída. Enquanto isso seguimos monitorando a estabilidade da mesma.
Posted Sep 22, 2023 - 16:38 GMT-03:00

Update

Foram identificadas algumas anomalias em nossa base de dados as quais o time de engenharia está trabalhando. Também identificamos que o nosso sistema de telemetria remota, está causando excesso de uso dos recursos das máquinas clientes, assim causando lentidão. Para este caso, as devidas tratativas também estão sendo tomadas.
Posted Sep 22, 2023 - 15:11 GMT-03:00

Identified

O problema foi identificado e a nossa engenharia está trabalhando na tratativa.
Posted Sep 22, 2023 - 12:18 GMT-03:00

Investigating

Estamos investigando relatos de um problema com a plataforma. Forneceremos mais informações em breve. Os usuários afetados enfrentam lentidão na manipulação da plataforma.
Posted Sep 22, 2023 - 10:21 GMT-03:00
This incident affected: App - https://app.omni.chat.