No dia de ontem (18), cerca de 20% dos sites que dependem da Cloudflare enfrentaram interações offline devido a uma instabilidade de grande escala que afetou a empresa, que é uma das principais fornecedoras de DNS e CDN do mundo. Situações raras, mas com grande impacto, como essa, revelam um problema de longa data da arquitetura cliente-servidor: a dependência absoluta de uma única plataforma para manter os serviços em funcionamento.
O apagão foi o mais severo desde 2019, conforme enfatizou o CEO Matthew Prince. A falha teve início às 8h20 (horário de Brasília) e levou aproximadamente cinco horas para ser totalmente normalizada. Mesmo com uma vasta rede de servidores distribuídos globalmente e uma infraestrutura que apresenta alta redundância, mostrou-se que a Cloudflare ainda pode ser suscetível a falhas críticas que ameaçam a continuidade de partes significativas da internet.
O que ocorreu com a Cloudflare?
Em nota divulgada no mesmo dia, Prince esclareceu que a falha não foi atribuída a ciberataques ou atividades mal-intencionadas. O problema teve origem interna: uma pane na própria infraestrutura da Cloudflare.
A instabilidade surgiu devido a uma alteração inesperada no ClickHouse, um sistema interno dedicado à análise de dados. Uma consulta mal configurada passou a gerar colunas duplicadas após modificações nas permissões, resultando em um aumento de tamanho no arquivo. Quando esse serviço danificado foi carregado, o sistema de proxy colapsou e começou a produzir erros HTTP 5xx, que são normalmente raros.
Além disso, serviços como Workers KV e Cloudflare Access também enfrentaram interrupções. Apenas os clientes que não utilizavam a proteção contra bots conseguiram evitar as consequências desse apagão.
Os efeitos globais da falha
Este colapso teve um efeito cascata em nível global. Serviços essenciais, plataformas de pagamento, provedores online, sites de conteúdo e até mesmo páginas da própria Cloudflare tornaram-se inacessíveis. Entre os serviços notórios atingidos estão o X (antigo Twitter) e o ChatGPT, da OpenAI.

“Considerando a importância da Cloudflare no ecossistema da internet, qualquer interrupção nos nossos sistemas é inaceitável. A incapacidade de rotear tráfego em nossa rede durante um período é uma situação profundamente dolorosa para todos os membros da nossa equipe”, afirmou Prince.
Indicador de fragilidades na infraestrutura da internet
Esse incidente destacou uma vulnerabilidade bem conhecida: rely solely on a single infrastructure provider poses a significant risk to any business. Embora apresente vantagens como presença global, robustez em segurança, escalabilidade e custos reduzidos, a centralização implica que todos os serviços fiquem expostos ao risco de uma falha isolada.
“Essas plataformas são vastas, eficientes e utilizadas em praticamente todos os aspectos da vida moderna. A vantagem é clara… No entanto, a desvantagem também é evidente: quando uma plataforma deste porte enfrenta problemas, o impacto se espalha rapidamente”, comentou Fernando de Falchi, gerente de Engenharia de Segurança da Check Point Software Brasil.
A Cloudflare garantiu que irá implementar medidas para evitar a repetição de problemas semelhantes no futuro. As ações incluem:
- Validação rigorosa de arquivos internos;
- Botões de emergência globais;
- Controle eficiente de relatórios de erro;
- Testes simulações de cenários extremos.
Para os clientes, a mensagem é clara: diversificar os provedores de entrega de conteúdo e infraestrutura é crucial para reduzir os riscos de instabilidade e garantir que as operações permaneçam ativas, mesmo diante de falhas críticas.
Se você deseja aprofundar seus conhecimentos sobre infraestrutura, segurança digital e os bastidores da internet, continue acompanhando as análises, explicações e atualizações que o TecMundo disponibiliza.