O mês de julho começou pesado para os internautas. Por diversos motivos, alguns dos principais serviços da web sofreram vários problemas nos últimos dias. E os problemas não estão relacionados entre si, e em muitos casos são frutos dos próprios erros das empresas envolvidas.
O mais chocante é que não é a primeira vez em uma mesma semana algo semelhante acontece. Em 2 de julho, um suposto ataque DDOS afetou o Cloudflare, derrubando vários sites, serviços e aplicativos. Na época, aquela era a informação mais verídica e a teoria mais apoiada pelos especialistas de segurança. Porém, quando o Cloudflare explicou o que realmente aconteceu, o sentimento diante da explicação foi de vergonha alheia.
Na verdade… não foi um ataque
O que aconteceu com o Cloudflare foi por culpa do próprio Cloudflare, e não por causa de um ataque DDOS. Todo o problema aconteceu porque o serviço de CDN “sabotou a si mesma”.
Tudo começou quando os administradores do Cloudflare implementaram novas regras no seu firewall WAF (Web Application Firewall), com o objetivo de bloquear novos tipos de ataques que os seus clientes estavam sofrendo. Com as mudanças, o firewall da empresa seria capaz de bloquear o código em Javascript utilizado em ataques nos serviços web.
Pois bem, quando uma empresa como o Cloudflare implementa este tipo de mudança, ela não faz isso de forma direta ou imediata. Primeiro, são feitos testes e, com base nos resultados, as modificações e implementações são feitas na versão final. Na prática, a nova regra de fato não bloqueava o tráfego se detectava o código Javascript malicioso. Apenas fazia o registro do mesmo.
A falha do Cloudflare que fez os processadores ferverem
Porém, uma dessas regras estava mal escrita, com uma expressão regular para comprovar se o código malicioso estava presente. O código foi mal escrito e, quando executado, o erro aparecia. Enquanto os administradores do Cloudflare introduziam as novas regras, os processadores imediatamente alcançaram os 100% de uso, com o código escrito errado entrando em looping.
O problema afetou toda a rede do Cloudflare, provocando erros em 82% das conexões realizadas na sua nuvem. Ou seja, os processadores fritando e não respondendo às petições dos clientes.
O problema durou aproximadamente 30 minutos, tempo suficiente para deixar muitos engenheiros do Cloudflare em pânico. A empresa prometeu que vai melhorar a forma em que vai testar as mudanças. É o mínimo que esperamos, levando em conta a quantidade de serviços que dependem de sua nuvem.
Via Cloudflare