Cloudflare lança plataforma de inferência Edge AI com latência inferior a 10 ms em todo o mundo

A Cloudflare lançou o Workers AI Edge, uma nova plataforma que distribui inferência de modelos de IA pela rede global da empresa com mais de 300 data centers. O serviço promete latência inferior a 10 milissegundos para modelos suportados, posicionando-o como um concorrente direto das ofertas centralizadas de IA em nuvem da AWS, Google Cloud e Microsoft Azure para aplicativos sensíveis à latência.
Como funciona
A inferência tradicional de IA é executada em regiões de nuvem centralizadas – um punhado de data centers, geralmente nos EUA ou na Europa Ocidental, equipados com bancos de GPUs. Para usuários localizados próximos a essas regiões, os tempos de resposta são aceitáveis. Para usuários no Sudeste Asiático, América do Sul, África ou outras áreas carentes, a latência pode chegar a centenas de milissegundos.
A abordagem da Cloudflare inverte esse modelo. Workers AI Edge implanta versões otimizadas e quantizadas de modelos de IA diretamente em pontos de presença, executando inferência em uma combinação de aceleradores de hardware personalizados e clusters de CPU otimizados que a Cloudflare vem instalando silenciosamente em sua rede no ano passado.
A plataforma oferece suporte a um conjunto selecionado de modelos no lançamento, incluindo o Llama 3.2 da Meta (versões de parâmetros 1B e 3B), o 7B-Instruct da Mistral, o Whisper para conversão de fala em texto e vários modelos de incorporação e classificação. Modelos maiores que exigem clusters de GPU de última geração continuarão a ser roteados para os principais locais de inferência da Cloudflare, mas a empresa afirma que a biblioteca de modelos compatíveis com borda se expandirá rapidamente.
Segmentando casos de uso em tempo real
O CEO da Cloudflare, Matthew Prince, descreveu a plataforma como desenvolvida especificamente para aplicações onde a inferência de IA precisa ser instantânea. Durante o anúncio, ele destacou vários casos de uso: moderação de conteúdo em tempo real, tradução no navegador, assistentes de voz, respostas inteligentes de dispositivos IoT e recomendações de conteúdo personalizadas.
"A diferença entre 200 milissegundos e 8 milissegundos é a diferença entre um recurso de IA que parece um artifício e outro que parece nativo", disse Prince. "Estamos disponibilizando inferências abaixo de 10 ms para qualquer desenvolvedor com uma conta Cloudflare."
Experiência do desenvolvedor
Workers AI Edge se integra diretamente ao Cloudflare Workers, a plataforma de computação sem servidor da empresa. Os desenvolvedores podem chamar modelos de IA a partir de seus scripts Worker usando uma API simples, com a plataforma encaminhando automaticamente solicitações de inferência para o ponto de presença mais próximo que tenha o modelo solicitado carregado.
O modelo de preços segue a abordagem típica baseada no consumo da Cloudflare. A inferência é cobrada por solicitação com preços que variam de acordo com o tamanho do modelo, começando em US$ 0,01 por 1.000 solicitações para modelos de classificação pequenos e aumentando para modelos de linguagem maiores. A Cloudflare está oferecendo um nível gratuito que inclui 10.000 solicitações de inferência por dia, uma medida claramente projetada para atrair experimentação e impulsionar a adoção.
O fluxo de trabalho de desenvolvimento oferece suporte a chamadas de API REST e vinculações nativas para scripts Workers escritos em JavaScript, TypeScript, Python e Rust.
Suporte a modelo personalizado
Além da biblioteca de modelos com curadoria, a Cloudflare anunciou que os desenvolvedores poderão implantar seus próprios modelos ajustados na plataforma de borda. Os formatos iniciais suportados incluem ONNX e um formato proprietário otimizado que o conjunto de ferramentas da Cloudflare pode converter de estruturas populares, incluindo PyTorch e TensorFlow.
O tamanho do modelo é limitado ao que pode ser executado com eficiência em hardware de ponta. A Cloudflare recomenda modelos abaixo de 3 bilhões de parâmetros para implantação completa na borda, embora a empresa diga que está trabalhando ativamente para aumentar esse limite à medida que lança aceleradores de borda mais capazes.
Posicionamento Competitivo
O lançamento posiciona a Cloudflare não apenas contra os principais provedores de nuvem, mas também contra plataformas emergentes de IA de ponta, como o AI Accelerator da Fastly e o EdgeML da Akamai. A vantagem da Cloudflare reside na escala de sua rede (com pontos de presença em mais de 120 países) e em seu ecossistema de desenvolvedores existente.
AWS, Google Cloud e Azure oferecem serviços de inferência de IA, mas sua presença na borda é substancialmente menor. Os recursos de computação de ponta da AWS, por exemplo, são limitados a várias dezenas de locais do CloudFront com capacidade de computação, em comparação com os mais de 300 locais do Cloudflare.
Resposta dos primeiros usuários
Várias empresas participaram da versão beta privada, incluindo uma empresa europeia de fintech que reduziu a latência de detecção de fraudes de 150 milissegundos para 7 milissegundos, e uma empresa de jogos que implantou moderação de bate-papo em tempo real em 40 países.
Para desenvolvedores que criam aplicativos baseados em IA que atendem públicos globais, o Workers AI Edge representa uma mudança significativa no que é arquitetonicamente possível. A combinação de distribuição global, baixa latência e uma experiência familiar do desenvolvedor pode tornar a inferência de IA de ponta uma parte padrão da pilha moderna de aplicativos da Web.


