DeepSeek testa atenção esparsa para reduzir custos de IA
A empresa chinesa de IA DeepSeek está experimentando mecanismos de atenção esparsa para reduzir significativamente os custos de processamento de modelos de linguagem grandes. A abordagem concentra os cálculos em partes chave dos dados de entrada, potencialmente reduzindo pela metade as demandas de recursos. Esse desenvolvimento pode tornar a IA avançada mais acessível em meio a preocupações crescentes com energia.
DeepSeek, uma proeminente startup chinesa de IA, anunciou em setembro de 2025 seus testes em andamento de técnicas de atenção esparsa destinadas a cortar os custos computacionais de modelos baseados em transformadores. Mecanismos de atenção tradicionais em sistemas de IA como modelos de linguagem grandes (LLMs) exigem processar cada token contra todos os outros, levando a um crescimento quadrático nas necessidades de computação à medida que os modelos escalam. A atenção esparsa, por outro lado, atende seletivamente a um subconjunto de tokens relevantes, reduzindo esse fardo.
A iniciativa se baseia em pesquisas de trabalhos anteriores, como os da Google e Meta, mas a implementação da DeepSeek visa implantações práticas em ambientes com recursos limitados. De acordo com a postagem no blog da empresa, benchmarks iniciais no modelo DeepSeek-V2 mostraram uma redução de 40-60% nos custos de inferência sem quedas notáveis no desempenho. "Ao otimizar padrões de atenção, não estamos apenas cortando custos—estamos possibilitando uma adoção mais ampla de IA," afirmou o cientista-chefe da DeepSeek, Liang Wang, no anúncio.
Em termos de cronograma, a DeepSeek iniciou testes internos no início de 2025, após o lançamento de seu modelo V2 de código aberto em maio. O módulo de atenção esparsa se integra a arquiteturas existentes, permitindo retrofit em modelos de até 236 bilhões de parâmetros. No contexto, isso surge em meio ao escrutínio global sobre a pegada ambiental da IA; treinar um único modelo grande pode consumir energia equivalente a centenas de residências anualmente.
Especialistas notam implicações potenciais para computação de borda e IA móvel. No entanto, desafios permanecem, incluindo garantir que a esparsidade não comprometa a compreensão de contextos longos. A DeepSeek planeja lançar a técnica como de código aberto até o final do ano, convidando feedback da comunidade.
Não há contradições principais na reportagem, pois os detalhes se alinham em previews técnicos.