DeepSeek prueba atención dispersa para reducir costos de IA
La empresa china de IA DeepSeek está experimentando con mecanismos de atención dispersa para reducir significativamente los costos de procesamiento de modelos de lenguaje grandes. El enfoque concentra los cálculos en partes clave de los datos de entrada, lo que podría reducir a la mitad las demandas de recursos. Este desarrollo podría hacer que la IA avanzada sea más accesible en medio de crecientes preocupaciones energéticas.
DeepSeek, una destacada startup china de IA, anunció en septiembre de 2025 sus pruebas en curso de técnicas de atención dispersa destinadas a reducir los costos computacionales de los modelos basados en transformadores. Los mecanismos de atención tradicionales en sistemas de IA como los modelos de lenguaje grandes (LLM) requieren procesar cada token contra todos los demás, lo que lleva a un crecimiento cuadrático en las necesidades de cómputo a medida que los modelos escalan. La atención dispersa, en contraste, atiende selectivamente a un subconjunto de tokens relevantes, reduciendo esta carga.
La iniciativa se basa en investigaciones de trabajos anteriores, como los de Google y Meta, pero la implementación de DeepSeek se dirige a despliegues prácticos en entornos con recursos limitados. Según la publicación en el blog de la empresa, los benchmarks iniciales en su modelo DeepSeek-V2 mostraron una reducción del 40-60% en los costos de inferencia sin caídas notables en el rendimiento. "Al optimizar los patrones de atención, no solo estamos reduciendo costos, sino que estamos permitiendo una adopción más amplia de la IA", declaró el jefe científico de DeepSeek, Liang Wang, en el anuncio.
En cuanto al cronograma, DeepSeek comenzó las pruebas internas a principios de 2025, tras el lanzamiento de su modelo V2 de código abierto en mayo. El módulo de atención dispersa se integra con arquitecturas existentes, permitiendo la adaptación a modelos de hasta 236 mil millones de parámetros. En el contexto, esto surge en medio del escrutinio global sobre la huella ambiental de la IA; entrenar un solo modelo grande puede consumir energía equivalente a la de cientos de hogares anualmente.
Los expertos señalan posibles implicaciones para la computación en el borde y la IA móvil. Sin embargo, persisten desafíos, incluyendo asegurar que la dispersidad no comprometa la comprensión de contextos largos. DeepSeek planea lanzar la técnica como de código abierto para fin de año, invitando a retroalimentación de la comunidad.
No aparecen contradicciones mayores en la cobertura, ya que los detalles coinciden en las vistas previas técnicas.