La pionera china en IA SenseTime aprovecha sus raíces en visión por computador para liderar la siguiente fase de la IA, desplazándose hacia sistemas multimodales e inteligencia encarnada en el mundo físico. El cofundador y director científico Lin Dahua afirmó que este enfoque es similar al de Google, comenzando con capacidades de visión como núcleo y añadiendo lenguaje para construir sistemas multimodales verdaderos.
SenseTime, una empresa cotizada en Hong Kong considerada durante mucho tiempo uno de los principales proveedores mundiales de reconocimiento facial, busca un nuevo rol en la era de la IA generativa que comenzó con el lanzamiento de ChatGPT hace tres años. En una entrevista con el Post el miércoles, el cofundador y director científico Lin Dahua explicó que la experiencia duradera de la compañía en IA basada en visión la posiciona fuertemente para liderar en inteligencia encarnada, robótica y agentes de IA que operan en entornos del mundo real, en medio de crecientes debates sobre los límites de los modelos de lenguaje grandes (LLM).
«Nuestro enfoque estratégico es algo similar al de Google en Estados Unidos, que se centra principalmente en IA multimodal, incluyendo el último Nano Banana Pro. Ellos también comienzan con capacidades de visión como núcleo y luego añaden habilidades lingüísticas para crear sistemas multimodales reales», dijo Lin, quien también es profesor asociado de ingeniería de la información en la Universidad China de Hong Kong.
Extendiendo la comparación a Google —que tiene profundas capacidades en toda la pila de IA, incluyendo sus propios chips TPU para entrenar modelos—, Lin señaló que la decisión de SenseTime de construir centros de datos a gran escala tan temprano como en 2018 sentó una base sólida para sus ambiciones. A agosto, la capacidad de cómputo total de la compañía alcanzaba unos 25.000 petaflops, un 8,7% más desde el inicio del año, tras dispararse un 92% durante todo 2024.
Este giro señala el paso de SenseTime de la hype a inversiones más enfocadas en hardware, con el objetivo de recuperar su ventaja en IA multimodal y del mundo real.