中国人工智能先驱商汤科技正利用其计算机视觉根基,引领AI向多模态系统和实体智能转型,以期在生成式AI时代重振旗鼓。公司联合创始人兼首席科学家林达华表示,这种策略类似于谷歌的做法,从视觉能力入手逐步扩展到语言等多模态系统。
商汤科技作为香港上市公司,曾是全球领先的面部识别提供商之一,但自ChatGPT三年前推出以来,其在生成式AI时代的角色正面临挑战。根据周三接受《南华早报》采访时,林达华表示,公司长期在视觉AI领域的专长使其在实体智能、机器人和真实世界环境中运作的AI代理方面处于领先位置。目前,业界对大型语言模型(LLM)的局限性讨论日益增多。
林达华说:“我们的战略方法与美国的谷歌有些相似,谷歌主要关注多模态AI,包括最新的Nano Banana Pro。他们也以视觉能力为核心,然后添加语言能力来创建真正的多模态系统。”林达华还是香港中文大学信息工程系副教授。
他将商汤与谷歌进行比较,后者在AI栈中拥有深厚能力,包括用于训练模型的TPU芯片。林达华指出,商汤早在2018年就决定建设大规模数据中心,为其雄心奠定了坚实基础。截至8月,公司总计算能力约为25,000 petaflops,今年以来增长8.7%,2024年全年激增92%。
这一转向表明,商汤正从过去的炒作转向更多硬件投资,以在多模态、现实世界AI中重获优势。