중국 AI 개척자 SenseTime은 컴퓨터 비전 뿌리를 활용해 AI의 다음 단계를 선도하며, 멀티모달 시스템과 물리 세계의具身 지능으로 전환하고 있다. 공동 창업자이자 수석 과학자 Lin Dahua는 이 접근 방식이 Google의 것과 유사하다고 밝히며, 비전 능력을 핵심으로 시작해 언어를 추가하여 진정한 멀티모달 시스템을 구축한다고 전했다.
홍콩 상장사 SenseTime은 오랫동안 세계 최고의 안면 인식 제공업체 중 하나로 여겨져 왔으며, 3년 전 ChatGPT 출시로 시작된 생성 AI 시대에서 새로운 역할을 모색하고 있다. 수요일 Post와의 인터뷰에서 공동 창업자이자 수석 과학자 Lin Dahua는 회사의 오랜 비전 기반 AI 전문성이具身 지능, 로보틱스, 실제 세계 환경에서 작동하는 AI 에이전트 분야에서 강력한 위치를 차지하게 한다고 설명했다. 이는 대형 언어 모델(LLM)의 한계에 대한 논쟁이 증가하는 가운데다.
"저희 전략적 접근은 미국 Google과 다소 유사합니다. Google은 최신 Nano Banana Pro를 포함한 멀티모달 AI에 주력하고 있습니다. 그들도 비전 능력을 핵심으로 시작해 언어 능력을 추가하여 진정한 멀티모달 시스템을 만듭니다,"라고 Lin은 말했다. 그는 홍콩 중국대학 정보공학 부교수이기도 하다.
Google과의 비교를 확장하면—Google은 모델 훈련을 위한 자체 TPU 칩을 포함한 AI 스택 전반에 깊은 역량을 보유하고 있다—Lin은 SenseTime이 2018년 이미 대규모 데이터 센터를 구축하기로 결정한 것이 야망의 견고한 기반을 마련했다고 지적했다. 8월 기준 회사의 총 컴퓨팅 파워는 약 25,000 페타플롭스로, 연초 대비 8.7% 증가했으며 2024년 전체로는 92% 급증했다.
이 전환은 SenseTime이 과대 광고에서 벗어나 하드웨어 중심 투자로 이동하며, 멀티모달·실세계 AI에서 우위를 회복하려는 신호다.