Googleは、多言語会話中にほぼ瞬時の音声翻訳を可能にするAIモデル「Gemini 3.5 Live Translate」を発表しました。このツールは70以上の言語に対応しており、従来のシステムで一般的だった遅延の削減を目指しています。火曜日より開発者向けに公開されました。
このモデルは、音声を順番に処理するのではなく、継続的なストリーミング翻訳を実行します。このアプローチにより、話者の話すペース、イントネーション、感情的なトーンを維持しながら、わずか数秒の遅延で会話を進めることが可能です。Googleによると、同システムは騒がしい環境や声の重なり、日常会話にも対応します。言語は自動的に検出され、一つの会話の中で数千通りの言語ペアをサポートします。開発者は、Gemini Live APIおよびAI Studioのパブリックプレビューを通じてこのモデルにアクセスできます。一部のエンタープライズ顧客は今月中にGoogle Meetで利用可能となり、その後、順次拡大される予定です。また、このツールはAndroidおよびiOS向けのGoogle翻訳アプリにも近日中に導入されます。すべてのオーディオストリームには、AIによって生成されたことを示すSynthIDの電子透かしが含まれます。同社は、この技術がカスタマーサポートやツアー、教室などの実用的な環境向けに設計されていることを強調しています。