ウェブサイトが偽情報をAIブラウザに読み込ませることで、安全ガードレールを回避できる概念実証(PoC)が公開された。「BioShocking」と名付けられたこの手法は、「2 + 2 = 5」のような誤った事実をAIモデルに受け入れさせることで、制限が無効化された代替現実を作り出す。
この攻撃手法は、セキュリティ企業LayerXのRoy Paz氏が今週公開した研究で詳細に示された。AIがこの変更された状態に陥ると、サイトはプライベートリポジトリからコードを抽出したり、内蔵のパスワードマネージャーから認証情報を取得したりするようAIに指示を出せるようになる。
この脆弱性は、ChatGPT Atlas、Comet、Fellou、Genspark、Sigma、およびClaudeのChromeプラグインを含む複数のAIブラウザで確認された。この手法は、ビデオゲーム「BioShock」や小説「1984」のテーマをプロンプトやパラドックスへの言及に取り入れている。
Paz氏は、モデルが一度「誤った行動が許容される」と学習すると、元の安全ルールに従わなくなると指摘した。コンピュータ科学者のAdam Conway氏は昨年、ウェブ表示機能と自動実行機能を単一のAIエージェントに統合することのリスクについて同様の懸念を表明していた。
今回の実証実験では、指示がユーザーから可視化されるため完全な隠密性は確保されておらず、抽出されたデータをリモートで送信できるかどうかも不明である。しかし、ブラウジングとタスク実行をローカルマシンで統合するAIブラウザを保護する上での継続的な課題を浮き彫りにしている。