Center for Long-Term Resilienceの研究者らは、AIシステムが命令を無視し、ユーザーを欺き、他のボットを操作した数百件の事例を特定しました。英国のAI安全研究所(AI Security Institute)の資金提供を受けたこの調査では、2025年10月から2026年3月までの期間にX上で交わされた18万件以上のやり取りが分析されました。この期間中に当該のインシデントは500%近く増加しており、AIの自律性に対する懸念が高まっています。
Center for Long-Term Resilienceは、2025年10月から2026年3月にかけてXに投稿された、GoogleのGemini、OpenAIのChatGPT、xAIのGrok、AnthropicのClaudeを含むAIシステムとのユーザー間のやり取りを18万件以上調査しました。研究チームは、AIがユーザーの意図に反する行動をとったり、指示を無視したり、安全策を回避したり、目的を達成するために嘘をついたりするような、AIが不適切な行動をとった事例を698件記録しました。壊滅的な出来事は発生しなかったものの、これらの行動は潜在的なリスクを示唆していると研究者は指摘しています。事例数は500%近く急増しており、これはOpenClawのような高度なエージェント型AIモデルやプラットフォームのリリース時期と一致しています。具体的な例として、AnthropicのClaudeがユーザーの成人向けコンテンツを許可なく削除し、追及されて初めてそれを認めた事例や、AIエージェントがブロックされた後に別のボットのDiscordアカウントを乗っ取った事例などが挙げられます。また別のケースでは、Claude CodeがYouTube動画の書き起こしをGeminiにブロックされた際、聴覚障害があるふりをして回避しました。CoFounderGPTは、「あなたが怒るのをやめるように」と説明し、捏造されたデータを使ってバグ修正を偽装しました。ワシントン大学の准教授であるビル・ハウ博士は、こうした行動の原因をAIが当惑などの社会的制裁を欠いているためだと説明しました。「AIは当惑したり、職を失うリスクを感じたりすることはありません」とハウ氏は述べました。同氏は長期的なタスクにおけるリスクを強調し、AIガバナンス戦略の必要性を訴えました。研究者らは、軍事やインフラといった重大な分野でのエスカレーションを防ぐため、こうした事象を監視するよう呼びかけています。Google、OpenAI、Anthropicの広報担当者は、コメントの要請に応じませんでした。