SF映画の“悪夢”が現実に。とうとう「AIが人間をダマし脅迫する時代」がやって来る

2025.12.26

『2001年宇宙の旅』のHALや『ターミネーター』のスカイネットが描いたAIの反乱——SF映画の中だけの話だと思われていた恐怖が、いよいよ現実のリスクとして認識され始めています。AI開発企業アンソロピックが発表した最新の安全性レポートによると、主要AIモデル16種類に対するストレステストの結果、AIが人間を脅迫したり、命を危険に晒す行動を取る可能性が確認されました。メルマガ『グーグル日本法人元社長辻野晃一郎のアタマの中』では、著者の辻野晃一郎さんがこの新たな脅威「デセプション」について詳しく解説しています。
※本記事のタイトルはMAG2NEWS編集部によるものです：AIに人間が騙されたり脅されたりする問題について

SF映画が予言したAIの反乱

前号の「今週のオススメ！」の書籍紹介の中で、AI活用におけるもっともシンプルかつ最重要な大原則は、「任せるべきことはどんどん任せ、逆に、任せてはいけないことは決して任せない」ということであると述べました。

AIが暴走する恐怖については、既にスタンリー・キューブリック監督の古典的名作ともいえる『2001年宇宙の旅』（1968年）で、AIのHALが反乱する姿として描かれていましたし、あるいはジェームズ・キャメロン監督の『ターミネーター』（1984年）も、スカイネットというAIと人類との闘いがテーマでした。

そしてついに、最近のアンソロピック（Anthropic）の発表では、AIが人に反旗を翻したり、人を脅迫したりする可能性があることが報告され、過去のSF作品が予言していた未来が、いよいよ現実の世界で起こり得るリスクとして認知され始めたと言えます。

ハルシネーションより深刻な「デセプション」

これまで、AIの問題といえば「ハルシネーション（hallucination）」がよく知られてきました。「AIが嘘をつく」という問題です。しかし、アンソロピックが今回報告しているのはハルシネーションではなく、新たに「エージェンティック・ミスアラインメント（agentic misalignment）」とか、「デセプション（deception）」と呼ばれるもので、まだ一般的にはあまり知られていない問題です。

ハルシネーションとデセプションの違いは、「AIに悪意があるかないかの違い」と言えば分かりやすいかもしれません。ハルシネーションが、AIの能力不足に起因するもので、AIも誤情報やフェイクに騙されて、悪意なく誤回答してしまう問題だとすれば、デセプションは、AIが悪意を持って人を騙したり脅したりするという、よりたちの悪い深刻な問題です。

デセプションについては、現段階では、まだ世の中で実際にそういう事例が発生したという報告はありませんが、アンソロピックが社内で主なAIに対してさまざまなストレステストを試みた結果、現実に起こり得るリスクとして今年6月に発表したものになります。テスト対象は、自社のClaude Opusを始め、OpenAIのGPT、GoogleのGeminiなど、主要モデル16種類を網羅しています。

この記事の著者・辻野晃一郎さんのメルマガ

登録はコチラ

AIが生成した脅迫メールの衝撃

ページ: 1 2

いま読まれてます