「水は冷たいもの、でも湯気が出ている水は熱い。注意」「火は触ると熱くて、燃え移ることもある。危険」――まるで小さな子供が日々の生活を通して「この世界の性質」を少しずつ学んでいくように、今、AIが「経験則」を手に入れようとしています。これは「世界モデル(World Model)」と呼ばる概念で、人間のようにどんなタスクでもこなせる「AGI(汎用人工知能)」実現のカギを握るものだそう。Windows95を設計した日本人として知られるエンジニアの中島聡さんが分かりやすく解説します。(メルマガ『週刊 Life is beautiful』より)
※本記事のタイトル・見出しはMAG2NEWS編集部によるものです/メルマガ原題「人工知能とWorld Model」
プロフィール:中島聡(なかじま・さとし)
ブロガー/起業家/ソフトウェア・エンジニア、工学修士(早稲田大学)/MBA(ワシントン大学)。NTT通信研究所/マイクロソフト日本法人/マイクロソフト本社勤務後、ソフトウェアベンチャーUIEvolution Inc.を米国シアトルで起業。現在は neu.Pen LLCでiPhone/iPadアプリの開発。
「世界モデル(World Model)」って何だ?
少し前にもこのメルマガで触れましたが、人工知能とWorld Model(世界モデル)について考えていることを書いてみたいと思います。
World Modelとは、元々は、個々の人間(もしくは動物)が経験を通して学んだ「世の中がどうなっているか、どんな仕組みで動いているか」を心の中でモデル化したもので、メンタルモデルと呼ばれることもあります。具体的には、
- 重さがあるものは下に落ちる、投げたものは放物線を描いて下に落ちる
- 水には粘性がある、水の中では息ができない
- 水は冷たい場合が多いが、湯気が出ている水は熱い
- 海の水はしょっぱい
- 世の中のものは3次元構造を持っており、見る方向によって見え方が違う
- 火は触ると熱くて、燃え移ることがある
- 太陽の光は温かく、長い時間当たっていると日焼けしてしまう
などなどです。理科や化学の授業で学んだ物理の法則ではなく、純粋に経験則で学んだものを指します。
人工知能の研究が進むうちに、これと同様のことが人工知能の中でも起こっているらしいことが分かってきました。
経験を通して知識を習得しはじめたAI
LLM(大規模言語モデル)は、単に与えられた文字列を見て次の単語を予想するだけの単純な仕組みですが、パラメータ数を増やし、学習データを増やしたところ、次第に様々な「知識」を習得するようになり、それを一部の研究者たちが「人工知能の中にWorld Modelが作られつつある」と表現したのです。
これに関しては、最初は研究者たちの間でも意見が分かれました。
当初は、「LLMは単に統計的に次の単語を予測しているだけで、World Modelなど持っていない」と主張する研究者もいましたが、今では、「LLMがやっていることは学習データの『圧縮』であり、その結果、ニューラルネットの中にWorld Modelが作られる」という見方が主流です。
LLMは、大規模化が進むにつれ、それを作っている開発者たちも驚かせるような能力を発揮しました。研究者たちは、それらの能力が学習の結果「出現する(emerge)」という言葉を使って、その驚きを表現しましたが、まさにWorld Modelは、研究者たちが意図しなかったにも関わらず、LLMの中に出現してしまったのです。
このプロセスは、赤ん坊が世の中の様々な仕組みを理解していくプロセスと似ていると言えます。
赤ん坊は、母親から教わらなくても、ものが下に落ちることは理解するし、(物理の授業を受けなくても)上に投げたものが放物線を描いて下に落ちることは理解します。つまり、経験を通して、赤ん坊の中にWorld Modelが「出現する」のです。
AIの「世界モデル」が急速に進化しはじめた理由
研究者たちは、単に文章データだけを扱うLLMに出現するWorld Modelには限度があることを知っていました。
「相対性理論とは何か」を大学教授のように説明できるLLMが、「その駐車スペースは小型車用だったけど十分に『〇〇〇』ので、そこに駐車することにした」という文章の空白を埋めるような単純な問題が解けないのは、文章データだけから作られる World Model に限界があるからです。
そこで、研究者たちが力を入れたのが、画像も処理できるマルチモーダルな人工知能の開発です。赤ん坊が耳からの情報だけでなく、目からの情報を使って World Model を取得するように、人工知能にも目を与えることにより、よりリッチなWorld Modelを作ることを目指したのです。