中島聡がガチでテスト、「今一番賢いローカルAI」のすごい実力。Phi-4やGemma3を知らない人、そろそろヤバいかもです

2025.03.18

Phi-4, パラメータ数：14b, 必要なメモリ：9.1GB

Microsoftが、Copilot+ PCなどで走らせることを前提に開発している小規模言語モデル（SLM）です。パラメータ数が少ない割にとても優秀で、スピードも早く、日本語能力も高く、Gemma3が発表されるまで一番のおすすめでした。

「地球と火星の距離」の問題に対する回答も「火星が月のすぐそばに見える場合、この状況は通常、地球と火星が比較的近い位置にあることを示しています。これは『最接近』やそれに近い時期であり、二つの惑星間の距離が最小限になっている可能性が高いです。」と正しい回答を出してくれました。

Gemma3, パラメータ数：27b, 必要なメモリ：17GB

Googleが、最近発表したばかりの最新の小規模言語モデルです。サービスとして提供しているGeminiと同様のアーキテクチャを持ち、一世代前のGemini 1.5 Proと同等の性能だとGoogleは主張しています。

Gemma3の評価はスタートしたばかりですが、とても優秀だし、スピードにも満足しており、Phi-4とどちらを選ぶかと言われたら悩んでしまうところです。

「地球と火星の距離」の問題に対する回答は「月と火星が空で接近して見えるのは、地球から見て太陽、地球、火星がほぼ一直線に並ぶ『会合』と呼ばれる現象が起こっている時です。この時、火星は地球に最も近づき、明るく見えやすくなります。」と正確なものが短時間で得られました。

現時点の結論「MicrosoftのPhi-4とGoogleのGemma3がオススメ」

つまり、現時点では、MicrosoftのPhi-4とGoogleのGemma3がオススメです。色々と質問していると、9.1GB、17GBというメモリの中に、莫大な知識が詰まっていることに本当に感心してしまいます。

ちなみに、「地球と火星の距離」の問題は、Claude 3.7 sonnet、GPT-4o、Grok 3にも答えられない難しい問題です。OpenAIの場合、o3、GPT-4.5になってようやく答えられるようになりました。そんな難しい問題に、小規模なモデルがちゃんと答えられている点が高く評価できるのです。

【追記】私がClaude 3.7 sonnetで実験していた「300匹の小さな魚が群れをなして泳ぐ姿のシミュレーションをp5jsを使って作って。Windowを水槽に見立てて、壁にぶつからないようにして」というプロンプトを試してみたところ、Gemma3が生成したコードは不十分でまともに動きませんでしたが、Phi-4はかなり良いコードを生成し、一発で動きました。

Claudeが作ったものと比べると若干見劣りはしますが、小規模なモデルとしてはとても優秀です。（次ページに続く）

「ローカルAI」の普及が、ビジネスの現場に大変革をもたらす

ページ: 1 2 3

いま読まれてます