ChatGPT界隈の新潮流、「llama2」がオープン型LLMの中で最優秀である理由

2023.08.24

世界的な話題となった、Metaが提供するLLM（大規模言語モデル）「llama2」のオープンソース化。その実力はオープン型LLMの中でもずば抜けて優れたもののようです。今回のメルマガ『週刊 Life is beautiful』ではWindows95を設計した日本人として知られる中島聡さんが、llama2の優秀さを取り上げた記事を紹介。その上で、記事中に挙げられている「3つの秀でたポイント」を専門家目線で解説しています。

プロフィール：中島聡（なかじま・さとし）
ブロガー／起業家／ソフトウェア・エンジニア、工学修士（早稲田大学）／MBA（ワシントン大学）。NTT通信研究所／マイクロソフト日本法人／マイクロソフト本社勤務後、ソフトウェアベンチャーUIEvolution Inc.を米国シアトルで起業。現在は neu.Pen LLCでiPhone/iPadアプリの開発。

私の目に止まった記事：llama2は、どうしてオープン型のLLMの中で飛び抜けて優秀なのか？

● LLaMA-2 from the Ground Up

Metaがオープンソース化したllama2が、どうしてオープン型のLLMの中で飛び抜けて優秀なのかに関しての分かりやすい解説です。

LLM（大規模言語モデル）の中では、OpenAIのChatGPTが最も多くのユーザーに使われており、すでにデファクト・スタンダードになってしまったようなイメージがありますが、企業向けのアプリケーションにおいては、オープンであることがとても大切なので、その市場では、オープンなLLMが重要な役割を果たすと、（私も含めて）業界関係者は見ています。

なので、オープン型のLLMの中で、どれを選ぶべきなのか、そして、どんな点に注意・注目すべきなのかを理解する上でも、llama2についての理解を深めておくことは、とても重要です。

この記事は、llama2が優れている点として、

大量のデータを使って学習している
推論を素早く行うことを重視したアーキテクチャを採用している
アラインメントと呼ばれる「人間が期待した通りの返事をする」部分に十分な投資がされている

の三つに注目すべきと指摘しています。

1番目の教育データ量に関しては、Google DeepMindの研究者が、「Chinchilla paper」（「Training Compute-Optimal Large Language Models」）と呼ばれる論文で指摘した通り、教育データ量と（モデルの）パラメータ数のバランスが重要とされています。Metaは、その指摘に従い、パラメータ数（最大のもので70billion）に合わせた教育データで学習させた、バランスの良いモデルです。

2番目の推論のスピード（正確には必要な計算量）は、LLMの運営コストに直結するため、非常に重要です。具体的な内容はとても技術的なのでここでは省略しますが（元記事の”Root Mean Square Layer Normalization”と”SwiGLU activation function”に関する記述を参考にしてください）、莫大なユーザー向けのサービスを提供しているMetaならではの配慮と言えます。

この記事の著者・中島聡さんのメルマガ

初月無料で読む

ChatGPTに匹敵するチャット性能の実現に成功したMeta

ページ: 1 2

いま読まれてます