ChatGPT界隈の新潮流、「llama2」がオープン型LLMの中で最優秀である理由

Shanghai,china-july,19th,2023:,Llama,2,Logo,,Large,Language,Ai,Model
 

世界的な話題となった、Metaが提供するLLM(大規模言語モデル)「llama2」のオープンソース化。その実力はオープン型LLMの中でもずば抜けて優れたもののようです。今回のメルマガ『週刊 Life is beautiful』ではWindows95を設計した日本人として知られる中島聡さんが、llama2の優秀さを取り上げた記事を紹介。その上で、記事中に挙げられている「3つの秀でたポイント」を専門家目線で解説しています。

プロフィール中島聡なかじま・さとし
ブロガー/起業家/ソフトウェア・エンジニア、工学修士(早稲田大学)/MBA(ワシントン大学)。NTT通信研究所/マイクロソフト日本法人/マイクロソフト本社勤務後、ソフトウェアベンチャーUIEvolution Inc.を米国シアトルで起業。現在は neu.Pen LLCでiPhone/iPadアプリの開発。

私の目に止まった記事:llama2は、どうしてオープン型のLLMの中で飛び抜けて優秀なのか?

LLaMA-2 from the Ground Up

Metaがオープンソース化したllama2が、どうしてオープン型のLLMの中で飛び抜けて優秀なのかに関しての分かりやすい解説です。

LLM(大規模言語モデル)の中では、OpenAIのChatGPTが最も多くのユーザーに使われており、すでにデファクト・スタンダードになってしまったようなイメージがありますが、企業向けのアプリケーションにおいては、オープンであることがとても大切なので、その市場では、オープンなLLMが重要な役割を果たすと、(私も含めて)業界関係者は見ています。

なので、オープン型のLLMの中で、どれを選ぶべきなのか、そして、どんな点に注意・注目すべきなのかを理解する上でも、llama2についての理解を深めておくことは、とても重要です。

この記事は、llama2が優れている点として、

  1. 大量のデータを使って学習している
  2. 推論を素早く行うことを重視したアーキテクチャを採用している
  3. アラインメントと呼ばれる「人間が期待した通りの返事をする」部分に十分な投資がされている

の三つに注目すべきと指摘しています。

1番目の教育データ量に関しては、Google DeepMindの研究者が、「Chinchilla paper」(「Training Compute-Optimal Large Language Models」)と呼ばれる論文で指摘した通り、教育データ量と(モデルの)パラメータ数のバランスが重要とされています。Metaは、その指摘に従い、パラメータ数(最大のもので70billion)に合わせた教育データで学習させた、バランスの良いモデルです。

2番目の推論のスピード(正確には必要な計算量)は、LLMの運営コストに直結するため、非常に重要です。具体的な内容はとても技術的なのでここでは省略しますが(元記事の”Root Mean Square Layer Normalization”と”SwiGLU activation function”に関する記述を参考にしてください)、莫大なユーザー向けのサービスを提供しているMetaならではの配慮と言えます。

この記事の著者・中島聡さんのメルマガ

初月無料で読む

print
いま読まれてます

  • ChatGPT界隈の新潮流、「llama2」がオープン型LLMの中で最優秀である理由
    この記事が気に入ったら
    いいね!しよう
    MAG2 NEWSの最新情報をお届け