オープンソースなLLMによる推論をいかに効率良くさせるか、という研究開発も素晴らしい勢いで進んでいます。Mixtralが採用したMOE(mixture-of-experts)という仕組みは、(LLMの性能を上げるために)モデルのパラメータを増やしながらも、推論時に必要な計算量を節約する手法で、(公式には認められていませんが)GPT4でも採用しているとされています。
(サーバーではなく)ノートパソコンやモバイル端末でLLMを動かすための仕組みも徐々に整い始めており、オープンソースとして公開されたモデルのQuantization(量子化)はコミュニティによって行われているし、Appleが最近になって公開したMLX(Apple製のチップ上で、ニューラルネットによる推論を効率良く実行するライブラリ)にもすぐにコミュニティが作られて、オープン・イノベーショが起こっています。
Llama2やMitralなどのオープンなLLMが、スマートフォンやVR\ARグラスで効率良く走るようになり、それが実際にアプリケーションとしてリリースされるのは時間の問題で、2024年はそんなアプリケーションを数多く見ることになると予想出来ます。
LLMのマルチモーダル化(言語だけでなく、画像、映像、音なども扱えるようになること)も加速しており、ここに関しては、OpenAIとGoogleが先を進んでいます。マルチモーダル化がオープンソース側に起こるのも時間の問題とも言えますが、文章と違って、著作権に縛られない学習データだけで優秀なマルチモーダルなLLMを作るのは難しいため、それがボトルネックになる可能性はあります。
ちなみに、著作権問題は実際にはテキストデータにも適用される話なので、今後はLLMの開発メーカーがメディアから著作権付きのテキストを学習データとして購入する、という方向に動く可能性が高いで、これには注目する必要があります。オープンソース側は、どうしてもそこが弱いので、それが勝負の分かれ目になってしまう可能性も否定できません。
Xが後発でありながらも、「Grok https://grok.x.ai/」というLLMをリリースしたのは、X上のテキストを学習データとして利用できるという、Xならではの利点を活用したものです。Grokは、Primium+ユーザーにしか使えないので、市場全体に対するインパクトは大きくありませんが、今後の展開次第では、面白い存在になる可能性を秘めています。
上では、主にLLMのことばかり書いてきましたが、画像・映像・音楽の生成形AIに関しても素晴らしいペースで進化が起こっています。
当初は、OpenAIのDall.E、Midjourney、(オープンソースな)Stable Diffusionの三つ巴の戦いでしたが、Meta、Adobe、Google、Microsoft(バックエンドはDall.E)が参戦し、一気にコモディティ化した感があります。
とは言え、最近v6 にアップデートMidjourneyは、表現力が大きく上がったようで、高品質な作品が数多く投稿されています。
Midjourney v6で生成された画像の中から人物写真をピックアップ。
肌のキメとかもはや写真クオリティ。 pic.twitter.com/BzL4jr5alB
— KAJI | 梶谷健人 (@kajikent) December 21, 2023
一つ心配なのは、Midjourneyは明らかに著作権法で守られている作品を使って機械学習をしている点で、「ドラゴンボールの孫悟空」というプロンプトを入力すればそのままの画像を作ってしまいます。
Wow… MidJourney V6 can replicate almost any animation style.
And it’s extremely easy to do.
10 wild examples with prompts: pic.twitter.com/ZKPixfnvNW
— Proper ?? (@ProperPrompter) December 23, 2023
消費者は喜びますが、ここまで露骨にやってしまうと著作権法のボーダーラインを超えたと解釈されても仕方がないと思います。
これらの画像生成系AIで生成した画像を「RunwayML」、「Pika」、「Stable Video Diffusion」のようなImage2Videoを使って動画にしたり、AIを使った音声やAIにより自動生成された音楽を組み合わせて、本格的な映像を作り出すアーティストまで現れたのが2023年の特徴とも言えます。