まさに「日進月歩」と呼ぶにふさわしい進化を遂げる人工知能。そんな人工知能について、メルマガ『週刊 Life is beautiful』にこれまでもたびたび詳しい解説を掲載してきた世界的エンジニアの中島聡さんが、その最低限の用語・コンセプトを説明する新連載「人工知能入門」を、5月14日配信号よりスタートさせました。今回は「Text Embedding」を徹底解説した連載第1回の全文を掲載。中島さん曰く「魔法のような技術」を、初心者にも分かりやすくレクチャーしています。
※本記事のタイトルはMAG2NEWS編集部によるものです/原題:人工知能入門:Text Embedding、「似ている言葉」の話
プロフィール:中島聡(なかじま・さとし)
ブロガー/起業家/ソフトウェア・エンジニア、工学修士(早稲田大学)/MBA(ワシントン大学)。NTT通信研究所/マイクロソフト日本法人/マイクロソフト本社勤務後、ソフトウェアベンチャーUIEvolution Inc.を米国シアトルで起業。現在は neu.Pen LLCでiPhone/iPadアプリの開発。
人工知能入門:Text Embedding、「似ている言葉」の話
先週、思いついたのですが、ここで「人工知能入門」を連載することにしました。このメルマガには、最近人工知能に関する記事を書くことが増えましたが、時々、その場では説明しきれない用語やコンセプトが出てきてしまうので、一度、一通り、最低限の用語・コンセプトを説明しておこうと考えたのです。
今日のテーマは、ChatGPTで使われているLLM(大規模言語モデル)の基礎となる技術、Text Embeddingについて解説します。自然言語(人間の話す言葉)を扱う上で、「どの言葉がどの言葉に似ているか」を判断する際に使われる仕組みです。
私たちは、毎日のように「あの人は、芸能人の誰々さんに似ている」「このラーメンのスープって、中華三昧のスープに似ている」のように、何かと何かを比較して、「似ている」とか「似ていない」と評価しています。私たちの脳は、そんな判断を瞬時にする能力を持っていますが、実際に「どう似ているか」を説明するのは簡単ではありません。突き詰めれば、「目元が似ている」「雰囲気が似ている」、「出汁に鰹節を使っている」などの言葉が出てくることもありますが、実際のところは、とても曖昧で説明が付きにくい比較を私たちの脳はしています。
一方のコンピュータは、そんな曖昧な比較が不得意です。なんでも数値化し、数字を使ってしか評価が出来ません。
分かりやすい例が「色」です。私たちは、色を見ただけで、二つの色が似ているかどうかを瞬時に判断できます。しかし、コンピュータにはそんな器用なことが出来ません。数値化した上で、比較する必要があるのです。
色の数値化には二つの方法がありますが(「赤・緑・青」の色の三原色に分解する方法と、「色相・彩度・明度」の三つの色属性に分ける方法)、ここでは、分かりやすい「赤・緑・青」を使って説明します。
それぞれの色の強さを、0.00から1.00の間の数字で表すと、虹の7色は以下のように表現できます。
- 赤:(1.00, 0.00, 0.00)
- 橙:(1.00, 0.64, 0.00)
- 黄:(1.00, 1.00, 0.00)
- 緑:(0.00, 0.50, 0.00)
- 青:(0.00, 1.00, 1.00)
- 藍:(0.00, 0.00, 1.00)
- 紫:(0.50, 0.00, 0.50)
この例のように、複数の数字から作られたデータのことを「ベクトル」もしくは「ベクター」と呼びます(同義語で、ベクトルはドイツ語のVektor、ベクターは英語のVectorをローマ字にしたものです)。数字の数を「次数」と呼び、このケースでは、「色は『3次ベクトル』で表現可能である」のように言います。
この記事の著者・中島聡さんのメルマガ
コンピュータが二つの色の「近さ」を調べる際には、(高校の物理や数学の授業で教わった)「ベクトルの内積」を使います。レールの上に乗ったトロッコを引っ張る際に、レールに沿って引っ張った方が引っ張りやすいのは、レールの方向(ベクトル)と引っ張る方向(ベクトル)が一致しているからです。内積は、二つのベクトルがどのくらい同じ方向を向いているかを調べるのに適した演算(=計算方法)です。
人工知能や自然言語処理の研究をしていていた研究者たちは、「言葉」をコンピュータの中で効率よく扱うには、上の色と同じように、なんらかのベクトルに変換すれば良いことに随分前(1980年代)から気がついていました。言葉のベクトル化(Text Embedding、もしくは、単にEmbedding)の研究(特に人工知能への応用)が本格的に始まったのは、2010年代で、ChatGPTのベースである、GPT3.5/GPT4にもEmbeddingは使われており、その次元は、1,536もあります。
OpenAIのEmbedding APIを活用すると、任意の言葉のEmbeddigを求めることが出来ます。
- 紫陽花(あじさい): [0.008374308, -0.004348531, 0.015492181, 0.012114794, …以下略]
- 向日葵(ひまわり): [0.00897903, -0.028575271, -0.011562964, 0.026796354, …]
- 鰯(いわし): [0.014147074, -0.018954331, -0.040955342, 0.015233389, …]
- 鯵(あじ): [0.02712337, 0.009231063, 0.025325274, 0.009623604, …]
なんだか分からない数字が出てきますが、それそれの単語の内積を求めると面白い結果が得られます(”・”は内積を表します)。
- 紫陽花・向日葵 = 0.416
- 紫陽花・鰯 = 0.218
- 紫陽花・鯵 = 0.201
- 向日葵・鰯 = 0.171
- 向日葵・鯵 = 0.263
- 鰯・鯵 = 0.653
紫陽花と向日葵、鰯と鯵のペアがそれぞれ「近い関係」であることが、計算だけで分かるのです(内積の結果が1に近いほど、「近い関係にある」と言えます)。
試しに「花」「魚」という単語との関係を調べてみると以下のようになります。
- 花・紫陽花 = 0.605
- 花・向日葵 = 0.422
- 花・鰯 = 0.338
- 花・鯵 = 0.380
- 魚・紫陽花 = 0.282
- 魚・向日葵 = 0.249
- 魚・鰯 = 0.414
- 魚・鯵 = 0.507
片方が英語でも大丈夫です。
- Flower・紫陽花 = 0.453
- Flower・向日葵 = 0.406
- Flower・鰯 = 0.224
- Flower・鯵 = 0.243
単語だけでなく、文章のEmbeddingも計算可能で、同様の比較が可能です。
- “I love you”・あなたを愛してます = 0.473
- “I love you”・君が好き = 0.428
- “I love you”・君が大好き = 0.439
- “I live you”・”I like you” = 0.576
- “I love you”・お前は嫌いだ = 0.251
- “I love you”・あっち行け = 0.138
そのため、Embeddingを使うと、文章の「意味検索」が出来るようになります。通常の文字検索だと、”I love you” で検索すると、文字通り “I love you”の単語が文章中に並んでいないと見つけてくれませんが、Embeddingを使った検索をすると、似たような意味の、「あなたを愛してます」や「I like you」を見つけてくれるのです。
なんだか魔法のような技術ですが、これがText Embeddingであり、この技術が、ChatGPTなどの「自然言語を理解する人工知能」の基礎になっているのです。
OpenAIのEmbedding APIが、どうやって計算しているか知りたい人もいるでしょうが、「十分な数のパラメータを持つニューラルネットに、たくさんの入力データと期待する答えを与えて、徐々にパラメータを調節した結果作った、Embedding Modelというニューラルネットを使って計算している」というのが答えです。
ニューラルネット一般に言える話ですが、1,536もある次元のそれぞれの数字が何を意味するのか、設計者も知りません。どこにどんな数字を置けば良いのかは、ニューラルネットワーク自身が、学習過程で自分で見つけ出したのです。
(中島聡さんのメルマガ『週刊 Life is beautiful』5/14号では、メインコラム「オープンソースLLMが最終的に勝つ理由」「検索ビジネスの終わりの始まり」「カンファレンス・バケーション」のほか、読者Q&Aコーナーも掲載中。初月無料のお試し購読で今すぐ受け取ることができます)
この記事の著者・中島聡さんのメルマガ
※ワンクリックで簡単にお試し登録できます↑
¥880/月(税込)初月無料 毎週 火曜日(年末年始を除く)
月の途中でも全ての号が届きます
中島聡さんの最近の記事
- 中島聡氏も興味津々。ChatGPTに研究論文を添削・執筆させた結果、世界の「暗部」が炙り出されたかもしれない話
- 中島聡氏が注目、日本が潰した天才・金子勇氏による「人工知能の超絶技法」とは?Winnyだけではない失われた未来の叡智
- 中島聡氏が暴く「AIバブル」の正体。株価急落NVIDIAの強さと死角とは?いまだ序盤戦のAIブーム 投資の注目点を解説
- 中島聡氏が驚嘆、音楽生成AI「Suno」の「とんでもない価値」とは?進む才能の民主化、必要なのは“歌い手”になる覚悟だ
- AIを飛躍的に賢くする「世界モデル」とは何か?天才エンジニアが語るAGI(汎用人工知能)革命の“恐るべきワクワク感”
- 佐藤健のDNAを受け継ぐ「理想のAIイケメン」を生成したら妻大満足の出来映え!男性モデル育成は「醤油顔」がポイントだ
- Windows95の父・中島聡氏がテスラ株を買い増し。決算で株価急落も「なぜ私が強気なのか解説します」長期保有一択の根拠は?
- キキと孫悟空と新海誠。生成AIと著作権の「超えちゃいけないライン」をAnimagine XLのアニメ画像で検証する
- 最高のAI美女を生成したぞ! 夏目雅子のDNAを受け継ぐ我が理想の美人モデルを!
- パワーポイントの二の舞いに?AIツールの「誤った使用法」が逆に生産性を落とす
初月無料購読ですぐ読める! 5月配信済みバックナンバー
- 週刊Life is beautiful 2024年5月14日号: 人工知能入門:Text Embedding、「似ている言葉」の話、オープンソースLLMが最終的に勝つ理由、検索ビジネスの終わりの始まり、カンファレンス・バケーション(5/14)
- 週刊Life is beautiful 2024年5月7日号: 人工知能が人間の言葉に変化をもたらし始めた話、App Economy Insightsを活用したIncome Statementの見方(5/7)
<こちらも必読! 月単位で購入できるバックナンバー>
- 週刊Life is beautiful 2024年4月30日号: 金子勇の死と共に失われた人工知能の超絶技法、MicrosoftがGPUを大量に購入する理由、MetaがHorizon OSをオープン化する理由(4/30)
- 週刊Life is beautiful 2024年4月23日号: 河野太郎氏との対談予告、Enhanced Sports(4/23)
- 週刊Life is beautiful 2024年4月16日号: AIブームはバブルなのか?AIブームはまだまだ序盤戦(4/16)
- 週刊Life is beautiful 2024年4月9日号:私がサプリメントを拒否する理由、Tesla FSD v12(4/9)
- 週刊Life is beautiful 2024年4月2日号: 生成系AIのポテンシャル、Redditの上場、大谷翔平のスポーツ賭博スキャンダル(4/2)
- 週刊Life is beautiful 2024年3月26日号: AI Chatは、Google検索を超えるか?、オンライン・ビデオ講座(3/26)
- 週刊Life is beautiful 2024年3月19日号: 日本だけが経済成長していない理由、鯨の歌を聞くデバイス(3/19)
- 週刊Life is beautiful 2024年3月12日号: Google Geminiの失敗が明らかにしたGoogleが抱える大きな問題(3/12)
- 週刊Life is beautiful 2024年3月5日号: ライドシェアの解禁、人工知能とWorld Model(3/5)
- 週刊Life is beautiful 2024年2月27日号: PFAS汚染問題、Singularity Society(2/27)
- 週刊Life is beautiful 2024年2月20日号:バーチャル・モデル、男性版(2/20)
- 週刊Life is beautiful 2024年2月13日号: ローカルマシンで画像生成をする方法(2/13)
- 週刊Life is beautiful 2024年2月6日号: Teslaの決算(2/6)
- 週刊Life is beautiful 2024年1月30日号: 生成型AIと著作権(1/30)
- 週刊Life is beautiful 2024年1月23日号: 新聞・雑誌メディアのビジネスモデル、AI生成バーチャルモデル(1/23)
- 週刊Life is beautiful 2024年1月16日号: 地震の震度、日本のバブルが残した世界有数のリゾート(1/16)
- 週刊Life is beautiful 2024年1月9日号:スマホを持ったサル(1/9)
- 週刊Life is beautiful 2024年1月2日号:人工知能の今とこれから(1/2)
- 週刊Life is beautiful 2023年12月26日号: 日本の政治を浄化する特効薬、Tesla Model Y(12/26)
- 週刊Life is beautiful 2023年12月19日号: ふたご座流星群、Civil Rights Movement and Woke(12/19)
- 週刊Life is beautiful 2023年12月12日号:Elon vs. Walt Disney、LLMの弱点(12/12)
- 週刊Life is beautiful 2023年12月5日号:市民X:謎の天才「サトシ・ナカモト」、Costcoのビジネスモデルとe-commerce3.0(12/5)
image by: Shutterstock.com