世界的エンジニア中島聡氏が連載「人工知能入門」を開始。第1回「コンピュータは似ている言葉をどう判断しているか」を全文掲載

by 中島聡『週刊 Life is beautiful』

2年前

まさに「日進月歩」と呼ぶにふさわしい進化を遂げる人工知能。そんな人工知能について、メルマガ『週刊 Life is beautiful』にこれまでもたびたび詳しい解説を掲載してきた世界的エンジニアの中島聡さんが、その最低限の用語・コンセプトを説明する新連載「人工知能入門」を、5月14日配信号よりスタートさせました。今回は「Text Embedding」を徹底解説した連載第1回の全文を掲載。中島さん曰く「魔法のような技術」を、初心者にも分かりやすくレクチャーしています。
※本記事のタイトルはMAG2NEWS編集部によるものです／原題：人工知能入門：Text Embedding、「似ている言葉」の話

プロフィール：中島聡（なかじま・さとし）
ブロガー／起業家／ソフトウェア・エンジニア、工学修士（早稲田大学）／MBA（ワシントン大学）。NTT通信研究所／マイクロソフト日本法人／マイクロソフト本社勤務後、ソフトウェアベンチャーUIEvolution Inc.を米国シアトルで起業。現在は neu.Pen LLCでiPhone/iPadアプリの開発。

人工知能入門：Text Embedding、「似ている言葉」の話

先週、思いついたのですが、ここで「人工知能入門」を連載することにしました。このメルマガには、最近人工知能に関する記事を書くことが増えましたが、時々、その場では説明しきれない用語やコンセプトが出てきてしまうので、一度、一通り、最低限の用語・コンセプトを説明しておこうと考えたのです。

今日のテーマは、ChatGPTで使われているLLM（大規模言語モデル）の基礎となる技術、Text Embeddingについて解説します。自然言語（人間の話す言葉）を扱う上で、「どの言葉がどの言葉に似ているか」を判断する際に使われる仕組みです。

私たちは、毎日のように「あの人は、芸能人の誰々さんに似ている」「このラーメンのスープって、中華三昧のスープに似ている」のように、何かと何かを比較して、「似ている」とか「似ていない」と評価しています。私たちの脳は、そんな判断を瞬時にする能力を持っていますが、実際に「どう似ているか」を説明するのは簡単ではありません。突き詰めれば、「目元が似ている」「雰囲気が似ている」、「出汁に鰹節を使っている」などの言葉が出てくることもありますが、実際のところは、とても曖昧で説明が付きにくい比較を私たちの脳はしています。

一方のコンピュータは、そんな曖昧な比較が不得意です。なんでも数値化し、数字を使ってしか評価が出来ません。

分かりやすい例が「色」です。私たちは、色を見ただけで、二つの色が似ているかどうかを瞬時に判断できます。しかし、コンピュータにはそんな器用なことが出来ません。数値化した上で、比較する必要があるのです。

色の数値化には二つの方法がありますが（「赤・緑・青」の色の三原色に分解する方法と、「色相・彩度・明度」の三つの色属性に分ける方法）、ここでは、分かりやすい「赤・緑・青」を使って説明します。

それぞれの色の強さを、0.00から1.00の間の数字で表すと、虹の7色は以下のように表現できます。

赤：（1.00, 0.00, 0.00）
橙：（1.00, 0.64, 0.00）
黄：（1.00, 1.00, 0.00）
緑：（0.00, 0.50, 0.00）
青：（0.00, 1.00, 1.00）
藍：（0.00, 0.00, 1.00）
紫：（0.50, 0.00, 0.50）

この例のように、複数の数字から作られたデータのことを「ベクトル」もしくは「ベクター」と呼びます（同義語で、ベクトルはドイツ語のVektor、ベクターは英語のVectorをローマ字にしたものです）。数字の数を「次数」と呼び、このケースでは、「色は『3次ベクトル』で表現可能である」のように言います。

この記事の著者・中島聡さんのメルマガ

初月無料で読む

コンピュータが二つの色の「近さ」を調べる際には、（高校の物理や数学の授業で教わった）「ベクトルの内積」を使います。レールの上に乗ったトロッコを引っ張る際に、レールに沿って引っ張った方が引っ張りやすいのは、レールの方向（ベクトル）と引っ張る方向（ベクトル）が一致しているからです。内積は、二つのベクトルがどのくらい同じ方向を向いているかを調べるのに適した演算（＝計算方法）です。

人工知能や自然言語処理の研究をしていていた研究者たちは、「言葉」をコンピュータの中で効率よく扱うには、上の色と同じように、なんらかのベクトルに変換すれば良いことに随分前（1980年代）から気がついていました。言葉のベクトル化（Text Embedding、もしくは、単にEmbedding）の研究（特に人工知能への応用）が本格的に始まったのは、2010年代で、ChatGPTのベースである、GPT3.5/GPT4にもEmbeddingは使われており、その次元は、1,536もあります。

OpenAIのEmbedding APIを活用すると、任意の言葉のEmbeddigを求めることが出来ます。

紫陽花（あじさい）： [0.008374308, -0.004348531, 0.015492181, 0.012114794, …以下略]
向日葵（ひまわり）： [0.00897903, -0.028575271, -0.011562964, 0.026796354, …]
鰯（いわし）： [0.014147074, -0.018954331, -0.040955342, 0.015233389, …]
鯵（あじ）： [0.02712337, 0.009231063, 0.025325274, 0.009623604, …]

なんだか分からない数字が出てきますが、それそれの単語の内積を求めると面白い結果が得られます（”・”は内積を表します）。

紫陽花・向日葵 = 0.416
紫陽花・鰯 = 0.218
紫陽花・鯵 = 0.201
向日葵・鰯 = 0.171
向日葵・鯵 = 0.263
鰯・鯵 = 0.653

紫陽花と向日葵、鰯と鯵のペアがそれぞれ「近い関係」であることが、計算だけで分かるのです（内積の結果が1に近いほど、「近い関係にある」と言えます）。

試しに「花」「魚」という単語との関係を調べてみると以下のようになります。

花・紫陽花 = 0.605
花・向日葵 = 0.422
花・鰯 = 0.338
花・鯵 = 0.380
魚・紫陽花 = 0.282
魚・向日葵 = 0.249
魚・鰯 = 0.414
魚・鯵 = 0.507

片方が英語でも大丈夫です。

Flower・紫陽花 = 0.453
Flower・向日葵 = 0.406
Flower・鰯 = 0.224
Flower・鯵 = 0.243

単語だけでなく、文章のEmbeddingも計算可能で、同様の比較が可能です。

“I love you”・あなたを愛してます = 0.473
“I love you”・君が好き = 0.428
“I love you”・君が大好き = 0.439
“I live you”・”I like you” = 0.576
“I love you”・お前は嫌いだ = 0.251
“I love you”・あっち行け = 0.138

そのため、Embeddingを使うと、文章の「意味検索」が出来るようになります。通常の文字検索だと、”I love you” で検索すると、文字通り “I love you”の単語が文章中に並んでいないと見つけてくれませんが、Embeddingを使った検索をすると、似たような意味の、「あなたを愛してます」や「I like you」を見つけてくれるのです。

この記事の著者・中島聡さんのメルマガ

初月無料で読む

なんだか魔法のような技術ですが、これがText Embeddingであり、この技術が、ChatGPTなどの「自然言語を理解する人工知能」の基礎になっているのです。

OpenAIのEmbedding APIが、どうやって計算しているか知りたい人もいるでしょうが、「十分な数のパラメータを持つニューラルネットに、たくさんの入力データと期待する答えを与えて、徐々にパラメータを調節した結果作った、Embedding Modelというニューラルネットを使って計算している」というのが答えです。

ニューラルネット一般に言える話ですが、1,536もある次元のそれぞれの数字が何を意味するのか、設計者も知りません。どこにどんな数字を置けば良いのかは、ニューラルネットワーク自身が、学習過程で自分で見つけ出したのです。

（中島聡さんのメルマガ『週刊 Life is beautiful』5/14号では、メインコラム「オープンソースLLMが最終的に勝つ理由」「検索ビジネスの終わりの始まり」「カンファレンス・バケーション」のほか、読者Q&Aコーナーも掲載中。初月無料のお試し購読で今すぐ受け取ることができます）

この記事の著者・中島聡さんのメルマガ

初月無料で読む

※ワンクリックで簡単にお試し登録できます↑
￥880/月（税込）初月無料　毎週火曜日(年末年始を除く)
月の途中でも全ての号が届きます

中島聡さんの最近の記事

初月無料購読ですぐ読める！ 5月配信済みバックナンバー

2024年5月配信分

週刊Life is beautiful ２０２４年５月１４日号：人工知能入門：Text Embedding、「似ている言葉」の話、オープンソースLLMが最終的に勝つ理由、検索ビジネスの終わりの始まり、カンファレンス・バケーション(5/14)
週刊Life is beautiful ２０２４年５月７日号：人工知能が人間の言葉に変化をもたらし始めた話、App Economy Insightsを活用したIncome Statementの見方(5/7)

いますぐ初月無料購読！

＜こちらも必読！月単位で購入できるバックナンバー＞

2024年4月配信分

週刊Life is beautiful ２０２４年４月３０日号：金子勇の死と共に失われた人工知能の超絶技法、MicrosoftがGPUを大量に購入する理由、MetaがHorizon OSをオープン化する理由(4/30)
週刊Life is beautiful ２０２４年４月２３日号：河野太郎氏との対談予告、Enhanced Sports(4/23)
週刊Life is beautiful ２０２４年４月１６日号： AIブームはバブルなのか？AIブームはまだまだ序盤戦(4/16)
週刊Life is beautiful ２０２４年４月９日号：私がサプリメントを拒否する理由、Tesla FSD v12(4/9)
週刊Life is beautiful ２０２４年４月２日号：生成系AIのポテンシャル、Redditの上場、大谷翔平のスポーツ賭博スキャンダル(4/2)

2024年4月のバックナンバーを購入する

2024年3月配信分

週刊Life is beautiful ２０２４年３月２６日号： AI Chatは、Google検索を超えるか？、オンライン・ビデオ講座(3/26)
週刊Life is beautiful ２０２４年３月１９日号：日本だけが経済成長していない理由、鯨の歌を聞くデバイス(3/19)
週刊Life is beautiful ２０２４年３月12日号： Google Geminiの失敗が明らかにしたGoogleが抱える大きな問題(3/12)
週刊Life is beautiful ２０２４年３月５日号：ライドシェアの解禁、人工知能とWorld Model(3/5)

2024年3月のバックナンバーを購入する

2024年2月配信分

週刊Life is beautiful ２０２４年２月２７日号： PFAS汚染問題、Singularity Society(2/27)
週刊Life is beautiful ２０２４年２月20日号：バーチャル・モデル、男性版(2/20)
週刊Life is beautiful ２０２４年２月１３日号：ローカルマシンで画像生成をする方法(2/13)
週刊Life is beautiful ２０２４年２月６日号： Teslaの決算(2/6)

2024年2月のバックナンバーを購入する

2024年1月配信分

週刊Life is beautiful ２０２４年１月３０日号：生成型AIと著作権(1/30)
週刊Life is beautiful ２０２４年１月２３日号：新聞・雑誌メディアのビジネスモデル、AI生成バーチャルモデル(1/23)
週刊Life is beautiful ２０２４年１月１６日号：地震の震度、日本のバブルが残した世界有数のリゾート(1/16)
週刊Life is beautiful ２０２４年１月９日号：スマホを持ったサル(1/9)
週刊Life is beautiful ２０２４年１月２日号：人工知能の今とこれから(1/2)

2024年1月のバックナンバーを購入する

2023年12月配信分

週刊Life is beautiful ２０２３年１２月２６日号：日本の政治を浄化する特効薬、Tesla Model Y(12/26)
週刊Life is beautiful ２０２３年１２月１９日号：ふたご座流星群、Civil Rights Movement and Woke(12/19)
週刊Life is beautiful ２０２３年１２月１２日号：Elon vs. Walt Disney、LLMの弱点(12/12)
週刊Life is beautiful ２０２３年１２月５日号：市民X：謎の天才「サトシ・ナカモト」、Costcoのビジネスモデルとe-commerce3.0(12/5)

2023年12月のバックナンバーを購入する

image by: Shutterstock.com

中島聡この著者の記事一覧

マイクロソフト本社勤務後、ソフトウェアベンチャーUIEvolution Inc.を米国シアトルで起業。IT業界から日本の原発問題まで、感情論を排した冷静な筆致で綴られるメルマガは必読。

有料メルマガ好評配信中

初月無料で読んでみる

この記事が気に入ったら登録！しよう『週刊 Life is beautiful 』

【著者】中島聡【月額】初月無料！月額880円（税込）【発行周期】毎週火曜日(年末年始を除く) 発行予定

人工知能入門：Text Embedding、「似ている言葉」の話

中島聡さんの最近の記事

初月無料購読ですぐ読める！ 5月配信済みバックナンバー

＜こちらも必読！ 月単位で購入できるバックナンバー＞

シェアランキング

＜こちらも必読！月単位で購入できるバックナンバー＞