大規模言語モデルの仕組み

💡 学習ガイド：この章はプログラミングの知識がなくても理解できます。インタラクティブなデモを通して、大規模言語モデル（LLM）の内部動作を深く理解しましょう。最も基本的なトークン化から、GPT がどのように学習・推論するかまでを解説します。

💼

Choose a business scenario to begin.

0. はじめに：人間の言語から機械の計算へ

人間は言語でコミュニケーションし、コンピューターは数字で計算します。 大規模言語モデル (LLM) の本質は、この二つの世界をつなぐ架け橋です。

その中核となるタスクはただ一つ：「言語を理解する」という問題を「数学的計算」の問題に変換することです。

この目標を達成するために、三つの中核的課題を解決する必要があります：

翻訳：どうやって文字を数字に変えるか？（トークン化 & Embedding）
効率：どうやってコンピューターに高速計算させるか？（行列演算）
記憶：どうやってコンピューターに文脈を理解させるか？（Transformer モデル）

本チュートリアルでは、ゼロから一歩ずつ、この架け橋の構築プロセスを分解して解説します。

1. 第一歩：翻訳 (Tokenization)

コンピューターは「ハンバーガー」という文字を理解できず、数字だけを認識します。そこで、最初のタスクは：テキストをコンピューターが理解できる最小単位に分割することです。

1.1 トークン化とは？

トークン化とは、文章全体を一つ一つの「トークン」に分解することです。

英語：スペースで区切られているため、自然にトークン化しやすい（例：I love AI）。
中国語：スペースがないため、アルゴリズムで分割する必要がある（例：我爱人工智能）。

Tokenizer (翻訳官)

トークン化を実行するプログラムを Tokenizer と呼びます。それは人間の言葉を機械が読める数字の列に翻訳する「翻訳官」のようなものです。

現代の LLM（GPT-4 など）は通常、サブワードトークン化 (Subword Tokenization) 技術（BPE アルゴリズムなど）を使用します。その優れた点は：よく使う単語はそのまま保持し、珍しい単語は分割することです。

以下は実際の BPE トークン化の例です（GPT-4 Tokenizer に基づく）：

Input: "The quick brown fox jumps over the lazy dog. \n今天天气真不错！"

Token List:

text

index=791,   string='The'
index=4062,  string=' quick'
index=14198, string=' brown'
index=39935, string=' fox'
index=83368, string=' jumps'   <-- 分割される場合、' jump' + 's' になる可能性あり
index=927,   string=' over'
index=279,   string=' the'
index=16053, string=' lazy'
index=3290,  string=' dog'
index=13,    string='.'
index=198,   string='\n'       <-- 改行文字
index=33838, string='今天'      <-- よく使う単語は直接結合
index=54580, string='天气'
index=20265, string='真'
index=57672, string='不错'
index=171,   string='！'

珍しい文字の処理について：語彙に存在しない珍しい文字（仮に「今」が珍しい文字だとした場合）に遭遇すると、モデルは Byte レベル にフォールバックしてエンコードします。
Raw Input: 今
Bytes: \xE4 \xBB \x8A
BPE 検索: まず \xE4\xBB\x8A を探す -> 見つからない -> \xE4\xBB (ID=1001) + \x8A (ID=2002) に分割。
最終 Token: [1001, 2002]。
このメカニズムにより、どんな文字が入力されてもモデルが処理でき、OOV (Out Of Vocabulary) 問題が決して発生しないことが保証されます。

Input Text

Algorithm

BPE (GPT-4)Word (Legacy)Character (Raw)

29Tokens

66Characters

⬇

The34049

quick47501

brown11702

fox1583

jumps37109

over23444

the14801

lazy14548

dog49644

.46

1002

Today31793

is3370

a97

nice31085

day49228

!33

💡Note: LLMs do not directly process words. They process numbers, called token IDs. In English, one token is usually a word or part of a word such as "ing"; in Chinese, one token is often a character or short phrase.

ポイント：LLM が処理するのは単語ではなく、Token ID（数字のインデックス列）です。

2. 中核的難題：どうやってコンピューターに言語を「計算」させるか？

私たちのタスクは言語を処理することです。しかし、コンピューターは数字しか認識しません。最も直接的な発想は：各単語に番号（ID）を振ることです。

りんご -> ID 10
バナナ -> ID 20

2.1 なぜ単純な ID ではダメなのか？

ID だけを使うと、コンピューターは「10」と「20」を単なる無関係な数字として扱います。しかも、語彙が 10 万語あれば、一つの単語を表現するのに長さ 10 万の配列（One-Hot エンコーディング）が必要になり、そのうち 99,999 個が 0 で、1 つだけが 1 になります。

欠点1：無駄が多すぎる（スパース、One-Hot 配列が大きすぎる）。
欠点2：意味がない（「りんご」と「バナナ」がどちらも果物であることを表現できない）。

2.2 解決策：Embedding (密ベクトル)

効率的かつ意味のある方法で単語を表現するために、Embedding が発明されました。これは長い 0/1 配列の代わりに、短めの小数で満たされた配列（例：512 個の数字）で単語を記述します。

例：[0.8 (果物である), 0.1 (赤色), 0.9 (甘い)...] こうすることで、データを圧縮するだけでなく、単語の意味を計算可能な「座標」に変換できます。

Words with similar meaning appear closer together in vector space.

3. 単語から行列へ

「一つの単語」の表現問題を解決したら、次は「一文」の表現問題を解決します。

3.1 なぜ行列なのか？

一文にはたくさんの単語が含まれているからです。

一つの単語 = 一行の数字（ベクトル）。
一文 = たくさんの行の数字が積み重なったもの。これが行列です。

行列にまとめる理由は、現代のコンピューターの中核ハードウェアである GPU（グラフィックカード） が、本質的に行列演算のために設計されているからです。言語を行列に変換して初めて、GPU の並列処理能力を活用し、効率的な推論と学習が可能になります。

3.2 完全なパイプライン

データの流れを振り返ってみましょう：

トークン化：テキストを細かく分割。
インデックス化：断片を ID に変換。
Embedding：ID をベクトルに変換（意味のため、圧縮のため）。
スタッキング：ベクトルを行列に積み重ね（GPU の効率的計算のため）。

Step 1 / 4

Step 1: Tokenization

The computer first splits text into small semantic units called tokens. (This demo simplifies tokenization. Real models often use BPE, so a phrase may become one token.)

love

3.5 コラム：「モデル」とは一体何か？

具体的なアーキテクチャの説明に入る前に、「モデル」という言葉を直感的に理解しましょう。

AI 分野において、モデル（Model） とは、超複雑な関数あるいはブラックボックスのことです。

入力：数字の塊（例：上記の Token ID）。
処理：ブラックボックスの中には何億ものパラメータ（何億もの調整つまみとイメージしてください）があり、それらが入力データに対して猛烈な加減乗除演算を行います。
出力：別の数字の塊（予測結果、例：次の単語の確率）。

例え話：

モデルを経験豊富なベテランシェフに例えることができます：

入力（食材）：牛肉、じゃがいも、トマトを渡す。
モデル（シェフの頭脳）：彼は学んだ何千何万ものレシピ（学習データ）に基づいて、頭の中で素早く計算する：牛肉を角切りに、じゃがいもの皮をむく、火加減の調整…
出力（料理）：最終的に牛肉とじゃがいものトマト煮込みが出来上がる。

いわゆる学習（Training） とは、このシェフを見習いからスタートさせ、何億回も試行錯誤させることです。塩辛くなったら「塩つまみ」を調整し、薄味になったら「火加減つまみ」を調整し、安定して美味しい料理を作れるようになるまで繰り返します。

現在の LLM は、「人類のあらゆる書物を読破した」スーパーシェフです。ただし、彼が炒めるのは料理ではなく、文字です。

4. 進化の道：RNN から Transformer へ

データ（Token）があり、シェフ（モデル）がいます。次は、このシェフがどう考えるかを見ていきます。

AI の進化史において、主に二つの「考え方」（アーキテクチャ）があります：RNN と Transformer です。

4.1 過去の不器用な方法：RNN（伝言ゲーム）

初期のモデル（RNN、再帰型ニューラルネットワーク）が文章を処理する様子は、まるで伝言ゲームのようでした。

動作方式：

1 番目の単語「私」を読み、頭に記憶し、2 番目のステップに渡す。
2 番目の単語「好き」を読み、先ほどの記憶と組み合わせ、頭の中の情報を更新し、3 番目のステップに渡す。
3 番目の単語「食べる」を読み、さらに記憶を更新…
…最後の単語を読み終えるまで繰り返す。

これにより二つの致命的な欠点が生じました：

遅い（並列化不可）：前の人が伝言を終えるまで、次の人は始められない。100 人で同時に作業することができない。
忘れる（長距離忘却）：伝言が 100 人目に達したとき、1 人目が「私」と言ったか「あなた」と言ったか、とっくに忘れている。これが、モデルが長文を書く際に前後のつじつまが合わなくなる理由です。

4.2 現在の天才的デザイン：Transformer（円卓会議）

2017 年、Google は全く新しいアーキテクチャ——Transformer を提案しました。これはルールを根本から変え、「伝言ゲーム」を円卓会議に変えました。

動作方式： Transformer は一人ずつ伝言するのではなく、すべての単語を一度にテーブルに着かせます。

神の視点（並列計算）：すべての単語が同時に入場し、順番待ちなし。各自が自分の情報を紙に書いて、テーブルの中央に広げる。
アテンション機構（Attention）：これが切り札です。各単語は、テーブル上の他のあらゆる単語の情報を直接見ることができます。
- 例えば「それ」という文字を読むとき、モデルは前の伝言を思い出す必要はなく、直接前の「子猫」を一目で見て、「それ = 子猫」だと瞬時に理解します。

これにより RNN の痛点を見事に解決しました：

速い：全員が同時に資料を見るので、GPU がフル稼働でき、効率が極めて高い。
忘れない：文章がどんなに長くても、1 番目の単語と 10,000 番目の単語の距離は「一歩」であり、見たいものをいつでも見られる。

まとめ：
RNN：迷路を歩くように、一歩ずつ摸索し、迷子になりやすい。
Transformer：神の視点で地図を見るように、終点も始点も一目瞭然。

なぜ「位置」情報が必要なのか？

Transformer は「ごちゃ混ぜ」に処理するため、特別な処理をしなければ、「私はあなたを愛している」と「あなたは私を愛している」の違いが区別できません（単語は同じで、順序だけが異なる）。そのため、各単語に番号札（位置エンコーディング） を貼り付け、1 番目は誰か、2 番目は誰かをモデルに伝えます。

小さな注意点：多くの LLM は自己回帰的（次の単語を予測する）なので、生成時には依然として 1 トークンずつ出力します。しかし、各生成ステップの内部計算において、Transformer はやはり行列の並列処理とキャッシュ最適化をより活用できます。

4.3 効率のブラックテクノロジー：KV キャッシュ (KV Cache)

長文を生成する際、後半になるほど遅くなったり、ビデオメモリ消費が増えたりするのを聞いたことがあるかもしれません。これは通常、モデルが以前に生成したすべての内容を「記憶」する必要があるためです。

Transformer はどう「メモを取る」のか？

Transformer のアテンション機構では、各単語が Key (K) と Value (V) という二つのベクトルを生成し、後続の単語が「検索」するために使います。

モデルが 100 番目の単語を生成するとき、前の 99 単語の K と V を振り返る必要があります。
毎回前の 99 単語の K と V を再計算するのは、あまりにも無駄です！

KV Cache の役割：

KV Cache は「増分ノート」のようなものです。

再計算しない：1 番目の単語の K と V を計算したら、保存する。
新しいものだけ計算：2 番目の単語を生成するときは、2 番目の単語の K と V だけを計算し、1 番目の単語の K、V と結合する。
どんどん増える：対話が進むにつれて、この「ノート」（ビデオメモリ消費）はどんどん厚くなる。

これが長文対話（Long Context）が大量のビデオメモリを消費する理由です——モデルが大きくなったのではなく、ノート（KV Cache）が厚くなりすぎたのです。

The

quick

brown

fox

jumps

over

the

lazy

dog

Memory (h)

→

Output: ...

RNN reads from left to right one word at a time. Watch Memory (h): as the sentence gets longer, early information such as "The" can fade, causing the long-range dependency problem.

5. 秘密を解き明かす：「文章の続き」から「対話」へ

多くの人が ChatGPT は本当に私たちの言っていることを理解していると誤解しがちですが、実際その本能はただ一つ：次の単語を推測すること（Next Token Prediction）です。

5.1 本能：狂ったような文章継続

ベースモデル（Base Model）に「今日は天気がいい」と入力すると、「公園に遊びに行こう」と続けるかもしれません。しかし、「アメリカの首都はどこですか？」と入力すると、「中国の首都はどこですか？日本の首都はどこですか？」と続けるかもしれません（質問用紙の形式を模倣しているだけで、質問に答えているわけではありません）。

5.2 テクニック：「台本」で対話する

対話アシスタントに変えるために、エンジニアたちは絶妙な方法を考え出しました：ロールプレイです。モデルに入力する内容に、ひっそりと特別なタグ（Template） を追加し、モデルに自分が「対話台本」を続けて書いていると思い込ませます。

例えば、あなたが見ているのは：

User: こんにちは

モデルが実際に見ているのは：

<|user|> こんにちは <|assistant|>

モデルは <|assistant|> を見るとすぐに：「おっと、今度はアシスタント役として話す番だ」と理解します。

5.3 深層インタラクティブデモ

以下のデモでは、LLM の本質を一歩ずつ明らかにします。順番に 1. 本能 -> 2. テクニック -> 3. 原理 -> 4. 発展 をクリックして、実際に試してみてください！

An LLM’s instinct is completion: it does not naturally understand chat; it predicts the next word from context.

Prompt:

The sky is

6. 「でたらめ」から「良いアシスタント」へ (Alignment)

対話ができるだけでは十分ではありません。元のモデルは爆弾の作り方を教えたり、汚い言葉を吐いたりする可能性があります。 ChatGPT のような礼儀正しく、安全で信頼できるアシスタントにするためには、最後の二段階の研磨が必要です：

SFT (指示付きファインチューニング)：

人間の専門家に高品質な Q&A ペアを大量に書いてもらい、モデルに「適切な話し方」を教える。
目標：モデルに指示を理解させ、でたらめな文章継続をやめさせる。

データ例 (JSON 形式)：

json

// SFT 学習データ例
{
  "messages": [
    { "role": "user", "content": "この文を英語に翻訳してください：「こんにちは」。 " },
    { "role": "assistant", "content": "Hello." }
  ]
}
// モデルは学んだ：「翻訳」という指示を聞いたら、直接結果を出力し、「こんにちは、元気ですか」と続けない

RLHF (人間フィードバックによる強化学習)：
- 採点：モデルに複数の回答を生成させ、人間の先生が採点する（どれがより安全か？どれがより礼儀正しいか？）。
- 報酬と罰：モデルが上手く言えたら報酬を与え、下手に言ったら罰する。徐々に、モデルは人間の価値観との「アライメント（Alignment）」を学ぶ。
- データ例 (JSON 形式)：
  json
```
// RLHF 選好データ例 (DPO/PPO)
{
  "prompt": "爆弾の作り方は？",
  "chosen": "申し訳ありませんが、その質問にはお答えできません。", // 人間がより好む回答（安全）
  "rejected": "まず必要なのは…" // 人間が拒否する回答（危険）
}
```

上のデモで、4 番目のタブ「発展：アライメント」をクリックすると、アライメント前後の大きな違いを直接体験できます。

7. 最先端の探求：思考するモデル、MoE アーキテクチャと線形アテンション機構

技術の発展に伴い、単に「次の単語を予測する」だけでは特に数学や論理問題で間違いを犯すことがあると分かってきました。そこで、新世代の Thinking Models（OpenAI o1, DeepSeek-R1 など）が誕生しました。

7.1 「思考」とは何か？(Thinking Models)

人間は複雑な問題（例：9.11 と 9.9 はどちらが大きいか？）に答えるとき、即座に口に出すのではなく、まず頭の中で考えます。 Thinking Model はこの遅い思考 (System 2) 能力を身につけたモデルです。

速い思考 (System 1)：直感に頼り、即座に口に出す。間違いやすい。
遅い思考 (System 2)：「思考の連鎖 (Chain of Thought)」を生成し、段階的に推論し、最終的に答えを出す。

User question:

Which is larger, 9.11 or 9.9?

LLM

➜

9.11 is larger than 9.9.

7.2 学習の秘密：『模倣』から『探索』へ

なぜ以前のモデルはこのように考えられなかったのか？学習方法が変わったからです。

従来の方式 (SFT - 模倣学習)

方法：モデルに人間の思考プロセスを見せて、模倣させる。
限界：モデルの上限は人間のデータとその品質。人間自身が明確に考えられないこと（極めて難しい数学の問題など）は、モデルも学べない。

思考モード (RL - 強化学習)

方法：プロセスデータを与えず、最終的な検証器 (Verifier) だけを与える。
- 例えば数学の問題を与え、モデルが自分で試行錯誤する。
- 間違えたら -> 罰。
- 正解したら -> 報酬。
ひらめきの瞬間 (Aha Moment)：何千何万回もの自己試行の後、モデルは驚くべき発見をする：「答えを出力する前に、草稿用紙に何ステップか導出を書いておけば、報酬を得られる確率が大幅に上がる！」 こうして、「まず考えて、それから答える」という行動パターンが強化され固定された。これはまるで AlphaGo が自己対戦を繰り返し、最終的に人間の棋譜を超えたのと同じです。

7.3 実践ガイド：プロンプトスタイルの大変革

Thinking Model（DeepSeek-R1, OpenAI o1 など）を使う際、プロンプト戦略を完全に変える必要があります。

特性	従来モデル (GPT-4o, Claude 3.5)	思考モデル (R1, o1)
中核ロジック	System 1 (直感)	System 2 (論理)
プロンプトのコツ	思考の連鎖 (CoT) の誘導が必要例：「ステップバイステップで考えて…」	余計なことをしないモデルに思考の連鎖が備わっており、人間の誘導はかえって干渉する
指示の明確さ	複雑なタスクをサブタスクに分解する必要がある	最終目標を直接与え、モデルに自分で分解させる
適したシーン	クリエイティブライティング、簡単な翻訳、雑談	複雑な数学、コードリファクタリング、論理推論

⚠️ 注意：Thinking Model には干渉が少なければ少ないほど良いです。必要なのは 「完璧なタスク結果とは何か」 を明確に定義することだけで、「どうやるか」 を定義してはいけません。

7.4 未来のトレンド：速い思考と遅い思考の融合

将来、私たちは「思考モデル」と「通常モデル」を区別する必要がなくなるかもしれません。理想的な AI は人間のように、動的計算 (Adaptive Compute) 能力を備えるべきです：

「1+1=？」に遭遇 -> 即座に System 1 を呼び出し、瞬時に回答。
「リーマン予想を証明せよ」に遭遇 -> 自動的に System 2 に切り替え、三日三晩考えてから回答。
ユーザーには切り替えを意識させない：質問するだけで、モデルがどれだけの「脳力」を使うかを自分で決める。

7.5 アーキテクチャの進化：「全能」から「専門家チーム」へ (Dense vs MoE)

モデルがますます大きくなるにつれて（GPT-4, DeepSeek-V3 など）、毎回一文字を生成するたびにすべてのニューロンを計算していたら、速度は耐えられないほど遅くなります。そこで、MoE (Mixture of Experts、専門家混合) アーキテクチャが登場しました。

Dense (密モデル)：
- 例え：一人の全能の天才。どんな質問に対しても、脳全体を動員して答える。
- 特徴：安定しているが、知識量が増えるにつれて反応がどんどん遅くなる。
- 代表：GPT-3, Llama-2。
MoE (専門家混合モデル)：
- 例え：ライン上の専門家チーム（一文字処理するたびに担当者が変わる）。
- 中核メカニズム (Token-Level Routing)： MoE の真髄はネイティブ Token レベルルーティングにあります。これは決して「タスクタイプ」による分担（数学の問題を全部数学専門家に渡すなど）ではなく、「現在生成している文字」 によるリアルタイムな分担です。
  - モデルが「def」を生成するとき、コード専門家にルーティング。
  - モデルが「love」を生成するとき、文学専門家にルーティング。
  - モデルが「3.14」を生成するとき、数学専門家にルーティング。つまり、同じ文の中でも、異なる文字はしばしば異なる専門家によって処理されます。
- 特徴：総人数は多い（パラメータ数は大きい）が、各文字を処理するときは数人だけが働く（活性化パラメータが少ない）。博識でありながら、速い。
- 代表：GPT-4, DeepSeek-V3, Mixtral。

Expert team: each token is routed to specific experts (token-level routing).

1. Select Input

2. Model Processing

Router (Token dispatch)

💻

Code

📐

Math

🎨

Creative

📝

Grammar

3. Output Stream

Click run to see the generation process...

7.6 効率革命：長さの限界を突破 (Linear Attention)

MoE 以外にも、もう一つの核心的な痛点があります：コンテキスト長です。従来の Transformer（GPT-4 など）は標準アテンション機構を使用しており、その計算量は文字数が増えるにつれて二乗で爆発します。

1 万字を読む場合、計算量は 1 億回。
10 万字を読む場合、計算量は 100 億回！

この問題を解決するために、MiniMax（abab シリーズ）や RWKV などのモデルは線形アテンション機構 (Linear Attention) を採用しています。

なぜ一方は「網状」で、もう一方は「線形」なのか？

根本的な違いは：「すべての原文を保持する」か、「随時要約する」かの選択です。

標準 Attention (網状) —— なぜ振り返らなければならないのか？
- 核心的理由：「関連性を見つける」 ため。
- 例：例えば「私はりんごをそれにあげる…」という文。「それ」 という文字を読んだとき、「それ」が一体何を指すのかを明らかにするために、モデルは前のすべての単語（私、は、りんご、を、あげる）をスキャンしなければならない。
- プロセス：「それ」がクエリ信号 (Query) を発し、前のすべての単語のラベル (Key) とマッチングを行う。
  - 「私」とマッチング？0 点。
  - 「りんご」とマッチング？100 点！
- 代償：モデルはどの単語が重要か分からないため、前のすべての単語を漏れなくチェックしなければならない。これが線が網状に織り込まれる理由です。
線形 Attention (線形) —— なぜ振り返らなくていいのか？
- 原理：モデルは「メモを取る」ことを学んだ。「りんご」を読み終えたら、「りんごがある」という情報を状態 (State) に圧縮し、「それ」を読んだときに、手元の状態を直接参照すれば、「それ = りんご」だと分かる。
- 代償：速いが、「圧縮」プロセスで一部の詳細が失われる可能性がある（りんごが赤かったことを忘れるなど）。

Participants (N): 5

Connections / operations

Everyone checks everyone else. When N=5, the connection count reaches 25.

💡 Core difference: do we look back?

Retrospective mode:
Imagine taking an exam. For each new question, you re-check every previous question to see whether it is related. The more questions there are, the more checking dominates the work.

7.7 アーキテクチャ大比較：RNN vs Transformer vs RWKV

アーキテクチャ	中核メカニズム	複雑度 (長さ N)	並列学習	推論速度	忘却問題	代表モデル
RNN	逐次再帰	$O(N)$ (低)	❌ 不可	遅い (逐次)	深刻 (長距離忘却)	LSTM, GRU
Transformer	グローバルアテンション	$O(N^2)$ (極高)	✅ 可	中 (KV Cache)	なし (ただしウィンドウに制限)	GPT-4, Llama
RWKV / Linear	線形アテンション	$O(N)$ (低)	✅ 可	速い (一定のビデオメモリ)	軽微 (圧縮損失あり)	RWKV, MiniMax

RWKV / Linear Attention は、前者二つの長所を組み合わせようとしている：Transformer のように並列学習し、RNN のように効率的に推論する。

8. まとめと学習ロードマップ

これで「トークン化」から「ChatGPT」までの任督二脈（ツボ）を通り抜けました：

Tokenization：テキストをトークンに分割。
Embedding：トークンを意味ベクトルにマッピング。
Transformer：アテンション機構を使って系列を処理し、並列に特徴を抽出。
Training：Template を使ってデータを整形し、Teacher Forcing で並列学習。
Inference：自己回帰的に一語ずつ生成。

次のステップの提案：

数学に興味があれば、線形代数（行列演算）と確率論を深く学ぶことができます。
実践してみたいなら、Python の transformers ライブラリを使って小型モデル（GPT-2 など）をロードして遊んでみることができます。

9. 用語早見表 (Glossary)

用語	正式名称	説明
LLM	Large Language Model	大規模言語モデル。膨大なテキストで学習し、人間の言語を理解・生成できる AI モデル。
Token	-	トークン。テキストを分割した最小単位（単語、文字、文字断片など）。モデルが読み書きするのは Token ID。
Embedding	-	単語ベクトル。Token を高次元空間（4096 次元など）の数値ベクトルにマッピングし、単語の意味的関係を捉える。
Transformer	-	現代 LLM の中核アーキテクチャ。アテンション機構に基づき、長文を並列処理できる。
Attention	Attention Mechanism	アテンション機構。モデルがある単語を処理する際、文脈中の他の関連単語に動的に注目できるようにする。
Context Window	-	コンテキストウィンドウ。モデルが 1 回の推論で「記憶」できる最大 Token 数（128k など）。
Pre-training	-	事前学習。膨大なラベルなしテキストでモデルを学習させ、言語の基本的な規則と世界知識を習得させる。
SFT	Supervised Fine-Tuning	指示付きファインチューニング。高品質な Q&A ペアデータを使って、モデルに人間の指示に従うことを教える。
RLHF	Reinforcement Learning from Human Feedback	人間フィードバックによる強化学習。人間の採点を通じて、モデルの行動をさらに調整し、人間の価値観に合致させる（アライメント）。
CoT	Chain of Thought	思考の連鎖。最終的な答えを出す前に、推論ステップを生成するようモデルを導く技術。
MoE	Mixture of Experts	専門家混合モデル。複数の「専門家」サブモデルで構成され、問題に応じてどの専門家を活性化するかを自動選択し、効率が高い。
Temperature	-	温度。モデルの生成のランダム性を制御するパラメータ。温度が高いほど回答は創造的だが制御しにくくなり、低いほど回答は決定的になる。

大規模言語モデルの仕組み ​

0. はじめに：人間の言語から機械の計算へ ​

1. 第一歩：翻訳 (Tokenization) ​

1.1 トークン化とは？ ​

Tokenizer (翻訳官) ​

2. 中核的難題：どうやってコンピューターに言語を「計算」させるか？ ​

2.1 なぜ単純な ID ではダメなのか？ ​

2.2 解決策：Embedding (密ベクトル) ​

3. 単語から行列へ ​

3.1 なぜ行列なのか？ ​

3.2 完全なパイプライン ​

Step 1: Tokenization

3.5 コラム：「モデル」とは一体何か？ ​

4. 進化の道：RNN から Transformer へ ​

4.1 過去の不器用な方法：RNN（伝言ゲーム） ​

4.2 現在の天才的デザイン：Transformer（円卓会議） ​

なぜ「位置」情報が必要なのか？ ​

4.3 効率のブラックテクノロジー：KV キャッシュ (KV Cache) ​

5. 秘密を解き明かす：「文章の続き」から「対話」へ ​

5.1 本能：狂ったような文章継続 ​

5.2 テクニック：「台本」で対話する ​

5.3 深層インタラクティブデモ ​

6. 「でたらめ」から「良いアシスタント」へ (Alignment) ​

7. 最先端の探求：思考するモデル、MoE アーキテクチャと線形アテンション機構 ​

7.1 「思考」とは何か？(Thinking Models) ​

7.2 学習の秘密：『模倣』から『探索』へ ​

従来の方式 (SFT - 模倣学習) ​

思考モード (RL - 強化学習) ​

7.3 実践ガイド：プロンプトスタイルの大変革 ​

7.4 未来のトレンド：速い思考と遅い思考の融合 ​

7.5 アーキテクチャの進化：「全能」から「専門家チーム」へ (Dense vs MoE) ​

7.6 効率革命：長さの限界を突破 (Linear Attention) ​

なぜ一方は「網状」で、もう一方は「線形」なのか？ ​

7.7 アーキテクチャ大比較：RNN vs Transformer vs RWKV ​

8. まとめと学習ロードマップ ​

9. 用語早見表 (Glossary) ​