Skip to content

Transformer と Attention 機構:大規模モデルの核心エンジン

2017年、Google が論文《Attention Is All You Need》で提案した Transformer アーキテクチャは、自然言語処理のゲームのルールを根本から変えました。従来のリカレントニューラルネットワーク(RNN)を捨て去り、Attention 機構だけに依存して、より強力なパフォーマンスとより高い訓練効率を実現しました。今日、ほぼすべての大規模言語モデル——GPT、BERT、T5、LLaMA——は Transformer の基盤の上に構築されています。

🔄
RNN 的困境
顺序处理,长距离依赖衰减
Transformer 突破
并行计算,全局注意力
🎯
注意力机制
动态关注重要信息
🚀
大模型基石
GPT、BERT 的核心架构

一、RNN の苦境と Transformer の突破口

Transformer が登場する前、シーケンスデータ(テキスト、音声など)を処理する主流の方法はリカレントニューラルネットワーク(RNN)とその派生である LSTM、GRU でした。これらのモデルは循環構造を通じて、シーケンス内の要素を1つずつ処理し、隠れ状態を維持して履歴情報を記憶します。

1.1 RNN の3つの致命的欠陥

逐次依存、並列化不可:RNN は前の時間ステップの計算が完了するのを待ってから、次の単語を処理しなければなりません。これにより訓練速度が極めて遅く、現代の GPU の並列計算能力を十分に活用できません。

長距離依存の減衰:改良された LSTM でも、長文を処理する際、早期の情報は徐々に「忘れ去られ」ます。例えば500字の文章の中で、モデルは冒頭で言及された重要な情報を覚えておくことが困難です。

勾配消失/爆発:逆伝播時に、勾配は時間ステップに沿って層ごとに伝達されるため、勾配消失や爆発が発生しやすく、訓練が不安定になります。

1.2 Transformer の革命的突破口

Transformer は自己注意機構(Self-Attention)を通じて、モデルがシーケンス全体を「一目で見渡し」、任意の2つの位置間の関係を直接計算できるようにし、段階的な情報伝達を不要にしました。

RNN / LSTM
顺序处理:词1 → 词2 → 词3
❌ 长距离依赖衰减
❌ 无法并行训练
Transformer
并行处理:所有词同时计算
✅ 全局注意力
✅ 高效并行

Transformer の核心的優位性

  • 並列計算:すべての位置の Attention を同時に計算でき、訓練速度が数十倍向上
  • グローバルな視野:長距離依存を直接捕捉し、シーケンス長の制限を受けない
  • 拡張性:アーキテクチャが簡潔で統一されており、より深いネットワークの積み重ねが容易

二、Transformer 完全アーキテクチャ:全体から詳細へ

Transformer の完全なアーキテクチャはエンコーダ(Encoder)デコーダ(Decoder)の2つの部分で構成され、それぞれ入力の理解と出力の生成を担当します。

Encoder(编码器)
× N 层
Multi-Head Self-Attention
捕获输入序列内部依赖
Add & Norm
Feed Forward Network
位置独立的非线性变换
Add & Norm
输入
Token Embedding + Positional Encoding
Decoder(解码器)
输出
Linear + Softmax → 概率分布
× N 层
Masked Self-Attention
只看当前位置之前的词
Add & Norm
Cross-Attention
关注 Encoder 的输出
Add & Norm
Feed Forward Network
位置独立的非线性变换
Add & Norm
输出(移位)
Token Embedding + Positional Encoding

2.1 エンコーダ(Encoder)

「銀行口座の残高が不足している」という文を例にします。モデルが「残高」という単語を処理するとき、自動的に他の単語との関連性を計算します:

  • 「残高」と「口座」は高度に関連(0.35)
  • 「残高」と「銀行」は中程度に関連(0.20)
  • 「残高」と「の」「が」などの機能語は低関連(0.05-0.10)

この関連性は人為的に規定されたものではなく、モデルが大量のデータを通じて自動的に学習したものです。

自注意力示例:「他」关注「小明」
小明 把 苹果 给了 的 母亲
小明
65%
5%
苹果
10%
给了
10%
5%
3%
母亲
2%
「他」把 65% 注意力投向「小明」,识别代词指代关系

2.2 Attention の計算プロセス

自己注意機構は3つの重要なステップで実現されます:

  1. Q、K、V ベクトルの生成:各単語は3つの異なる線形変換を通じて、Query(クエリ)、Key(キー)、Value(バリュー)の3つのベクトルを生成
  2. Attention 重みの計算:Query とすべての Key の内積を計算し、類似度スコアを得る
  3. 重み付き合計:Attention 重みで Value ベクトルを重み付き合計し、最終出力を得る

三、Query、Key、Value:Attention の三銃士

Transformer の Attention 機構は情報検索の思想を借用し、各単語を3つの異なるベクトル空間にマッピングします。

3.1 3つのベクトルの役割

Query(クエリ):「何を探したいか」を表す。現在の単語の検索意図で、他の単語の Key とのマッチングに使用されます。

Key(キー):「私は何か」を表す。各単語の特徴識別子で、Query に検索されるために使用されます。

Value(バリュー):「私の内容は何か」を表す。実際に伝達される情報で、Attention 重みに基づいて重み付き合計されます。

この設計の巧妙な点は:類似度計算(Q・K)と情報伝達(V)が分離されていることです。モデルは「どの単語に注目すべきか」と「注目した後にどの情報を抽出すべきか」が2つの独立した問題であることを学習できます。

🔍
Query
我想找什么
🔑
Key
我是什么
💎
Value
我的内容
Attention(Q, K, V) = softmax(QKT / √dk) V

3.2 Attention 計算式

完全な Attention 計算式は:

Attention(Q, K, V) = softmax(QK^T / √d_k) V

ここで:

  • QK^T:Query と Key の内積を計算し、類似度行列を得る
  • √d_k:スケーリング因子。内積値が大きすぎて softmax の勾配消失を防ぐ
  • softmax:類似度を確率分布(Attention 重み)に変換
  • 最後に V と乗算:Attention 重みで Value を重み付き合計

四、マルチヘッド Attention:複数の視点から意味を理解

単一の Attention ヘッドは1種類の依存関係しか捉えられません。モデルが複数の角度から文を理解できるようにするため、Transformer はマルチヘッド Attention(Multi-Head Attention)を導入しました。

4.1 マルチヘッドの動作メカニズム

マルチヘッド Attention は入力を複数の異なる部分空間に射影し、各「ヘッド」が独立して Attention を計算し、最後にすべてのヘッドの出力を連結します。

典型的な Transformer は8個または16個の Attention ヘッドを使用し、各ヘッドは異なる言語現象に特化する可能性があります:

  • 文法ヘッド:主語-述語-目的語、修飾語-被修飾語などの文法関係を識別
  • 意味ヘッド:単語の意味的関連性を捕捉(「銀行」と「口座」など)
  • 位置ヘッド:隣接単語の局所的依存に注目
  • 指示ヘッド:代名詞の指示先を解析(「彼」が「田中さん」を指すなど)
  • 感情ヘッド:肯定的/否定的な色彩や感情傾向を識別
  • 実体ヘッド:人名、地名などの固有表現を識別
语法头
主谓宾关系
语义头
词义关联
位置头
距离关系
指代头
代词消解
情感头
情绪倾向
实体头
命名实体
修饰头
定状补
全局头
整体语境
8 个头从不同角度理解语义,最后拼接融合

4.2 マルチヘッドの利点

表現力がより強力:異なるヘッドが異なるタイプの依存関係を捕捉でき、単一視点の限界を回避。

並列計算:複数のヘッドを同時に計算でき、計算時間を増加させない。

ロバスト性がより良い:一部のヘッドの学習が失敗しても、他のヘッドが有効な情報を提供できる。

マルチヘッド Attention の数学的表現

MultiHead(Q, K, V) = Concat(head_1, ..., head_h) W^O
ここで head_i = Attention(QW_i^Q, KW_i^K, VW_i^V)

各ヘッドは独立した重み行列 W^Q、W^K、W^V を持ち、最後に W^O ですべてのヘッドの出力を融合します。


五、Transformer 完全アーキテクチャ:エンコーダとデコーダ

Transformer の完全なアーキテクチャはエンコーダ(Encoder)デコーダ(Decoder)の2つの部分で構成され、それぞれ入力の理解と出力の生成を担当します。

5.1 エンコーダ(Encoder)

エンコーダは複数層(通常6〜12層)の同じ構造が積み重なって構成され、各層には2つのサブレイヤーが含まれます:

  1. マルチヘッド自己注意層:入力シーケンス内部の依存関係を捕捉
  2. フィードフォワードニューラルネットワーク(Feed Forward):各位置に対して独立に非線形変換を実行

各サブレイヤーの後には残差接続(Residual Connection)層正規化(Layer Normalization)があり、深層ネットワークの訓練安定性を確保します。

5.2 デコーダ(Decoder)

デコーダも複数層積み重なっていますが、各層には3つのサブレイヤーがあります:

  1. マスク付きマルチヘッド自己注意(Masked Multi-Head Attention):現在位置より前の単語しか見ることができず、「カンニング」を防止
  2. 交差注意(Cross-Attention):エンコーダとデコーダを接続し、デコーダが入力シーケンスに注目できるようにする
  3. フィードフォワードニューラルネットワーク:エンコーダと同じ
Encoder(编码器)
× N 层
Multi-Head Self-Attention
捕获输入序列内部依赖
Add & Norm
Feed Forward Network
位置独立的非线性变换
Add & Norm
输入
Token Embedding + Positional Encoding
Decoder(解码器)
输出
Linear + Softmax → 概率分布
× N 层
Masked Self-Attention
只看当前位置之前的词
Add & Norm
Cross-Attention
关注 Encoder 的输出
Add & Norm
Feed Forward Network
位置独立的非线性变换
Add & Norm
输出(移位)
Token Embedding + Positional Encoding

5.3 現代の派生型:エンコーダのみ vs デコーダのみ

オリジナルの Transformer はエンコーダとデコーダの両方を含みますが、現代の大規模モデルは通常どちらか一方のみを使用します:

アーキテクチャタイプ代表モデル適したタスク
エンコーダのみBERT、RoBERTaテキスト分類、固有表現認識、質問応答
デコーダのみGPT、LLaMA、Claudeテキスト生成、対話、コード補完
エンコーダ-デコーダT5、BART翻訳、要約、テキスト書き換え

GPT はなぜデコーダのみを使用するのか?

GPT シリーズのモデルは自己回帰生成方式を採用し、次の単語を1つずつ予測します。デコーダのみのアーキテクチャは本質的にこの生成タスクに適しており、構造がより簡潔で、数千億パラメータ規模への拡張が容易です。


六、位置エンコーディング:モデルに単語の順序を教える

Transformer の自己注意機構自体は位置に依存しないものです——文を単語の集合として扱い、単語の順序を気にしません。しかし語順は意味にとって極めて重要です:「私はあなたを愛している」と「あなたは私を愛している」はまったく意味が異なります!

6.1 位置エンコーディングの必要性

モデルに位置情報を感知させるため、Transformer は入力埋め込みに位置エンコーディング(Positional Encoding)を追加します。位置エンコーディングは単語埋め込みと同じ次元のベクトルで、単語埋め込みに直接加算されます。

问题:词序很重要
我爱你你爱我
解决:位置编码
Token Embedding + Positional Encoding
正弦余弦(Transformer 原始)
可学习(BERT、GPT)
旋转编码 RoPE(LLaMA)

6.2 正弦余弦位置エンコーディング

オリジナルの Transformer は固定の正弦余弦関数を使用して位置エンコーディングを生成します:

PE(pos, 2i) = sin(pos / 10000^(2i/d))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d))

この設計の利点:

  • 一意性:各位置に一意のエンコーディング
  • 相対位置:モデルが相対距離関係を学習可能
  • 外挿性:訓練時より長いシーケンスを処理可能

6.3 現代の位置エンコーディング方式

研究の深化に伴い、より多くの位置エンコーディング方式が登場しました:

学習可能な位置エンコーディング:BERT、GPT は位置エンコーディングを訓練可能なパラメータとして扱い、固定関数ではありません。

相対位置エンコーディング:T5、DeBERTa は絶対位置をエンコードせず、単語間の相対距離をエンコードします。

回転位置エンコーディング(RoPE):LLaMA、GPT-NeoX が使用する方式で、Q と K ベクトルを回転させて位置情報を注入し、外挿性能がより優れています。

ALiBi:Attention スコアにバイアス項を追加して位置認識を実現し、追加パラメータが不要です。


七、Transformer の影響と未来

Transformer の出現は、単に新しいアーキテクチャの誕生ではなく、AI 研究パラダイム全体の転換でした。

7.1 統一された事前学習パラダイム

Transformer は「事前学習 + ファインチューニング」を NLP の標準フローにしました。大量のラベルなしテキストで事前学習することで、モデルは言語の汎用的な表現を学び、少量のラベル付きデータだけで様々な下流タスクに適応できます。

7.2 クロスモーダルの汎用アーキテクチャ

Transformer の成功はテキストに限定されません。以下の分野に成功裏に応用されています:

  • コンピュータビジョン:Vision Transformer (ViT) が画像分類で CNN を超える
  • 音声認識:Whisper が Transformer を使用して多言語音声テキスト変換を実現
  • タンパク質構造予測:AlphaFold 2 が Transformer でタンパク質の3D構造を予測
  • 強化学習:Decision Transformer が RL 問題をシーケンスモデリングに変換

7.3 大規模モデル時代の基盤

GPT-3 の1750億パラメータから、GPT-4 の1兆パラメータまで、Transformer は驚異的な拡張性を示しています。その並列計算特性により、前例のない巨大モデルを訓練し、創発能力(Emergent Abilities)——モデルが十分に大きくなると、推論、コード、多言語などの能力を自動的に「悟る」現象を観察できるようになりました。

7.4 未来の課題と方向性

Transformer は大きな成功を収めましたが、依然として課題に直面しています:

計算複雑性:自己注意の複雑性は O(n²) で、長文テキスト処理時の計算量が膨大です。

長文テキストモデリング:理論上は任意の長さを処理できますが、実際には GPU メモリと計算リソースの制約を受けます。

説明可能性:Attention 重みは一定の説明可能性を提供しますが、深層ネットワークの意思決定プロセスは依然としてブラックボックスです。

現在の研究方向には以下が含まれます:

  • 効率的な Transformer:Linformer、Performer、Flash Attention などで複雑性を低減
  • 長文コンテキストモデリング:Sparse Attention、Sliding Window、Memory 機構
  • マルチモーダル融合:テキスト、画像、音声を統一的に処理するネイティブマルチモーダルアーキテクチャ

八、まとめ

Transformer と Attention 機構の提案は、深層学習が「手作業による特徴設計」から「エンドツーエンド学習」への徹底的な転換を示すものです。RNN の技術的ボトルネックを解決しただけでなく、より重要なのは、簡潔で汎用的、拡張可能なアーキテクチャを提供し、大規模モデル時代の基盤となったことです。

Transformer を理解することは、現代の AI の核心を理解することです。BERT の双方向エンコーディングから、GPT の自己回帰生成、そしてマルチモーダル大規模モデルの統一表現まで、これらすべての突破口は Transformer の肩の上に立っています。

未来、計算能力の向上とアルゴリズムの最適化に伴い、Transformer は進化を続け、AI をより強力で、より汎用的な方向へと推進していくでしょう。