メインコンテンツへスキップ
AI News 60分で読める

AIの仕組み完全ガイド2026|LLM・画像生成の原理をゼロから図解

ChatGPTに「東京の天気を教えて」と入力し、Enterキーを押す。約2秒後、画面にテキストが流れ始める。

この2秒間に、何が起きているのか。

数千億個のパラメータが一斉に計算を開始する。入力テキストは「トークン」と呼ばれる数値の列に変換され、100層近いTransformerブロックを通過し、次に来るべき単語の確率分布が算出される。最も確率の高いトークンが1つ選ばれ、文字として画面に描画される。この処理が1秒間に数十回、繰り返される。

一方、Stable Diffusionに「夕焼けの東京タワー、サイバーパンク風」と入力すると、まったく異なる仕組みが動き出す。ランダムノイズの画像が生成され、そこからテキストの意味に沿って少しずつノイズが除去されていく。数十ステップの「ノイズ除去」を経て、入力テキストに対応する画像が浮かび上がる。

2022年11月のChatGPT公開から3年が経った。AIは「便利なツール」から「仕事のインフラ」へと変貌を遂げた。だが、その裏側で何が起きているかを正確に説明できる人は意外と少ない。

この記事では、AIの仕組みを根本原理から解き明かす。ニューラルネットワークの基礎、Transformerアーキテクチャ、大規模言語モデル(LLM)の訓練と推論、画像生成AIの拡散モデルまで。図解を交えながら「なぜAIはテキストを生成できるのか」「なぜ文章から画像を作れるのか」を、ゼロから徹底的に解説する。

この記事はこんな人におすすめ
  • AIを日常的に使っているが、裏側の仕組みを体系的に理解したいエンジニア・PM
  • Transformer・拡散モデルなどの技術用語を正確に説明できるようになりたい人
  • 技術トレンドを深く理解して、キャリアや事業判断に活かしたい人

AI開発70年の軌跡 — 夢と冬を繰り返した歴史

AIは2022年に突然現れたわけではない。その歴史は1950年代まで遡る。

1950年 — 原点。アラン・チューリングが論文「Computing Machinery and Intelligence」で「機械は思考できるか?」と問いかけた。同時に提案された「チューリングテスト」(機械が人間と区別できない会話をすれば知的とみなす)は、70年後の今も議論の基盤になっている。

1956年 — AIの命名。ダートマス会議でジョン・マッカーシーらが「Artificial Intelligence」という用語を正式に提唱。「10人の科学者が2ヶ月集まれば、知能のあらゆる側面を機械で再現できる」という壮大な(そして楽観的すぎた)宣言が、この分野の出発点になった。

1957年 — パーセプトロン。フランク・ローゼンブラットが、人間の神経細胞を模した最初の学習アルゴリズム「パーセプトロン」を発表。入力に重みを掛けて足し合わせ、閾値を超えたら発火する。この単純な仕組みが、現代のディープラーニングの遠い祖先だ。

だが、1969年にマービン・ミンスキーとシーモア・パパートが書籍『Perceptrons』で、パーセプトロンがXOR(排他的論理和)のような単純な問題すら解けないことを数学的に証明してしまう。この指摘はAI研究への資金を凍結させ、最初の**「AI冬の時代」**(1974年〜1980年頃)を引き起こした。

1980年代 — エキスパートシステムと復活。特定ドメインの知識をルールベースで記述する「エキスパートシステム」が産業界で注目を集めた。同時期の1986年、デイヴィッド・ルメルハート、ジェフリー・ヒントンらがバックプロパゲーション(誤差逆伝播法)の有効性をNature誌で広く示した。多層ニューラルネットワークの学習が現実的になり、パーセプトロンの限界を突破する道が開けた。

しかし、エキスパートシステムのブームは「知識を手作業で入力する」スケーラビリティの壁に直面し、1987年〜1993年に第2のAI冬が訪れる。

1997年 — Deep Blue。IBMのチェスAI「Deep Blue」が世界チャンピオンのガリー・カスパロフに勝利。大きなニュースになったが、Deep Blueの手法は力任せの探索(毎秒2億手を評価)であり、現在のAIとは技術的にまったく異なる。

2012年 — ディープラーニングの衝撃。画像認識コンテスト「ImageNet」で、トロント大学のアレックス・クリジェフスキーらの深層ニューラルネットワーク「AlexNet」が、従来手法を圧倒的に上回るスコアで優勝した。60Mパラメータ、GPU 2枚、6日間の訓練。この勝利が、ディープラーニング革命の導火線に火をつけた。

2014年 — GANの登場。イアン・グッドフェローが敵対的生成ネットワーク(GAN)を発表。「偽物を作るネットワーク」と「見破るネットワーク」を競わせることで、リアルな画像を生成する手法だ。画像生成AIの原点となった。

2017年 — 歴史の転換点。Googleの研究チーム(Google Brain・Google Research・トロント大学の共同)が論文「Attention Is All You Need」を発表。Transformerアーキテクチャの誕生だ。従来のRNN(再帰型ニューラルネットワーク)を自然言語処理の主流から置き換え、精度と効率を桁違いに向上させた。現在のChatGPT、Claude、Geminiは、すべてこのTransformerの子孫にあたる。

2018年〜2020年。GPT-1(1.17億パラメータ)、BERT、GPT-2(15億)、GPT-3(1,750億)と、わずか2年でパラメータ数が1,500倍に爆発。スケーリング則(「モデルを大きく、データを多くすれば性能は予測可能に向上する」)が実証され、大規模言語モデル開発競争が本格化した。

2022年 — 一般ユーザーへの解放。Stable Diffusion(8月)、ChatGPT(11月)が相次いで公開。AIが研究者のものから一般ユーザーの手元に届いた年だ。ChatGPTは公開5日で100万ユーザー、2ヶ月で1億ユーザーを突破した(Reuters等の報道による)。

2023年〜2026年。GPT-4(2023年)、Claude 3(2024年)、Llama 3(2024年)、Gemini 1.5/2.0(2024年)が相次いで登場。2025年にはGPT-5、Claude Opus 4、Gemini 3、Llama 4、Grok 4とフロンティアモデルが一斉に世代交代した。オープンソースとクローズドソースの競争が激化し、マルチモーダル(テキスト・画像・音声・動画の統合)が標準に。AIエージェント(ツールを使って自律的にタスクを遂行するAI)が実用化フェーズに入り、2026年現在も加速し続けている。

「AI冬の時代」が教えてくれること

AIの歴史は「期待→失望→冬→突破→期待」のサイクルを繰り返してきた。現在のAIブームも同じ轍を踏むのか? 答えはまだ出ていないが、過去の冬との決定的な違いがある。今回は実際に莫大な経済価値を生み出しているという点だ。2025年のAI関連市場規模はStatista等の推計で2,500億ドル規模に達し、投機ではなく実需がブームを支えている。

ニューラルネットワーク — すべてのAIの原点

現在のAI技術は、ほぼすべてがニューラルネットワークの上に成り立っている。まずはこの基礎を理解しよう。

パーセプトロン — AIの最小単位

パーセプトロンは、人間の神経細胞(ニューロン)を模した最もシンプルなモデルだ。仕組みは驚くほど単純で、次の3ステップしかない。

  1. 入力を受け取る — 複数の入力値 x₁, x₂, … xₙ がある
  2. 重み付き和を計算する — 各入力に重み w₁, w₂, … wₙ を掛けて合計する:z = w₁x₁ + w₂x₂ + … + wₙxₙ + b(bはバイアス)
  3. 活性化関数を通す — zが閾値を超えたら1を出力、超えなければ0を出力

たとえば「この画像は猫か犬か?」という二値分類問題なら、画像のピクセル値が入力、各ピクセルの「重要度」が重み、そして最終的な出力が「猫(1)」か「犬(0)」になる。

単体のパーセプトロンにできることは限られるが、ここで重みは学習によって自動調整されるという点が決定的に重要だ。人間がルールを書くのではなく、データから自動的に最適な判断基準を獲得する。これがニューラルネットワークの本質的な強みであり、ルールベースのエキスパートシステムとの根本的な違いだ。

多層ニューラルネットワーク — 深さが生む表現力

パーセプトロン1つでは直線でしか境界を引けない(線形分離)。だが、パーセプトロンを何層にも重ねると、非線形の複雑な境界を描けるようになる。

多層ニューラルネットワーク(Multi-Layer Perceptron, MLP)は3つの層で構成される。

  • 入力層 — データをそのまま受け取る
  • 隠れ層(1層以上) — 入力を変換し、特徴を抽出する
  • 出力層 — 最終的な予測を出力する

隠れ層が1層でもあれば、理論上はどんな連続関数でも近似できる(万能近似定理)。しかし実用上は、隠れ層を「深く」(多層に)するほうが効率的に複雑な特徴を学習できる。この「深い」ネットワークがディープラーニング(深層学習)の語源だ。

活性化関数 — 非線形性の鍵

もし各層の計算が単なる「重み付き和」(線形変換)だけなら、何層重ねても1層と変わらない。数学的に、線形変換を何回合成しても結果は線形変換だからだ。

ここで活性化関数が登場する。重み付き和の結果に非線形な変換を加えることで、ネットワーク全体が非線形な関数を表現できるようになる。代表的な活性化関数は以下の通り。

活性化関数特徴
Sigmoidσ(x) = 1/(1+e⁻ˣ)出力が0〜1に収まる。勾配消失問題が起きやすい
ReLUf(x) = max(0, x)計算が高速。現在のデファクトスタンダード
GELUx · Φ(x)ReLUの滑らかな変種。TransformerやGPTで採用
SiLU/Swishx · σ(x)Llamaなど最新モデルで使用

ReLUの登場(2010年代初頭)は、ディープラーニングの実用化における隠れた功労者だ。Sigmoid関数では深い層の勾配が消失(vanishing gradient)してしまい学習が進まなかったが、ReLUは正の入力に対して勾配が常に1であるため、深いネットワークでも安定して学習が進む。

バックプロパゲーション — AIが「学ぶ」仕組み

ニューラルネットワークの「学習」とは、重みとバイアスを最適な値に調整することだ。ではどうやって調整するのか。ここで登場するのがバックプロパゲーション(誤差逆伝播法)だ。

原理はシンプルだ。

  1. 順伝播(Forward Pass):入力データをネットワークに通し、予測値を得る
  2. 損失計算:予測値と正解(教師データ)の差を「損失関数」で数値化する
  3. 逆伝播(Backward Pass):損失関数の勾配(傾き)を、出力層から入力層に向かって連鎖律(Chain Rule)で逆算する
  4. 重み更新:勾配の方向に重みを少しだけ調整し、損失を減らす

この「連鎖律で勾配を逆向きに計算する」というアイデアが、バックプロパゲーションの核心だ。微分の連鎖律(合成関数の微分は、各関数の微分の積)を機械的に適用しているにすぎない。

重みの更新には勾配降下法(Gradient Descent)を用いる。「山の斜面を少しずつ下って谷底(最適解)を目指す」イメージだ。

現在の大規模モデルでは、全データではなくランダムに選んだ小さな塊(ミニバッチ)で勾配を計算する確率的勾配降下法(SGD)や、その改良版であるAdam(学習率を自動調整するオプティマイザ)が標準的に使われている。

直感的に理解するバックプロパゲーション

損失関数を「山の高さ」、重みを「現在地の座標」と考えよう。バックプロパゲーションは「今いる場所の傾きを測定する」行為であり、勾配降下法は「傾きの方向に一歩進む」行為だ。これを何千万回も繰り返すことで、ネットワークは「谷底」、つまり損失が最小になる重みの組み合わせにたどり着く。

過学習と正則化 — 賢くなりすぎる問題

ニューラルネットワークは訓練データに適応しすぎて、未知のデータに対する予測が悪化する過学習(Overfitting)を起こすことがある。訓練データを丸暗記して、本質的なパターンを学習できていない状態だ。

対策として以下の正則化手法が使われる。

  • Dropout — 学習中にランダムにニューロンを無効化し、特定のニューロンへの依存を防ぐ。Transformerでは標準的に使用
  • Weight Decay — 重みが大きくなりすぎないようにペナルティを与える
  • Layer Normalization — 各層の出力を正規化して学習を安定させる。Transformerの各ブロックに組み込まれている

ここまでが、すべてのAIの土台となるニューラルネットワークの基礎だ。次章では、この基礎の上に構築された現代AIの心臓部、Transformerアーキテクチャに踏み込む。

Transformer — 「Attention Is All You Need」が変えた世界

2017年、Googleの研究チームが発表した論文「Attention Is All You Need」(Vaswani et al.)は、AI史上最もインパクトのある論文の一つだ。この論文で提案されたTransformerアーキテクチャは、それまでの自然言語処理の常識を根本から覆した。

なぜTransformerが革命的だったのか

Transformer以前、自然言語処理の主役はRNN(再帰型ニューラルネットワーク)と、その改良版のLSTM(Long Short-Term Memory)だった。RNN/LSTMは単語を「左から右に」一つずつ順番に処理する。「The cat sat on the mat because it was tired」という文を処理する場合、“The”→“cat”→“sat”→…→“tired”と逐次的に計算する。

この逐次処理には2つの致命的な問題があった。

  1. 並列化できない — 前の単語の処理が終わらないと次の単語を処理できないため、GPUの並列計算能力を活かせない。長い文章の処理が極めて遅い
  2. 長距離依存の消失 — 文の前半と後半の関係(例:上の文で”it”が”cat”を指すこと)を、中間の単語をすべて通過しながら伝搬させる必要があり、距離が離れるほど情報が薄れる

Transformerはこの2つの問題を、自己注意機構(Self-Attention)という仕組みで一挙に解決した。

自己注意機構 — Transformerの核心

自己注意機構の基本的なアイデアは、「文中のすべての単語が、他のすべての単語との関連度を直接計算する」というものだ。RNNのように順番に処理するのではなく、一度にすべてのペアを見る。

具体的な手順を追おう。

ステップ1:Q, K, Vの生成

入力の各トークン(単語)のベクトル表現から、3つの異なるベクトルを生成する。

  • Query(Q):「私は何を探しているか?」を表すベクトル
  • Key(K):「私はどんな情報を持っているか?」を表すベクトル
  • Value(V):「実際に渡す情報の中身」を表すベクトル

各ベクトルは、入力ベクトルに学習可能な重み行列(Wq, Wk, Wv)を掛けて生成される。

ステップ2:注意スコアの計算

QueryとKeyの内積(ドット積)を計算する。これが「2つの単語がどれだけ関連しているか」のスコアになる。

たとえば “The cat sat on the mat because it was tired” で、“it” のQueryと “cat” のKeyの内積が大きければ、「“it”は”cat”に強く注意を向けている」ことを意味する。

内積をKeyの次元数の平方根√dₖで割る(スケーリング)。これは、次元数が大きいと内積の値も大きくなりすぎてSoftmaxが極端な値を出す問題を防ぐためだ。

ステップ3:Softmaxで正規化

スケーリング後のスコアにSoftmax関数を適用し、各トークンに対する「注意の重み」(0〜1の確率分布)を得る。合計は1になる。

ステップ4:重み付き和

注意の重みでValueベクトルを重み付き平均する。これが自己注意の出力だ。

数式で表すと、Attention(Q, K, V) = Softmax(QK^T / √dₖ) × V。

この一行に、Transformerの本質が凝縮されている。

自己注意機構の計算フロー:各トークンからQ, K, Vを生成し、注意スコアで重み付け

マルチヘッドアテンション — 複数の視点で見る

自己注意機構1つだけでは、「文法的な関係」「意味的な関係」「位置的な近さ」といった異なる観点を1つのスコアに詰め込むことになる。

Transformerでは、自己注意機構を複数並列に実行する(Multi-Head Attention)。各「ヘッド」が異なる種類の関係性を学習する。GPT-3では96ヘッド、GPT-4(推定)では128ヘッドが使われている。

各ヘッドの出力を連結し、さらに線形変換を通して最終出力を得る。これにより、1つの単語が複数の観点から文脈を参照できるようになる。

位置エンコーディング — 順序情報の注入

自己注意機構の弱点は、入力トークンの「順番」を知らないことだ。「猫が犬を追いかけた」と「犬が猫を追いかけた」の区別がつかない。

この問題を解決するのが位置エンコーディング(Positional Encoding)だ。元のTransformer論文では、異なる周波数のsin/cos関数の組み合わせで位置を表現した。

現在の主流はRoPE(Rotary Position Embedding)だ。回転行列を使ってトークンの位置を埋め込む方法で、相対位置の距離をベクトルの内積に自然に反映できる。Llama、Mistral、GPT-NeoX系など多くの最新モデルが採用している。RoPEは長いコンテキストへの拡張性にも優れており、100万トークン以上のコンテキストウィンドウを実現する技術的基盤になっている。

Feed-Forward Network — 知識の貯蔵庫

各Transformerブロックには、自己注意層の後にFeed-Forward Network(FFN、順伝播ネットワーク)がある。各トークン位置ごとに独立して適用される2層の全結合ニューラルネットワークだ。

FFN(x) = W₂ · GELU(W₁ · x + b₁) + b₂

Transformerの「知識」の大部分は、このFFNの重みに格納されていると考えられている。自己注意層が「どの情報を参照するか」を決定し、FFNが「参照した情報をどう変換するか」を担当する。

近年の研究(Anthropicの「Scaling Monosemanticity」研究など)では、スパースオートエンコーダーによる解析で、モデル内部に概念に対応する解釈可能な特徴(features)が存在することが発見されている。

Layer NormalizationとResidual Connection

深いネットワークの学習を安定させる2つの技術が、Transformerの各ブロックに組み込まれている。

Residual Connection(残差接続):入力をそのまま出力に加算する。y = f(x) + x。これにより、勾配が層を飛び越えて直接流れるバイパスが確保され、100層を超える深いネットワークでも安定して学習できる。

Layer Normalization:各層の出力を平均0、分散1に正規化する。学習を安定させ、収束を高速化する。元のTransformerは「Post-Norm」(Attention→Add→Norm)だったが、現在のLLMのほとんどは「Pre-Norm」(Norm→Attention→Add)を採用している。Pre-Normのほうが学習が安定するためだ。

Encoder-DecoderからDecoder-Onlyへ

元のTransformer論文はEncoder-Decoder構造を提案した。Encoderが入力文全体を双方向に処理し、Decoderがその情報を受け取って出力を左から右に生成する。機械翻訳のような「入力→出力」タスクに最適な構造だ。

しかし現在のLLM(GPT系、Claude、Llama)は、ほぼすべてDecoder-Only構造を採用している。Encoder部分を省略し、Decoderだけで入力の処理と出力の生成を一貫して行う。入力テキスト全体を「プレフィックス」として扱い、その続きを生成する形だ。

Decoder-Onlyが主流になった理由は、シンプルさとスケーラビリティにある。Encoder-Decoderは「入力」と「出力」を明示的に分ける必要があるが、Decoder-Onlyは「テキストの続きを予測する」という1つのタスクに統一できる。この統一性が、大規模化を容易にした。

Transformerの主要構成要素:自己注意 → FFN → 残差接続の繰り返しが基本単位
なぜ「Attention Is All You Need」なのか

論文のタイトルが示す通り、Transformerの核心は「Attentionだけで十分」という主張だ。RNNもCNNも不要。入力の全ペアの関連度を直接計算する自己注意機構と、位置エンコーディングと、FFN。この3つの組み合わせだけで、当時の最先端を上回る性能を達成した。このアーキテクチャのシンプルさこそが、後のスケーリング(巨大化)を可能にした最大の要因だ。

3大AIモデルの実力を比較したい方はこちら

GPT-4o、Claude、Gemini 3。用途別の強み・弱みと料金を徹底比較

比較記事を読む

大規模言語モデル(LLM) — ChatGPTはこう動いている

Transformerのアーキテクチャを理解したところで、それがどのように「ChatGPT」や「Claude」になるのかを見ていこう。

トークナイゼーション — テキストを数値に変換する

ニューラルネットワークは数値しか扱えない。テキストを入力する最初のステップは、文章を数値の列に変換するトークナイゼーションだ。

現在のLLMの大半はBPE(Byte Pair Encoding)を使っている。手順は以下の通り。

  1. テキストをUnicodeバイト列に分解する
  2. 最も頻繁に隣接するバイトペアを見つけ、新しいトークンとして辞書に追加する
  3. これを語彙数が目標に達するまで繰り返す

結果として、よく使われる単語(“the”, “is”)は1トークンになり、珍しい単語は複数トークンに分割される。日本語は1文字が2〜3トークンになることが多い。

たとえば、GPT-4のトークナイザ(cl100k_base)では「東京の天気を教えて」は約8トークンに分割される。英語の “Tell me the weather in Tokyo” は6トークンだ。この差が、日本語処理のコストが英語より高くなる一因になっている。

主要モデルの語彙サイズは、GPT-4が約100,000トークン、Llama 3が約128,000トークン、Claudeが約65,000トークン。各トークンは、数百〜数千次元のベクトル(埋め込みベクトル)に変換されてTransformerに入力される。

事前学習 — 膨大なテキストから「世界モデル」を構築する

LLMの学習は大きく3段階に分かれる。最初の段階が事前学習(Pre-training)だ。

事前学習のタスクは極めてシンプル:次のトークンを予測する

「The cat sat on the」というテキストが与えられたら、次のトークン「mat」を予測する。これをインターネット上の膨大なテキスト(書籍、ウェブページ、論文、コードなど)に対して繰り返す。

GPT-3は約3,000億トークン、Llama 3.1は15兆トークン以上のテキストで訓練された。この「次のトークンを予測する」という単純なタスクを兆単位のデータで繰り返すことで、モデルは文法、事実知識、論理的推論、さらにはプログラミング能力まで獲得する。

事前学習の計算コストは天文学的だ。Metaの技術レポートによると、Llama 3.1 405Bの学習には16,000台以上のNVIDIA H100 GPUで数ヶ月を要した。フロンティアモデル(GPT-4、Claude Opus 4.6など)の訓練コストは、業界アナリストの推定で1億ドル以上とされる。

ファインチューニング(SFT) — 「賢い補完エンジン」を「アシスタント」に変える

事前学習だけのモデルは、テキストの「続き」を生成することしかできない。「東京の天気は?」と入力しても、「東京の天気は?大阪の天気は?名古屋の天気は?」と質問を続けてしまうかもしれない。知識はあるが、対話の仕方を知らない状態だ。

SFT(Supervised Fine-Tuning, 教師ありファインチューニング)は、人間が作成した「質問→回答」のペアデータでモデルを追加学習させ、対話形式の応答を学ばせる。OpenAIはこの段階で、数万〜数十万件の高品質な対話データを使用したと報告している。

SFTにより、モデルは「テキスト補完器」から「指示に従って回答するアシスタント」に変わる。

RLHF — 人間の好みに合わせる

SFT済みのモデルは指示に従えるが、回答の品質にはバラツキがある。ここでRLHF(Reinforcement Learning from Human Feedback、人間のフィードバックからの強化学習)が登場する。

RLHFのプロセスは2段階だ。

Step 1: 報酬モデルの訓練

同じ質問に対してモデルが生成した複数の回答を、人間の評価者がランク付けする。「回答Aは回答Bより良い」というペアワイズ比較データを大量に集め、このデータで「回答の品質を予測するモデル」(報酬モデル)を訓練する。

Step 2: 強化学習(PPO)

報酬モデルのスコアを報酬として、LLM本体を強化学習で最適化する。具体的にはPPO(Proximal Policy Optimization)アルゴリズムを使い、高い報酬を得る回答を生成するよう重みを調整する。同時に、SFT済みモデルから大きく逸脱しないようKLダイバージェンスで制約をかける。

RLHFにより、モデルは「正確で、有用で、安全な」回答を優先的に生成するようになる。ChatGPTの「質問に丁寧に答える」能力は、このRLHFによって磨かれたものだ。

DPO — RLHF のシンプルな代替手段

2023年に提案されたDPO(Direct Preference Optimization)は、RLHFの報酬モデル+PPOという2段階プロセスを、1段階に簡略化する手法だ。

人間のペアワイズ比較データから、報酬モデルを介さずLLMの重みを直接最適化する。数学的にはRLHFの最適解と等価でありながら、実装がシンプルでハイパーパラメータ調整の手間も少ない。Llama 3やいくつかのオープンソースモデルの学習で採用されている。

事前学習で知識を獲得し、SFTで対話を学び、RLHF/DPOで品質を磨く3段階プロセス

推論 — LLMはどう「考えて」テキストを生成するか

訓練済みのLLMが実際にテキストを生成する「推論」(Inference)プロセスを見てみよう。

LLMの推論は自己回帰(Autoregressive)方式だ。1トークンずつ、左から右に生成する。

  1. 入力テキスト(プロンプト)をトークン化してモデルに入力
  2. モデルが「次のトークン」の確率分布を出力
  3. 確率分布からトークンを1つ選択(サンプリング)
  4. 選択されたトークンを入力に追加し、2に戻る
  5. 終了トークンが出力されるか、最大長に達するまで繰り返す

ステップ3のサンプリングには、いくつかの制御パラメータがある。

Temperature(温度):確率分布の「シャープさ」を制御する。温度0に近いほど最も確率の高いトークンが選ばれやすく(決定的)、温度が高いほどランダム性が増す(創造的)。

Top-p(Nucleus Sampling):累積確率がpに達するまでの上位トークンのみをサンプリング候補にする。Top-p = 0.9なら、確率の上位90%に入るトークンだけが候補になる。

KVキャッシュ:推論の高速化技術。自己注意の計算で、既に計算済みのKey/Valueベクトルをキャッシュして再利用する。これがないと、トークンを1つ生成するたびに全トークンの注意計算をやり直すことになる。KVキャッシュにより推論速度は劇的に向上するが、メモリ消費が増大するトレードオフがある。

スケーリング則 — 大きいほど賢くなる法則

2020年にOpenAIが発表したスケーリング則(Scaling Laws)は、LLM開発の方向性を決定づけた。

核心は「モデルの性能は、パラメータ数・データ量・計算量のべき乗に従って予測可能に向上する」というものだ。対数スケールで直線的に性能が改善され続ける。

2022年のDeepMindの研究「Chinchilla」はさらに重要な知見を加えた:計算予算が決まっている場合、モデルサイズとデータ量を1:20の比率で配分するのが最適。つまり、100億パラメータのモデルなら2,000億トークンのデータが必要だ。

この「Chinchilla最適」の発見により、「やみくもにモデルを大きくする」から「データ量とのバランスを取る」へとLLM開発の哲学が転換した。ただし現在の実践では、推論コスト削減のため、Chinchilla比率を大幅に超える「オーバートレーニング」が主流だ。Llama 3 70Bはパラメータあたり約200トークン以上(Chinchilla最適の10倍)のデータで訓練されている。

コンテキストウィンドウ — 「記憶」の限界と拡張

LLMが一度に処理できるトークン数の上限がコンテキストウィンドウだ。GPT-3は2,048トークン、GPT-4は128Kトークン、Claude Opus 4.6は200Kトークン、Gemini 3は100万トークンと、急速に拡大している。

Claude Opus 4.6は200Kがデフォルトだが、APIではベータ機能として1Mトークンにも対応している。コンテキストウィンドウの拡張を支えた技術がRoPE(前述)と、そのスケーリング手法(YaRN, Dynamic NTK-awareなど)だ。これにより、訓練時より長いコンテキストにも対応できるようになった。

創発的能力 — 予想外の「賢さ」

モデルが十分に大きくなると、明示的に訓練していない能力が突然現れる現象がある。これを創発的能力(Emergent Abilities)と呼ぶ。

代表的な例がIn-Context Learning(文脈内学習)だ。プロンプト内に数個の例を示すだけで、訓練なしに新しいタスクを学習する。GPT-3で初めて実証された。

Chain-of-Thought(思考の連鎖)推論も創発的能力の一つだ。「Let’s think step by step」とプロンプトに加えるだけで、複雑な推論を段階的に行えるようになる。Wei et al.(2022)の研究によると、この能力は約1,000億パラメータ以上のモデルで顕著に現れるとされている。Gemini 3 Deep Thinkのような推論特化モデルは、このCoT能力をさらに強化している。

ただし、2024年の研究では「創発的能力は本当に突然現れるのか、それとも測定方法の問題か」という議論も起きている。スケーリングの本質を理解するための研究は現在も続いている。

モデルパラメータ数コンテキスト訓練データ公開年
GPT-31,750億2K300Bトークン2020
GPT-4推定1.8兆(MoE)128K推定13T+2023
GPT-5.2非公開非公開非公開2025
Claude Opus 4.6非公開200K非公開2026
Gemini 3.1 Pro非公開1M非公開2026
Llama 4 Scout約1,090億(MoE, 17B active)10M非公開2025
Llama 4 Maverick約4,000億(MoE, 17B active)1M非公開2025
DeepSeek V3.26,710億(MoE, 37B active)128KV3ベース: 14.8T2024/2025

画像生成AI — テキストから画像を生み出す魔法の正体

テキストを生成するLLMの仕組みを理解したところで、もう一つの革命、画像生成AIの原理を解き明かそう。

拡散モデルの発想 — 「壊して、直す」

現在の画像生成AI(Stable Diffusion、DALL-E 3、Midjourney)の中核技術は拡散モデル(Diffusion Model)だ。2020年にHo et al.が発表した論文「Denoising Diffusion Probabilistic Models」(DDPM)がブレイクスルーとなった。

拡散モデルのアイデアは、物理現象から着想を得ている。インクの一滴を水に落とすと、徐々に拡散して均一になる。この過程は物理的に不可逆だが、数学的には逆転できる

拡散モデルは2つのプロセスで構成される。

順拡散過程(Forward Process):きれいな画像にガウスノイズを少しずつ加えていく。1,000ステップほどのノイズ追加を経て、画像は完全なランダムノイズ(ガウス分布)に変わる。このプロセスは数学的に定義されており、学習は不要だ。

逆拡散過程(Reverse Process):ノイズだらけの画像から、少しずつノイズを除去して元の画像を復元する。このノイズ除去のプロセスをニューラルネットワークで学習するのが拡散モデルの核心だ。

直感的に言えば、「画像を壊す方法は簡単に定義できる。その逆、つまり壊れた画像を直す方法を学習させよう」というアプローチだ。

左から右へノイズを加え(順拡散)、右から左へノイズを除去する(逆拡散)プロセス

ノイズ除去ネットワーク — U-NetからDiTへ

逆拡散過程でノイズを除去するニューラルネットワークには、当初U-Netが使われていた。U-Netは画像のダウンサンプリング(圧縮)とアップサンプリング(復元)をU字型に接続したアーキテクチャで、各解像度レベルをスキップ接続で直結する。医療画像セグメンテーション用に開発されたものだが、ノイズ予測タスクにも非常に有効だった。

2023年以降、U-NetをDiT(Diffusion Transformer)に置き換える流れが加速している。ノイズ除去にTransformerの自己注意機構を使う方式だ。DALL-E 3、Stable Diffusion 3、Flux、Soraなど主要な最新モデルの多くがDiTベースを採用している。

LLMと同様に、Transformerベースにすることでスケーリング則の恩恵を受けられる。モデルを大きくすれば予測可能に性能が向上する。

CLIPとテキスト条件付け — 「言葉」と「画像」を繋ぐ

テキストから画像を生成するには、テキストの意味を画像生成プロセスに反映させる仕組みが必要だ。ここで重要な役割を果たすのがCLIP(Contrastive Language-Image Pre-training)だ。

CLIPはOpenAIが2021年に発表したモデルで、4億組の(画像, テキスト)ペアで訓練されている。画像エンコーダとテキストエンコーダの2つで構成され、対応する画像とテキストのペアが同じベクトル空間上で近くなるよう対照学習(Contrastive Learning)で訓練される。

Stable Diffusion では、プロンプトをCLIPのテキストエンコーダに通してベクトルに変換し、これをU-Net/DiTのクロスアテンション層に注入する。ノイズ除去の各ステップで「テキストの意味に沿った方向」にノイズを除去するよう誘導するわけだ。

DALL-E 3では、学習データのキャプションをLLMで高品質に書き直す「リキャプショニング」を行い、テキスト→画像の対応精度を大幅に向上させた。なおGoogleのImagenはテキストエンコーダにT5-XXLを採用しており、CLIPとは異なるアプローチでテキスト理解の精度を高めている。

Classifier-Free Guidance — 条件に忠実な画像を生成する

プロンプトへの忠実度を制御する技術がClassifier-Free Guidance(CFG)だ。

学習時に、テキスト条件をランダムに空にする(10〜20%の確率)。推論時には「テキスト条件あり」と「条件なし」の2つの予測を行い、以下の式で合成する。

ε = ε_uncond + w × (ε_cond - ε_uncond)

wがガイダンススケールで、値が大きいほどプロンプトに忠実な(ただし多様性が低下する)画像が生成される。Stable Diffusionのデフォルトは7.5、Midjourneyは独自のスケールを使用している。

Stable Diffusionのアーキテクチャ

Stability AIが2022年に公開したStable Diffusionは、拡散モデルを一般ユーザーに開放した記念碑的なモデルだ。3つの主要コンポーネントで構成される。

  1. VAE(Variational Autoencoder):画像を低次元の「潜在空間」に圧縮する。512×512の画像を64×64の潜在表現に圧縮し、この潜在空間でノイズ除去を行う。画像空間で直接処理するより計算効率が桁違いに高い(Latent Diffusionと呼ばれる)
  2. U-Net / DiT:潜在空間でノイズ除去を行うメインのニューラルネットワーク
  3. CLIPテキストエンコーダ:プロンプトをベクトルに変換し、U-Netのクロスアテンション層に注入

Stable Diffusion 1.5(2022年)はU-Netベースの約860Mパラメータ、SDXL(2023年)は約3.5Bパラメータ、SD3(2024年)はDiTベースの2B〜8Bパラメータへと進化している。

ControlNet、LoRA — 生成を制御する技術

拡散モデルの実用化を加速させた2つの技術がある。

ControlNet(Zhang et al., 2023)は、エッジ検出画像、深度マップ、ポーズ推定結果などの「空間的な条件」を拡散モデルに追加入力する技術だ。「この構図で、このポーズで」という細かい制御が可能になった。U-Netの各層にゼロ初期化されたコピーを追加するアプローチで、既存モデルの重みを壊さずに条件付き生成を学習できる。

LoRA(Low-Rank Adaptation)は、大規模モデルの重みを効率的にファインチューニングする手法だ。元の重み行列を凍結し、低ランクの行列ペア(A×B)だけを学習する。フルファインチューニングの1/1000以下のパラメータ数で、特定のスタイルやキャラクターを学習できる。画像生成AIのカスタマイズで爆発的に普及し、Civitaiなどのプラットフォームには数十万のLoRAが共有されている。

動画生成への拡張

拡散モデルは動画生成にも拡張されている。OpenAIのSora(2024年発表)は、時間軸を追加した3D DiTで動画を生成する(発表時のデモでは60秒、一般公開版は最長20秒)。Runway Gen-3、Google Veo 2、Pika 2.0なども同様のアプローチを採用しているが、一貫した長時間動画の生成はまだ発展途上だ。

動画生成の技術的課題は「時間的一貫性」(フレーム間でキャラクターや物体が突然変化しないようにすること)であり、Temporal Attention(時間方向の注意機構)やフレーム間の潜在表現の補間など、活発な研究が続いている。

2026年のAI最前線 — 群雄割拠の時代

ここまで原理を解説してきた技術が、2026年現在どのような形で実装されているかを俯瞰しよう。

主要プレイヤーと最新モデル

企業主力モデル(2026年2月時点)特徴
OpenAIGPT-5.2 / GPT-5.2-Codex, o3 / o4-miniマルチモーダル統合、画像生成内蔵、エージェント型コーディング
AnthropicClaude Opus 4.6, Sonnet 4.6, Haiku 4.5安全性重視、200Kコンテキスト、コーディング・長文理解に強み
GoogleGemini 3.1 Pro, Gemini 3 Flash / Deep Think1Mトークンコンテキスト、検索統合、高速推論
MetaLlama 4 Scout / Maverickオープンウェイト(Llama 4 Community License)、MoE、ネイティブマルチモーダル
xAIGrok 4.1, Grok 4.1 Fast2Mトークンコンテキスト、リアルタイムX連携
DeepSeekDeepSeek V3.2 / V3.2-Speciale, R1高性能×低コスト、MoE、数学・コード特化
MistralMistral Large 3, Ministral 3 (14B/8B/3B)欧州発、Apache 2.0、エッジ対応

「最強のモデル」は存在しない。主要ベンチマークの傾向として、コーディングではClaude Opus 4.6とGPT-5.2-Codex、マルチモーダルではGPT-5.2とGemini 3.1 Pro、長文処理ではGemini 3.1 Proが高いスコアを示しており、タスクに応じて使い分けるのが2026年の常識だ。各モデルの詳しい比較はGemini・ChatGPT・Claude徹底比較記事で解説している。各社のビジネスモデルの違いについてはAnthropic vs OpenAI比較記事も参考にしてほしい。

マルチモーダルAI — テキストを超えた統合

2024年を境に、AIは「テキスト専門」から「何でも扱える」方向に急速にシフトした。GPT-5.2は画像・音声・テキストを統一的に処理し、Llama 4 Scout/MaverickやGemini 3.1 Proもネイティブにマルチモーダル対応している。

2026年現在、主要モデルのほぼすべてが以下の能力を持つ。

  • テキスト → テキスト(従来のチャット)
  • 画像 → テキスト(画像認識・OCR・図表解析)
  • テキスト → 画像(画像生成)
  • 音声 ↔ テキスト(音声認識・音声合成)
  • テキスト → コード(プログラム生成・実行)

特にGPT-4o以降の「ネイティブ画像生成」(外部の画像生成モデルを使わず、LLM自体が画像ピクセルを出力する)は、テキストと画像の境界を曖昧にした象徴的な進化だ。GPT-5.2ではこの能力がさらに洗練されている。

AIエージェント — 自律的に動くAI

2025年〜2026年に最も注目を集めているのがAIエージェントだ。チャットで質問に答えるだけでなく、ツールを使い、外部サービスと連携し、複数ステップのタスクを自律的に遂行する。

Anthropicが推進するMCP(Model Context Protocol)は、AIエージェントが外部ツール(ファイルシステム、API、データベース)にアクセスするためのオープン標準だ。Claude CodeのようなAIコーディングエージェントは、MCPを通じてターミナル操作、ファイル編集、Git操作を自律的に行える。AIエージェントのビジネス活用についてはAI自動化ガイドで詳しく解説している。

OpenAIのOperator、GoogleのProject Astra、MicrosoftのCopilot Agentsなど、各社がエージェント技術に巨額の投資を行っている。「AIに指示すれば勝手にやってくれる」世界が、徐々に現実になりつつある。AIコーディングエージェントの具体的な使い方はClaude Code完全ガイドも参照してほしい。

オープンソース vs クローズドソース

LLMの世界では、オープンソース(正確にはオープンウェイト)とクローズドソースの競争が激化している。

MetaのLlama 4 Scout/Maverickは、独自のLlama 4 Community Licenseで公開されたオープンウェイトモデルとしてGPT-4oを上回るベンチマークスコアを示した。DeepSeekのV3(2024年12月初版公開、2025年にV3.2へ進化)は、クローズドモデルに匹敵する性能を低コストで実現。Mistral Large 3(675Bパラメータ、MoE)はApache 2.0で公開され、オープンモデルのフロンティアを押し上げている。

一方、OpenAIやAnthropicは安全性を理由にモデルの重みを公開していない。重みが公開されれば安全ガードレールを外すことが容易になり、悪用リスクが高まるという立場だ。

この議論に明確な結論は出ていないが、実用面ではオープンモデルの台頭により「AIの民主化」が着実に進んでいる。個人開発者でも、量子化とLoRAファインチューニングを組み合わせれば、自分専用のLLMをローカルで動かせる時代だ。

AIの未来 — 2030年への展望

AGI(汎用人工知能)への道

現在のAIはANI(Artificial Narrow Intelligence、特化型人工知能)だ。特定のタスクでは人間を凌駕するが、汎用的な知能には達していない。

だが、GPT-5.2やClaude Opus 4.6、Gemini 3.1 Proの能力は「どこまでがNarrowでどこからがGeneralか」という境界を曖昧にしている。高度な推論、コード生成、創造的な文章作成、数学の証明。これらを1つのモデルが同時にこなす姿は、5年前には想像できなかった。

AGI(Artificial General Intelligence、人間と同等かそれ以上の汎用知能)の実現時期について、業界の見解は割れている。OpenAIのサム・アルトマンは「現政権の任期中にAGIが実現する可能性がある」と示唆し、Anthropicのダリオ・アモデイは「2026〜2027年にはAIが多くの認知タスクで人間を超える」と予測した。一方、ヤン・ルカン(Meta)は現在のアプローチでは根本的な限界があると指摘している。

安全性とアライメント

AIの能力が向上するにつれ、アライメント(AIの目標を人間の価値観と一致させること)の重要性が増している。

AnthropicはConstitutional AI(憲法AI)を開発。AIに「倫理原則」のリストを与え、自己批判と自己修正を通じて安全な応答を学習させるアプローチだ。

OpenAIはSuperalignmentチームを2023年に設立したが、2024年5月にイリヤ・サツキバーとヤン・ライケの離脱に伴い解散。その後、安全性研究は組織を再編して継続されている。

技術的なアプローチとして、機械的解釈可能性(Mechanistic Interpretability、ニューラルネットワークの内部で何が起きているかを理解する研究)が注目を集めている。Anthropicの2024年「Scaling Monosemanticity」研究では、スパースオートエンコーダーを用いた解析により、Claudeの内部に「嘘をつく」概念や「安全性」の概念に対応する解釈可能な特徴(features)が発見された。ブラックボックスの中身が少しずつ見えてきている。

社会への影響

AIの急速な進化は、社会構造に根本的な変化をもたらしつつある。

労働市場:McKinsey Global Instituteの2023年レポートでは、2030年までに現在の労働時間の約30%がAIにより自動化される可能性があると予測されている。ただし、これは「仕事がなくなる」のではなく「仕事の内容が変わる」ことを意味する。AIツールを使いこなすスキルが、あらゆる職種で求められるようになる。

教育:プログラミング教育は「コードを書く」から「AIに適切な指示を出す」へと重心がシフトしている。バイブコーディングのような新しい開発手法が登場し、非エンジニアでもアプリケーションを構築できるようになった。

エネルギー:大規模AIの訓練と推論には膨大な電力が必要だ。IEAの推計では、データセンター・AI・暗号通貨を合わせた電力消費は2022年時点で世界全体の約2%を占め、2026年までに倍増する見込みだ。各社はデータセンターの再生可能エネルギー比率向上に取り組んでいるが、AI需要の伸びがそれを上回るペースで増加している。


70年の研究の蓄積が、「次のトークンを予測する」というシンプルな原理に収束し、人類が手にしたことのない道具を生み出した。Transformerの自己注意機構、拡散モデルのノイズ除去、スケーリング則の発見。これらのブレイクスルーが組み合わさり、AIは「研究対象」から「日常インフラ」へと変貌を遂げた。

重要なのは、現在のAIの限界を正確に理解することだ。LLMはハルシネーション(幻覚)を起こし、画像生成AIは物理法則を無視する。「なぜ動くか」と同時に「なぜ間違えるか」を理解して初めて、このツールを真に活用できる。

AIの仕組みを知ることは、未来を読む力になる。次のブレイクスルーがどの方向から来るのか。自分のキャリアにどう影響するのか。この記事がその判断材料の一つになれば幸いだ。

AIの仕組みを理解した次のステップ

フリーランスエンジニアが今すぐ使えるAIツール10選。実務で本当に役立つものだけを厳選

AIツール10選を読む
情報の正確性について

この記事の情報は2026年2月時点のものだ。AI分野は技術進化が極めて速いため、モデルのスペック、サービス内容、料金体系は変更されている可能性がある。最新の情報は各社の公式サイトで確認してほしい。

※ 本記事に記載の製品名・サービス名は各社の商標または登録商標です。

Share