統計用語 Q&A広場

統計専門家のための変分推論:理論、アルゴリズム、そして応用展望

Tags: 変分推論, ベイズ推論, 計算統計学, 確率的モデリング, 機械学習

統計モデリングにおいて、ベイズ推論はパラメータの不確実性を自然に表現できる強力な枠組みを提供します。しかしながら、特に潜在変数を含む複雑なモデルや大規模データに対して、事後分布を厳密に計算したり、事後期待値を解析的に求めたりすることは一般に困難です。このような状況において、計算上の課題を克服するための主要なアプローチとして、マルコフ連鎖モンテカルロ法(MCMC)と並んで変分推論 (Variational Inference, VI)が広く用いられています。本稿では、統計学を専門とされる読者の皆様に向けて、変分推論の理論的基盤、主要なアルゴリズム、MCMCとの比較、そして現代的な応用例や今後の展望について深く掘り下げて解説いたします。

変分推論の基本的な考え方:なぜ、どのように近似するのか

ベイズ推論における目標は、観測データ $x$ の下でのモデルの未知の変数(パラメータや潜在変数など)$z$ の事後分布 $p(z|x)$ を知ることです。この事後分布は $p(z|x) = p(x, z) / p(x)$ で定義されますが、分母である周辺尤度 $p(x) = \int p(x, z) dz$ の計算が多くのモデルで intractable(計算不能)であるため、事後分布そのものを直接扱うことが難しくなります。

変分推論のアプローチは、この複雑な真の事後分布 $p(z|x)$ を、より扱いやすいクラスに属する近似分布 $q(z)$ で近似することです。そして、その近似の「良さ」を測る尺度として、真の事後分布と近似分布の間の距離や乖離を用います。最も一般的に用いられる尺度は、カルバック・ライブラー (Kullback-Leibler, KL) ダイバージェンス $D_{\text{KL}}(q(z) \| p(z|x))$ です。

$$ D_{\text{KL}}(q(z) \| p(z|x)) = \mathbb{E}_q \left[ \log \frac{q(z)}{p(z|x)} \right] $$

変分推論の目的は、特定の近似分布族 $\mathcal{Q}$ の中で、この $D_{\text{KL}}(q(z) \| p(z|x))$ を最小化する $q^*(z)$ を見つけることです。KLダイバージェンスは非負であり、 $q(z) = p(z|x)$ のときにのみゼロとなります。したがって、KLダイバージェンスを最小化することは、近似分布を真の事後分布に可能な限り近づけることに相当します。

しかしながら、このKLダイバージェンスを計算するには、やはり真の事後分布 $p(z|x)$ が必要となってしまい、元の問題を直接解決することはできません。ここで重要な役割を果たすのが、エビデンス下限 (Evidence Lower Bound, ELBO) です。周辺尤度の対数 $\log p(x)$ は、以下のように分解できます。

$$ \log p(x) = D_{\text{KL}}(q(z) \| p(z|x)) + \mathbb{E}q [\log p(x, z)] - \mathbb{E}_q [\log q(z)] $$ $$ \log p(x) = D{\text{KL}}(q(z) \| p(z|x)) + \mathbb{E}_q [\log p(x, z)] + \mathbb{H}_q(z) $$

ここで、$\mathbb{H}q(z) = -\mathbb{E}_q[\log q(z)]$ は近似分布 $q(z)$ のエントロピーです。 この式を $D{\text{KL}}(q(z) \| p(z|x))$ について解くと、

$$ D_{\text{KL}}(q(z) \| p(z|x)) = \log p(x) - (\mathbb{E}q [\log p(x, z)] - \mathbb{E}_q [\log q(z)]) $$ $$ D{\text{KL}}(q(z) \| p(z|x)) = \log p(x) - \text{ELBO}(q) $$

となります。ここで $\text{ELBO}(q) = \mathbb{E}q [\log p(x, z)] - \mathbb{E}_q [\log q(z)]$ です。 周辺尤度 $\log p(x)$ は $q(z)$ に依存しない定数です。したがって、$D{\text{KL}}(q(z) \| p(z|x))$ を最小化することは、ELBO を最大化することと同等になります。ELBO は、同時分布の対数の期待値から近似分布の対数の期待値(またはエントロピーの符号反転)を引いた形をしており、$p(x)$ を計算することなく評価可能です。これが変分推論の理論的な核となります。ELBOは、Jensen's inequality により常に $\log p(x)$ の下限を与えることが示されます。

主要な変分推論アルゴリズム

変分推論の具体的なアルゴリズムは、選択する近似分布族 $\mathcal{Q}$ の形式と、ELBO を最大化するための最適化手法によって多様です。

1. 平均場近似 (Mean-Field Variational Inference)

最も一般的で基本的な形式です。潜在変数ベクトル $z = (z_1, \dots, z_M)$ に対して、近似分布が各要素の独立した積として分解できると仮定します。 $$ q(z) = \prod_{i=1}^M q_i(z_i) $$ この仮定の下でELBOを最大化することは、各因子 $q_i(z_i)$ を繰り返し最適化することによって行えます。各因子 $q_i(z_i)$ の最適な形は、他の全ての因子 $q_j(z_j) (j \neq i)$ を固定したときに、以下のような指数型分布族の形をとることが知られています。 $$ q_i^*(z_i) \propto \exp \left( \mathbb{E}{\prod{j \neq i} q_j(z_j)} [\log p(x, z)] \right) $$ この更新式を用いて、各因子 $q_i$ を収束するまで繰り返し更新する座標降下法的なアルゴリズムが構成されます。この手法は実装が比較的容易ですが、潜在変数間の依存性を無視するという強い仮定があるため、真の事後分布が複雑な依存構造を持つ場合には近似精度が限定されることがあります。

2. 変分ベイズEM (Variational Bayes EM, VBEM)

潜在変数モデルにおいて、モデルパラメータ $\theta$ と潜在変数 $z$ の同時事後分布 $p(\theta, z | x)$ を推定する場合に用いられます。これはEMアルゴリズムの変分版と見なせます。 VBEMアルゴリズムは以下の2ステップを繰り返します。

これらのステップを交互に行うことで、ELBOを局所的に最大化します。従来のEMアルゴリズムが点推定(最大尤度推定やMAP推定)を行うのに対し、VBEMはパラメータの分布を推定するため、よりベイズ的な不確実性 quantification が可能です。

3. 確率的変分推論 (Stochastic Variational Inference, SVI)

大規模なデータセットに対して変分推論を適用するための手法です。バッチ学習を用いる従来の変分推論は、ELBOの期待値項を計算するために全データセットを処理する必要があり、計算コストが高くなります。SVIは、ELBOの勾配を確率的勾配降下法 (Stochastic Gradient Descent, SGD) のようにミニバッチデータを用いて推定することで、この問題を解決します。

SVIの勾配推定にはいくつかの手法があります。

SVIにより、変分推論は大規模データ分析において実用的な手法となりました。

MCMCとの比較

変分推論とMCMCは、どちらもintractableな事後分布を扱うための計算手法ですが、そのアプローチと特性は大きく異なります。

| 特徴 | 変分推論 (VI) | MCMC | | :------------- | :----------------------------------------------- | :------------------------------------------------- | | アプローチ | 最適化問題として近似分布 $q(z)$ を見つける | 真の事後分布に従うサンプルを生成する | | 結果 | 事後分布の近似 $q(z)$ | 事後分布からの(漸近的な)サンプル群 | | 計算効率 | 速い (特に大規模データ、SVI使用時) | 遅い (収束判定、自己相関、Burn-inなど) | | 精度 | 仮定する近似分布族に依存。多峰性などに弱い場合あり | 十分なサンプル数と適切な設定で漸近的に正確 | | 収束判定 | ELBOの値の上昇を監視することで比較的容易 | 経験的、診断統計量に頼るため難しいことが多い | | 並列化 | 比較的容易 (特にSVI) | 一般的に難しい | | 実装 | 近似分布の形式やELBO勾配の導出が必要 | transition kernel の設計が必要 |

変分推論は、特に大規模データや、事後分布の正確な形状よりも高速な近似解が必要な場合に有利です。一方、MCMCは、より正確な事後分布の情報が必要な場合や、モデルが複雑で良い近似分布族が見つけにくい場合に適しています。最近では、両者の利点を組み合わせた手法(例:変分推論で得られた近似分布をMCMCの初期値やProposal分布に利用するなど)も研究されています。

応用例

変分推論は、様々な統計モデルや機械学習モデルの推論に広く応用されています。

教育上の説明のコツ

専門家向けの議論においては、以下のような点が教育上の説明として有効と考えられます。

課題と最新の研究動向

変分推論は広く用いられるようになりましたが、いくつかの課題も存在し、活発な研究が進められています。

まとめ

変分推論は、ベイズ推論における周辺尤度計算の困難さに対する実用的かつ効率的なアプローチを提供します。近似分布族の選択とELBOの最大化というフレームワークに基づき、平均場近似、VBEM、確率的変分推論といった様々なアルゴリズムが開発されてきました。特に確率的変分推論は、大規模データ時代において変分推論の適用範囲を大きく広げました。MCMCと比較して計算効率に優れる一方で、近似精度は仮定に依存するという特性を理解することが重要です。トピックモデルやVAEなど、多くの応用分野で成功を収めていますが、より高精度かつ広範なモデルに適用するための理論的・アルゴリズム的な研究が現在も活発に進められています。専門家の皆様におかれましても、変分推論は現代的な統計モデリングと計算において不可欠なツールとなっており、その深い理解と応用は、今後の研究や教育活動においてますます重要になると言えるでしょう。