統計用語 Q&A広場 - 統計専門家のための確率分布間の距離と類似性：理論的基盤、主要な測度、そして応用展望

統計専門家のための確率分布間の距離と類似性：理論的基盤、主要な測度、そして応用展望

Tags: 統計学, 機械学習, 確率分布, 情報理論, ワッサースタイン距離

はじめに

確率分布間の距離や類似性を定量化する概念は、現代統計学、機械学習、情報理論など様々な分野で中心的な役割を果たしています。例えば、モデルの出力分布と真の分布との乖離を測る、データ点間の類似性を分布の類似性として捉える、あるいは複雑な分布をより単純な分布で近似する際の評価基準とするなど、その応用範囲は多岐にわたります。

専門家の皆様におかれましても、ご自身の研究テーマ、例えば生成モデルの評価、クラスタリング手法の開発、ロバスト統計量の提案、あるいは情報理論的アプローチによる統計的推論などにおいて、これらの概念に深く関わられていることと存じます。本記事では、確率分布間の距離・類似性を測る主要な概念について、その理論的基盤、代表的な測度、そして応用上の注意点や最新の議論を専門的な視点から掘り下げて解説いたします。単なる定義に留まらず、それぞれの測度が持つ数学的な性質や、実際のデータ解析においてどのように活用されるのかに焦点を当てます。

確率分布間の距離・類似性を考える意義

なぜ私たちは確率分布間の「距離」や「類似性」を測る必要があるのでしょうか。統計学では、しばしば観測データが従う（未知の）確率分布について推論を行います。また、モデルを構築し、それがデータ生成過程をどの程度よく捉えているかを評価することも重要です。この評価や推論の過程で、異なる確率分布（例えば、推定されたモデル分布と経験分布、あるいは異なるモデルが示唆する分布など）を比較する必要が生じます。

この比較を行うための定量的な尺度として、分布間の距離や類似性の概念が導入されます。これらの尺度は、単に「異なる」というだけでなく、その「違いの大きさ」を数値化することを可能にします。これにより、モデル選択規準の構築、仮説検定統計量の構成、あるいは最適化問題の目的関数設定などが体系的に行えるようになります。

主要な確率分布間の測度

確率分布間の距離や類似性を測る方法は一つではなく、様々な測度が提案されています。それぞれが異なる数学的性質を持ち、応用においても得手不得手があります。ここでは代表的な測度をいくつか取り上げます。

カルバック・ライブラー情報量 (KL Divergence)

最も広く知られている測度の一つが、カルバック・ライブラー情報量（Kullback-Leibler Divergence, KL Divergence）、あるいは相対エントロピーです。2つの確率分布 $P$ と $Q$ （いずれも同じ台を持つと仮定します）に対して、KL Divergence は以下のように定義されます。

離散分布の場合: $D_{\text{KL}}(P || Q) = \sum_i P(i) \log \frac{P(i)}{Q(i)}$

連続分布の場合: $D_{\text{KL}}(P || Q) = \int p(x) \log \frac{p(x)}{q(x)} dx$

ここで、$p(x)$ および $q(x)$ はそれぞれ $P$ および $Q$ の確率密度関数（または確率質量関数）です。

KL Divergence は常に非負であり、$D_{\text{KL}}(P || Q) = 0$ となるのは $P=Q$ の場合に限られます。しかし、重要な注意点として、KL Divergence は距離の公理を満たしません。特に、非対称性、すなわち一般に $D_{\text{KL}}(P || Q) \neq D_{\text{KL}}(Q || P)$ である点が挙げられます。また、三角不等式も満たしません。

KL Divergence の解釈としては、情報理論的な観点から、「分布 $Q$ を用いて分布 $P$ を符号化する際に、分布 $P$ を用いる場合と比較して余分に必要な平均情報量」と考えることができます。統計学においては、尤度比検定や最尤推定、情報量規準（AIC, BICなど）の理論的背景に深く関わっています。特に、指数型分布族においては、KL Divergence が十分統計量と密接に関連することが知られています。

教育上の説明においては、情報利得や符号化効率といった情報理論的な側面から導入すると、単なる数式以上の深い理解を促すことができるかもしれません。また、非対称性の例として、一方の分布の裾が厚い場合の挙動の違いを示すことなども有効でしょう。

ジェンセン・シャノン情報量 (JS Divergence)

KL Divergence の非対称性を克服するために提案されたのが、ジェンセン・シャノン情報量（Jensen-Shannon Divergence, JS Divergence）です。これは、2つの分布 $P$ と $Q$ の混合分布 $M = \frac{1}{2}(P+Q)$ を用いて、以下のように定義されます。

$D_{\text{JS}}(P || Q) = \frac{1}{2} D_{\text{KL}}(P || M) + \frac{1}{2} D_{\text{KL}}(Q || M)$

JS Divergence は、KL Divergence と異なり対称性を持ち、さらにその平方根 $\sqrt{D_{\text{JS}}(P || Q)}$ は距離（メトリック）となります。これにより、より直感的な「距離」として分布間の隔たりを捉えることが可能です。値域は $[0, \log 2]$ であり、$D_{\text{JS}}(P || Q) = 0$ は $P=Q$ を意味します。

機械学習、特に生成モデル（例: GANs）の学習において、目的関数として利用されることがあります。対称性やメトリックとしての性質は、アルゴリズムの設計や収束性の議論において有用となる場合があります。

ワッサースタイン距離 (Wasserstein Distance)

KL Divergence や JS Divergence は、2つの分布が互いに絶対連続である、すなわち一方の分布の台が他方の分布の台に含まれるか、あるいは両者の台が同じである場合に有効です。しかし、もし2つの分布の台がDisjoint（互いに素）である場合、KL Divergence は無限大となってしまい、隔たりの程度を測る尺度として機能しません。このような場合に有効なのが、ワッサースタイン距離（Wasserstein Distance）、またはアースムーバー距離（Earth Mover's Distance, EMD）です。

ワッサースタイン距離は、一方の分布の「土」をもう一方の分布の形になるように「運び替える」ために必要な最小コストとして定義されます。具体的には、1次元の場合、$P$ と $Q$ の累積分布関数をそれぞれ $F_P$、$F_Q$ とすると、1次ワッサースタイン距離は以下のように定義できます。

$W_1(P, Q) = \int_{-\infty}^{\infty} |F_P(x) - F_Q(x)| dx$

より一般的に、$p \ge 1$ に対して、$p$次ワッサースタースタイン距離は以下のように定義されます。

$W_p(P, Q) = \left( \inf_{\gamma \in \Pi(P,Q)} \mathbb{E}_{(X,Y)\sim\gamma}[\|X-Y\|^p] \right)^{1/p}$

ここで、$\Pi(P,Q)$ は周辺分布がそれぞれ $P$ と $Q$ となるような結合分布全体の集合です。この定義は最適輸送理論と深く関連しており、カントロビッチ問題として定式化されます。

ワッサースタイン距離の大きな利点は、メトリックであること、そして台がDisjointな分布間でも有限の値を取り、その隔たりの程度を適切に反映できることです。また、分布間の「形状の違い」や「位置の違い」を捉えやすい性質を持ちます。特に高次元データや、サポートが重ならない場合にその有用性が発揮されます。

一方で、計算コストが高いことが課題となる場合があります。特に高次元空間での計算は難しく、実用上は近似手法が用いられることも多いです。しかし、近年は機械学習分野における応用（特にGANsのWGAN）などから、計算効率化の研究が進んでいます。

その他の測度

上記以外にも、確率分布間の類似性や距離を測る様々な測度が存在します。例えば、Lp距離（総変動距離、チェビシェフ距離など）は分布関数や密度関数の差のノルムとして定義されます。また、カーネル法を用いた最大平均不一致（Maximum Mean Discrepancy, MMD）なども、機械学習分野で広く用いられています。それぞれの測度は異なる感度を持ち、例えば裾の挙動や多峰性に対する反応が異なります。

測度の選択と解釈上の注意点

どの測度を用いるべきかは、その応用目的や分布の性質に依存します。

情報量的な観点や、指数型分布族との関連が重要な場合: KL DivergenceやJS Divergenceが適していることが多いでしょう。モデルのフィットを評価する際などに有用です。
分布の台が重ならない可能性がある場合や、形状・位置の違いを捉えたい場合: ワッサースタイン距離が強力な選択肢となります。生成モデルの評価などでその特性が活かされます。
ノンパラメトリックな設定や、特徴空間での類似性を捉えたい場合: MMDなどが有効な場合があります。

また、これらの測度は理想的な確率分布に対して定義されますが、実際のデータ解析で手元にあるのは有限個の標本です。標本に基づいて分布間の距離を推定する場合、推定量のバイアスや分散、漸近分布などを考慮する必要があります。特に、高次元データでは、標本数が十分でないと、これらの距離を正確に推定することが困難になることが知られています（curse of dimensionality）。ワッサースタイン距離は高次元での計算コストが高いという課題も抱えています。

さらに、これらの測度の値の「大きさ」をどう解釈するかは文脈に強く依存します。例えば、KL Divergence の値が 0.1 であることが「近い」のか「遠い」のかは、比較対象となる分布や具体的な応用によって異なります。絶対的な基準は存在しないため、比較対象となる他の分布との相対的な違いや、経験的な知見に基づいて判断する必要があります。

応用例

確率分布間の距離・類似性の概念は、以下のような多岐にわたる分野で活用されています。

統計的推論:
- 尤度比検定統計量やスコア検定統計量は、特定の分布間のKL Divergenceと関連付けられます。
- 情報量規準（AIC, BIC）は、モデルと真の分布間のKL Divergenceの推定値に基づいています。
- ロバスト統計学において、汚染された分布と理想的な分布の距離を最小化するという視点が用いられることがあります。
機械学習:
- 生成モデル（例: Variational Autoencoders (VAE), Generative Adversarial Networks (GAN)）の学習目標や評価指標として、KL Divergence (VAE) や JS/Wasserstein Divergence (GAN) が広く用いられています。
- クラスタリングや次元削減手法において、データ点間の類似性を確率分布の類似性として定義し、その距離を用いて agrupation を行うアプローチがあります。
- ドメイン適応（Domain Adaptation）において、ソースドメインとターゲットドメインのデータ分布間の距離を最小化することで、モデルの汎化性能を高める手法が研究されています。
情報理論:
- KL Divergence は、情報源の符号化効率やチャネル容量などの議論において基本的な役割を果たします。
時系列解析:
- 異なる時系列が生成する確率過程の間の「距離」を測ることで、時系列データの分類やクラスタリングを行う手法があります。
比較可能な多様体上の統計学:
- 指数型分布族全体は情報幾何学における多様体を形成し、KL Divergence はこの多様体上の特別な役割を果たします。

まとめ

確率分布間の距離や類似性を測る概念は、現代統計学と関連分野における多くの手法の根幹をなすものです。KL Divergence、JS Divergence、そしてワッサースタイン距離といった主要な測度は、それぞれ異なる数学的性質と得意とする応用領域を持っています。これらの測度の理論的基盤を深く理解し、それぞれの特性や計算上・解釈上の注意点を把握することは、ご自身の研究や教育において非常に有用であると考えられます。

本記事が、確率分布間の距離・類似性に関する議論を深め、新たな研究アイデアの創出や教育上のヒントに繋がることを願っております。この分野は現在も発展途上にあり、専門家の皆様による活発な議論や知見の共有が、今後の進歩を牽引していくことでしょう。