統計用語 Q&A広場

統計専門家のための経験尤度:ノンパラメトリック推論の枠組みと応用展望

Tags: 経験尤度, ノンパラメトリック統計, 統計的推論, 尤度法, 推定方程式

経験尤度とは何か:導入と統計的推論における位置づけ

統計学における尤度関数は、観測データが与えられた際に、特定の確率モデルとパラメータの値がどの程度妥当であるかを示す重要な概念です。パラメトリックモデルにおいては、仮定された分布関数に基づいて尤度関数が定義され、最尤推定や尤度比検定といった強力な推論手法が導かれます。しかし、実際のデータ分析において、厳密なパラメトリック分布仮定が妥当でない場合や、仮定の検証が困難な場合があります。このような状況下で、分布仮定を緩和しつつ、古典的な尤度法の強力な推論特性を享受しようとするアプローチの一つが「経験尤度 (Empirical Likelihood, EL)」です。

経験尤度は、データ自身の経験分布に基づいて尤度を定義するノンパラメトリックな手法です。これは、母集団分布に関する強い仮定を置くことなく、推定方程式(モーメント条件)を満たすような確率測度の中で、経験分布に最も近いものを探すという考え方に基づいています。専門家にとっては、古典的な尤度理論やノンパラメトリック統計学、さらにはM推定量の理論など、既知の概念と関連付けて理解することが重要です。本稿では、経験尤度の理論的基礎、統計的推論への応用、利点と課題、そして専門家が自身の研究や教育に応用するためのヒントを提供します。

理論的基礎:経験尤度関数の定義と定式化

経験尤度は、データ点の各々に確率質量を割り当て、その積を最大化するという考え方から出発します。n個の独立同分布 (i.i.d.) の観測データ $X_1, \dots, X_n$ が与えられたとします。各観測値 $X_i$ に確率 $p_i$ を割り当て、$\sum_{i=1}^n p_i = 1$ かつ $p_i \ge 0$ という制約の下で、以下の積を最大化することを考えます。

$$ L(p_1, \dots, p_n) = \prod_{i=1}^n p_i $$

この $L$ は、データ ${X_i}$ に対する、確率分布が各点 $X_i$ に確率 $p_i$ を置くような離散分布の「尤度」と見なすことができます。制約なしでは、$p_i = 1/n$ で最大化され、これは経験分布に対応します。経験尤度法では、この最大化問題に推定したいパラメータ $\theta$ に関する制約、すなわち推定方程式(モーメント条件)を加えます。

多くの統計的推定問題は、ある関数 $g(X, \theta)$ に対して、母集団における期待値がゼロとなる条件として定式化できます。例えば、母平均 $\mu$ を推定する場合、$g(X, \mu) = X - \mu$ とすれば $E[X - \mu] = 0$ となります。より一般的に、推定方程式はベクトル値関数 $g(X, \theta)$ を用いて $E[g(X, \theta)] = 0$ と表されます。経験尤度法では、この母集団での条件を標本における対応物で置き換えます。

$$\frac{1}{n} \sum_{i=1}^n g(X_i, \theta) = 0$$

経験尤度関数 $EL(\theta)$ は、$\theta$ を固定した上で、$p_i$ を以下の制約の下で最大化することによって定義されます。

$$ EL(\theta) = \max \left{ \prod_{i=1}^n p_i \middle| \sum_{i=1}^n p_i = 1, p_i \ge 0, \sum_{i=1}^n p_i g(X_i, \theta) = 0 \right} $$

ここで、$\sum p_i g(X_i, \theta) = 0$ は、確率 $p_i$ を持つ離散分布に関する $g(X, \theta)$ の期待値がゼロであるという条件に対応します。この最適化問題は、ラグランジュ乗数法を用いて解くことができます。ラグランジアンは以下のようになります。

$$ \mathcal{L}(p_1, \dots, p_n, \lambda, \eta) = \sum_{i=1}^n \log p_i + \eta \left( 1 - \sum_{i=1}^n p_i \right) - n \lambda^T \sum_{i=1}^n p_i g(X_i, \theta) $$

ここで $\lambda$ は $g$ の次元と同じ次元を持つベクトル値ラグランジュ乗数、$\eta$ はスカラーのラグランジュ乗数です。これを $p_i$ について偏微分してゼロとおくと、最適な $p_i$ の形式が得られます。

$$ p_i(\theta, \lambda) = \frac{1}{n} \frac{1}{1 + \lambda^T g(X_i, \theta)} $$

そして、$p_i$ に関する制約 $\sum p_i = 1$ と $\sum p_i g(X_i, \theta) = 0$ を満たすように $\lambda$ を決定します。この $\lambda$ は、以下の凸関数を最大化(あるいは最小化)することによって見つけられます。

$$ L(\lambda, \theta) = \sum_{i=1}^n \log(1 + \lambda^T g(X_i, \theta)) $$

この $-\sum \log(1 + \lambda^T g(X_i, \theta))$ を最小化する問題は凸最適化問題であり、数値的に効率よく解くことができます。最適な $\lambda(\theta)$ が得られれば、経験尤度比 (Empirical Likelihood Ratio, ELR) 関数 $R(\theta)$ を定義できます。古典的な尤度比と同様に、これは制約なしでの最大尤度に対する、制約(ここでは $\theta$ を固定したモーメント条件)の下での最大尤度の比として定義されます。

$$ R(\theta) = \frac{EL(\theta)}{EL(\hat{\theta}_{EL})} = \frac{\max { \prod p_i | \sum p_i = 1, \sum p_i g(X_i, \theta) = 0 }}{\max { \prod p_i | \sum p_i = 1 }} $$

ここで、$EL(\hat{\theta}{EL})$ は $\theta$ についても最大化した場合の経験尤度ですが、実際には経験分布における尤度 $\prod (1/n) = (1/n)^n$ を用いることが一般的です。したがって、経験尤度比は $-\sum{i=1}^n \log(n p_i(\theta, \lambda(\theta)))$ の変換と関連付けられ、通常は対数経験尤度比として $-2 \log R(\theta)$ が扱われます。

$$ -2 \log R(\theta) = 2 \sum_{i=1}^n \log(1 + \lambda(\theta)^T g(X_i, \theta)) $$

ここで $\lambda(\theta)$ は $\sum_{i=1}^n \frac{g(X_i, \theta)}{1 + \lambda^T g(X_i, \theta)} = 0$ を満たす解です。

経験尤度による統計的推論

経験尤度法の最も強力な側面の1つは、古典的なパラメトリック尤度比検定と同様の漸近的性質を持つことです。特に、推定方程式 $E[g(X, \theta_0)] = 0$ を満たす真のパラメータ値 $\theta_0$ の下で、統計量 $-2 \log R(\theta_0)$ が、推定方程式の数($g$ の次元)に対応する自由度を持つカイ二乗分布に漸近的に従うというWilksの定理のノンパラメトリック版が成り立ちます。

パラメータ推定

経験尤度を用いたパラメータの点推定は、経験対数尤度関数 $\log EL(\theta)$ を最大化する $\theta$ の値 $\hat{\theta}{EL}$ を求めることによって行われます。これは、$\sum{i=1}^n \frac{g(X_i, \theta)}{1 + \lambda(\theta)^T g(X_i, \theta)} = 0$ を $\theta$ と $\lambda$ に関して同時に解くことに対応します。この推定量 $\hat{\theta}_{EL}$ は、多くの場合、他の一般的な推定量(例:GMM推定量)と比較して漸近的に効率が良いことが知られています。

信頼領域の構築

Wilksの定理のノンパラメトリック版を利用して、$\theta$ の信頼領域を構築できます。有意水準 $\alpha$ の信頼領域は、以下の式を満たす $\theta$ の集合として定義されます。

$$ {\theta \mid -2 \log R(\theta) \le \chi^2_{k, 1-\alpha} } $$

ここで $k$ は推定方程式の数($g$ の次元)、$\chi^2_{k, 1-\alpha}$ は自由度 $k$ のカイ二乗分布の上側 $1-\alpha$ 点です。この方法は、信頼領域の形状がデータの構造に自然に適応するという利点があります。パラメトリックな信頼区間が対称になることが多いのに対し、経験尤度による信頼領域は非対称になり得ます。これは、特にパラメータの範囲に制約がある場合(例:分散は非負)や、基となる分布が歪んでいる場合に有利です。

仮説検定

経験尤度比統計量を用いて、$\theta$ に関する様々な仮説を検定できます。例えば、$H_0: \theta \in \Theta_0$ という形式の仮説($\Theta_0$ はパラメータ空間のサブセット)を検定する場合、統計量 $-2 \log \sup_{\theta \in \Theta_0} R(\theta)$ は、適切な条件下でカイ二乗分布に漸近的に従います。これは、線形制約(例:$A\theta = b$)や非線形制約に関する検定を柔軟に行えることを意味します。

経験尤度法の利点と課題

経験尤度法は多くの魅力的な性質を持ちますが、いくつかの課題も存在します。

利点

課題

拡張と関連手法、そして応用例

経験尤度法は、その強力な理論的性質から様々な方向に拡張・応用されています。

具体的な応用例としては、以下のようなシナリオが考えられます。

(例:仮想的な研究例)ある政策介入の効果を評価するために、介入群と対照群から収集されたデータを用いて、平均処置効果を推定したいとします。共変量が存在し、マッチングや層別化を行う代わりに、Inverse Probability Weighting (IPW) 推定量を用いる場合を考えます。IPW推定量は、特定の推定方程式を満たしますが、応答変数の分布や傾向スコアモデルの正確な分布については不確実性があります。経験尤度法を用いることで、応答変数の分布に強い仮定を置くことなく、平均処置効果の信頼区間を構築することが可能になります。信頼区間の形状は、データの構造や外れ値の存在によって非対称になる可能性があり、これは従来の正規近似に基づく信頼区間よりも実態をよく反映するかもしれません。

教育上の説明と最新動向

統計専門家に対して経験尤度を説明する際には、彼らが既に理解している概念との比較対照が有効です。

最新の研究動向としては、計算効率の改善(大規模データへの対応)、高次元設定における経験尤度の理論展開、特定の構造(例:ネットワークデータ、時系列データ)を持つデータへの拡張、機械学習アルゴリズムの頑健性分析への応用などが挙げられます。特に、推定方程式の数が標本サイズと共に増加するような高次元設定や、正則化手法との組み合わせに関する研究は活発に行われています。

まとめ

経験尤度法は、分布仮定を緩和しつつ、パラメトリック尤度法の多くの利点、特に尤度比統計量の漸近的性質を享受できる強力なノンパラメトリック推論手法です。推定方程式に基づく幅広い問題を扱うことができ、得られる信頼領域や信頼区間はデータの構造に自然に適応します。計算上の課題や高次元データへの適用性といった課題はありますが、継続的な研究によりその適用範囲は広がっています。

統計専門家にとって、経験尤度は既存の統計的ツールボックスを補完し、より柔軟でロバストな推論を行うための重要な選択肢となります。自身の研究において、標準的なパラメトリック手法の仮定に疑問がある場合や、特定の推定方程式のみに基づいた推論を行いたい場合に、経験尤度法の適用を検討する価値は大きいと言えます。また、教育においては、尤度理論、ノンパラメトリック統計、モーメント法といった異なる分野を結びつける概念として、学生に深い理解を促すのに役立つでしょう。