統計専門家のための経験尤度:ノンパラメトリック推論の枠組みと応用展望
経験尤度とは何か:導入と統計的推論における位置づけ
統計学における尤度関数は、観測データが与えられた際に、特定の確率モデルとパラメータの値がどの程度妥当であるかを示す重要な概念です。パラメトリックモデルにおいては、仮定された分布関数に基づいて尤度関数が定義され、最尤推定や尤度比検定といった強力な推論手法が導かれます。しかし、実際のデータ分析において、厳密なパラメトリック分布仮定が妥当でない場合や、仮定の検証が困難な場合があります。このような状況下で、分布仮定を緩和しつつ、古典的な尤度法の強力な推論特性を享受しようとするアプローチの一つが「経験尤度 (Empirical Likelihood, EL)」です。
経験尤度は、データ自身の経験分布に基づいて尤度を定義するノンパラメトリックな手法です。これは、母集団分布に関する強い仮定を置くことなく、推定方程式(モーメント条件)を満たすような確率測度の中で、経験分布に最も近いものを探すという考え方に基づいています。専門家にとっては、古典的な尤度理論やノンパラメトリック統計学、さらにはM推定量の理論など、既知の概念と関連付けて理解することが重要です。本稿では、経験尤度の理論的基礎、統計的推論への応用、利点と課題、そして専門家が自身の研究や教育に応用するためのヒントを提供します。
理論的基礎:経験尤度関数の定義と定式化
経験尤度は、データ点の各々に確率質量を割り当て、その積を最大化するという考え方から出発します。n個の独立同分布 (i.i.d.) の観測データ $X_1, \dots, X_n$ が与えられたとします。各観測値 $X_i$ に確率 $p_i$ を割り当て、$\sum_{i=1}^n p_i = 1$ かつ $p_i \ge 0$ という制約の下で、以下の積を最大化することを考えます。
$$ L(p_1, \dots, p_n) = \prod_{i=1}^n p_i $$
この $L$ は、データ ${X_i}$ に対する、確率分布が各点 $X_i$ に確率 $p_i$ を置くような離散分布の「尤度」と見なすことができます。制約なしでは、$p_i = 1/n$ で最大化され、これは経験分布に対応します。経験尤度法では、この最大化問題に推定したいパラメータ $\theta$ に関する制約、すなわち推定方程式(モーメント条件)を加えます。
多くの統計的推定問題は、ある関数 $g(X, \theta)$ に対して、母集団における期待値がゼロとなる条件として定式化できます。例えば、母平均 $\mu$ を推定する場合、$g(X, \mu) = X - \mu$ とすれば $E[X - \mu] = 0$ となります。より一般的に、推定方程式はベクトル値関数 $g(X, \theta)$ を用いて $E[g(X, \theta)] = 0$ と表されます。経験尤度法では、この母集団での条件を標本における対応物で置き換えます。
$$\frac{1}{n} \sum_{i=1}^n g(X_i, \theta) = 0$$
経験尤度関数 $EL(\theta)$ は、$\theta$ を固定した上で、$p_i$ を以下の制約の下で最大化することによって定義されます。
$$ EL(\theta) = \max \left{ \prod_{i=1}^n p_i \middle| \sum_{i=1}^n p_i = 1, p_i \ge 0, \sum_{i=1}^n p_i g(X_i, \theta) = 0 \right} $$
ここで、$\sum p_i g(X_i, \theta) = 0$ は、確率 $p_i$ を持つ離散分布に関する $g(X, \theta)$ の期待値がゼロであるという条件に対応します。この最適化問題は、ラグランジュ乗数法を用いて解くことができます。ラグランジアンは以下のようになります。
$$ \mathcal{L}(p_1, \dots, p_n, \lambda, \eta) = \sum_{i=1}^n \log p_i + \eta \left( 1 - \sum_{i=1}^n p_i \right) - n \lambda^T \sum_{i=1}^n p_i g(X_i, \theta) $$
ここで $\lambda$ は $g$ の次元と同じ次元を持つベクトル値ラグランジュ乗数、$\eta$ はスカラーのラグランジュ乗数です。これを $p_i$ について偏微分してゼロとおくと、最適な $p_i$ の形式が得られます。
$$ p_i(\theta, \lambda) = \frac{1}{n} \frac{1}{1 + \lambda^T g(X_i, \theta)} $$
そして、$p_i$ に関する制約 $\sum p_i = 1$ と $\sum p_i g(X_i, \theta) = 0$ を満たすように $\lambda$ を決定します。この $\lambda$ は、以下の凸関数を最大化(あるいは最小化)することによって見つけられます。
$$ L(\lambda, \theta) = \sum_{i=1}^n \log(1 + \lambda^T g(X_i, \theta)) $$
この $-\sum \log(1 + \lambda^T g(X_i, \theta))$ を最小化する問題は凸最適化問題であり、数値的に効率よく解くことができます。最適な $\lambda(\theta)$ が得られれば、経験尤度比 (Empirical Likelihood Ratio, ELR) 関数 $R(\theta)$ を定義できます。古典的な尤度比と同様に、これは制約なしでの最大尤度に対する、制約(ここでは $\theta$ を固定したモーメント条件)の下での最大尤度の比として定義されます。
$$ R(\theta) = \frac{EL(\theta)}{EL(\hat{\theta}_{EL})} = \frac{\max { \prod p_i | \sum p_i = 1, \sum p_i g(X_i, \theta) = 0 }}{\max { \prod p_i | \sum p_i = 1 }} $$
ここで、$EL(\hat{\theta}{EL})$ は $\theta$ についても最大化した場合の経験尤度ですが、実際には経験分布における尤度 $\prod (1/n) = (1/n)^n$ を用いることが一般的です。したがって、経験尤度比は $-\sum{i=1}^n \log(n p_i(\theta, \lambda(\theta)))$ の変換と関連付けられ、通常は対数経験尤度比として $-2 \log R(\theta)$ が扱われます。
$$ -2 \log R(\theta) = 2 \sum_{i=1}^n \log(1 + \lambda(\theta)^T g(X_i, \theta)) $$
ここで $\lambda(\theta)$ は $\sum_{i=1}^n \frac{g(X_i, \theta)}{1 + \lambda^T g(X_i, \theta)} = 0$ を満たす解です。
経験尤度による統計的推論
経験尤度法の最も強力な側面の1つは、古典的なパラメトリック尤度比検定と同様の漸近的性質を持つことです。特に、推定方程式 $E[g(X, \theta_0)] = 0$ を満たす真のパラメータ値 $\theta_0$ の下で、統計量 $-2 \log R(\theta_0)$ が、推定方程式の数($g$ の次元)に対応する自由度を持つカイ二乗分布に漸近的に従うというWilksの定理のノンパラメトリック版が成り立ちます。
パラメータ推定
経験尤度を用いたパラメータの点推定は、経験対数尤度関数 $\log EL(\theta)$ を最大化する $\theta$ の値 $\hat{\theta}{EL}$ を求めることによって行われます。これは、$\sum{i=1}^n \frac{g(X_i, \theta)}{1 + \lambda(\theta)^T g(X_i, \theta)} = 0$ を $\theta$ と $\lambda$ に関して同時に解くことに対応します。この推定量 $\hat{\theta}_{EL}$ は、多くの場合、他の一般的な推定量(例:GMM推定量)と比較して漸近的に効率が良いことが知られています。
信頼領域の構築
Wilksの定理のノンパラメトリック版を利用して、$\theta$ の信頼領域を構築できます。有意水準 $\alpha$ の信頼領域は、以下の式を満たす $\theta$ の集合として定義されます。
$$ {\theta \mid -2 \log R(\theta) \le \chi^2_{k, 1-\alpha} } $$
ここで $k$ は推定方程式の数($g$ の次元)、$\chi^2_{k, 1-\alpha}$ は自由度 $k$ のカイ二乗分布の上側 $1-\alpha$ 点です。この方法は、信頼領域の形状がデータの構造に自然に適応するという利点があります。パラメトリックな信頼区間が対称になることが多いのに対し、経験尤度による信頼領域は非対称になり得ます。これは、特にパラメータの範囲に制約がある場合(例:分散は非負)や、基となる分布が歪んでいる場合に有利です。
仮説検定
経験尤度比統計量を用いて、$\theta$ に関する様々な仮説を検定できます。例えば、$H_0: \theta \in \Theta_0$ という形式の仮説($\Theta_0$ はパラメータ空間のサブセット)を検定する場合、統計量 $-2 \log \sup_{\theta \in \Theta_0} R(\theta)$ は、適切な条件下でカイ二乗分布に漸近的に従います。これは、線形制約(例:$A\theta = b$)や非線形制約に関する検定を柔軟に行えることを意味します。
経験尤度法の利点と課題
経験尤度法は多くの魅力的な性質を持ちますが、いくつかの課題も存在します。
利点
- 分布仮定の緩和: パラメトリックな分布仮定を必要とせず、モーメント条件(推定方程式)のみに基づいています。これにより、モデル誤特定のロバスト性が向上します。
- 形状に依存しない信頼領域: 構築される信頼領域や信頼区間は、対象とするパラメータの範囲やデータの形状に自然に適応します。非対称な信頼区間が得られることも、パラメトリックな方法では難しい柔軟性です。
- パラメータ変換に対する不変性: 興味のあるパラメータ $\psi = T(\theta)$ が $\theta$ の滑らかな関数である場合、$\psi$ に関する経験尤度比統計量は、$\theta$ に関する統計量と同一の漸近分布を持ちます。これはデルタ法などの追加的な計算を必要とせず、推論が容易になることを意味します。
- 漸近的効率性: 推定方程式が正しい場合、経験尤度推定量は一般化モーメント法 (GMM) 推定量や他の多くの推定量と比較して、漸近的に効率が良い(漸近分散が小さい)ことが示されています。
課題
- 計算負荷: 各 $\theta$ の値に対してラグランジュ乗数 $\lambda$ を数値的に解く必要があります。特にパラメータの次元が高い場合や、複雑な推定方程式を持つ場合、計算コストが高くなる可能性があります。
- 推定方程式の外れ: 設定された推定方程式が真のパラメータに対して満たされない(例えば、$E[g(X, \theta_0)] \ne 0$ となる)場合、経験尤度法は適切に機能しません。推定方程式の妥当性は別途検討が必要です。
- 高次元データへの拡張: 観測値の次元がサンプルサイズに対して高い場合、経験尤度の理論的性質が損なわれることがあります。高次元設定に対応するための修正や拡張手法が研究されていますが、標準的な枠組みでは課題となります。
- $p_i$ のゼロ問題: データ点 $X_i$ の $g(X_i, \theta)$ の値が、推定方程式を満たすような重み $p_i$ の計算において問題を引き起こすことがあります。特に、ベクトル値の $g$ の値の凸包が原点を含まない場合、制約を満たす $p_i \ge 0$ が存在しないことがあります。この問題は、拡張された経験尤度法などで対応されることがあります。
拡張と関連手法、そして応用例
経験尤度法は、その強力な理論的性質から様々な方向に拡張・応用されています。
- 経験的に調整された尤度 (Adjusted Empirical Likelihood): 小標本における漸近近似の精度を向上させるための修正版です。
- サンプリングデザインの考慮: 複雑な標本調査データ(層化抽出、クラスター抽出など)に対して、適切な重み付けを行うように経験尤度法を拡張した手法があります。
- セミパラメトリックモデル: 回帰モデルにおける誤差項の分布に仮定を置かない場合など、パラメトリック部分とノンパラメトリック部分を組み合わせたモデルの推論に経験尤度が有効な場合があります。例として、Cox比例ハザードモデルにおけるベースラインハザード関数の推定に類似した考え方が用いられることがあります。
- 分位点回帰: 条件付き分位点に関する推定方程式に基づく推論に経験尤度が応用されます。
具体的な応用例としては、以下のようなシナリオが考えられます。
- 経済学: 消費関数や生産関数のパラメータ推定において、誤差項の分布に特定の仮定を置くことに懸念がある場合。あるいは、特定のモーメント条件(例:収穫逓減の法則)を満たすような推定。
- 生物統計学: 薬剤の効果に関する推定において、応答変数の分布が正規性などの標準的な仮定を満たさない場合。共変量との関係において特定の構造(推定方程式)のみを仮定したい場合。
- 生態学: 種の分布範囲や個体数に関する推定において、観測データの収集方法や環境要因が複雑であり、分布仮定を置きにくい場合。特定の生態学的モデルに基づくモーメント条件を用いた推定。
(例:仮想的な研究例)ある政策介入の効果を評価するために、介入群と対照群から収集されたデータを用いて、平均処置効果を推定したいとします。共変量が存在し、マッチングや層別化を行う代わりに、Inverse Probability Weighting (IPW) 推定量を用いる場合を考えます。IPW推定量は、特定の推定方程式を満たしますが、応答変数の分布や傾向スコアモデルの正確な分布については不確実性があります。経験尤度法を用いることで、応答変数の分布に強い仮定を置くことなく、平均処置効果の信頼区間を構築することが可能になります。信頼区間の形状は、データの構造や外れ値の存在によって非対称になる可能性があり、これは従来の正規近似に基づく信頼区間よりも実態をよく反映するかもしれません。
教育上の説明と最新動向
統計専門家に対して経験尤度を説明する際には、彼らが既に理解している概念との比較対照が有効です。
- パラメトリック尤度との対比: 分布仮定の有無、尤度関数の定義の違い(モデルに基づくかデータに基づくか)、Wilksの定理の類似性と違いを強調します。
- ブートストラップとの関係: 経験尤度とブートストラップは、どちらも経験分布に基づく手法ですが、推論の方法が異なります。経験尤度は漸近理論に強く依拠し、尤度比に基づいた厳密な信頼区間を構築できるのに対し、ブートストラップは再サンプリングによって標本分布を近似します。両者の使い分けや補完関係を議論すると深い理解につながります。経験尤度信頼区間は、ブートストラップ信頼区間よりもカバレッジ確率が良いことが多いといった漸近的な性質を比較します。
- 一般化モーメント法 (GMM) との関係: 経験尤度推定量はGMM推定量の一種と見なすことができます。ただし、経験尤度はGMMの枠組み内で最適な重み行列をデータから「経験的に」決定していると解釈できます。この関係性を説明することで、経験尤度の漸近的効率性の理由が理解しやすくなります。
最新の研究動向としては、計算効率の改善(大規模データへの対応)、高次元設定における経験尤度の理論展開、特定の構造(例:ネットワークデータ、時系列データ)を持つデータへの拡張、機械学習アルゴリズムの頑健性分析への応用などが挙げられます。特に、推定方程式の数が標本サイズと共に増加するような高次元設定や、正則化手法との組み合わせに関する研究は活発に行われています。
まとめ
経験尤度法は、分布仮定を緩和しつつ、パラメトリック尤度法の多くの利点、特に尤度比統計量の漸近的性質を享受できる強力なノンパラメトリック推論手法です。推定方程式に基づく幅広い問題を扱うことができ、得られる信頼領域や信頼区間はデータの構造に自然に適応します。計算上の課題や高次元データへの適用性といった課題はありますが、継続的な研究によりその適用範囲は広がっています。
統計専門家にとって、経験尤度は既存の統計的ツールボックスを補完し、より柔軟でロバストな推論を行うための重要な選択肢となります。自身の研究において、標準的なパラメトリック手法の仮定に疑問がある場合や、特定の推定方程式のみに基づいた推論を行いたい場合に、経験尤度法の適用を検討する価値は大きいと言えます。また、教育においては、尤度理論、ノンパラメトリック統計、モーメント法といった異なる分野を結びつける概念として、学生に深い理解を促すのに役立つでしょう。