統計用語 Q&A広場

統計専門家のための予測区間:理論、構築法、そしてコンフォーマル予測

Tags: 予測区間, コンフォーマル予測, 不確実性定量化, 統計的推論, 機械学習

はじめに:予測における不確実性定量化の重要性

データ分析の主要な目的の一つは、未知のデータポイントに対する将来の観測値を予測することです。多くの場合、私たちは対象となるシステムや現象を記述する統計モデルを構築し、そのモデルを用いて予測を行います。例えば、回帰モデルを使って連続的な値を予測したり、分類モデルを使ってクラスラベルを予測したりします。

しかし、統計モデルは現実世界の複雑さを完全に捉えることはできませんし、手元のデータも母集団の一部に過ぎません。そのため、予測は必ず不確実性を伴います。単一の点予測(例:将来の売上高は100万円)だけでは、その予測がどの程度確からしいのか、あるいはどの程度のばらつきが予想されるのかが全く分かりません。この不確実性を定量化し、予測が取り得る値の範囲を示すことが、意思決定やリスク管理において極めて重要となります。

予測の不確実性を定量化する標準的な方法として、「予測区間 (Predictive Interval)」があります。これは、将来の観測値が一定の高い確率(例えば95%)で含まれると期待される区間です。予測区間は、モデルの推定誤差だけでなく、データのランダムな変動(つまり、モデルから説明できない残差のばらつき)も考慮に入れる点で、モデルパラメータの信頼区間とは異なります。

伝統的な統計モデリングにおいて、予測区間はモデルの仮定(例:残差の正規性、等分散性)に基づいて構築されてきました。しかし、これらの仮定が満たされない場合や、複雑な非線形モデル、高次元データ、あるいは機械学習モデルを使用する場合には、これらの伝統的な手法が適用困難であったり、得られる区間が信頼できなかったりするという課題があります。

近年、このような課題に対する有力なアプローチとして、「コンフォーマル予測 (Conformal Prediction)」が注目されています。コンフォーマル予測は、比較的弱い仮定、特にデータの「交換可能性 (exchangeability)」のみに基づいて、予測対象の観測値を含む予測集合(区間や領域)の有限サンプルでの被覆率保証を提供するフレームワークです。これは、漸近的な保証に頼る伝統的な手法とは一線を画します。

本記事では、予測区間の基本的な考え方を改めて確認した上で、従来の構築法の限界に触れ、コンフォーマル予測の理論的基盤、基本的な手続き、バリアント、利点と課題、そして統計専門家にとって重要な応用上の注意点について深く掘り下げていきたいと思います。

予測区間の理論的基礎と従来の構築法

予測区間は、将来の観測値 $Y_{new}$ が、既知のデータ $\mathcal{D} = {(X_i, Y_i)}{i=1}^n$ に基づいて構築されたある区間 $I(X{new}, \mathcal{D})$ に含まれる確率が、指定された信頼水準 $1-\alpha$ となるように構築されることを目指します。すなわち、 $$ P(Y_{new} \in I(X_{new}, \mathcal{D}) | \mathcal{D}) \ge 1-\alpha $$ ただし、$X_{new}$ は将来の観測値 $Y_{new}$ に対応する予測変数です。

線形回帰モデル $Y_i = \beta_0 + \beta_1 X_i + \epsilon_i$ を例に取ると、仮定(例:$\epsilon_i \sim N(0, \sigma^2)$ 独立同分布)のもとで、新しい予測変数 $X_{new}$ に対する予測値 $\hat{Y}{new} = \hat{\beta}_0 + \hat{\beta}_1 X{new}$ の予測誤差 $\hat{Y}{new} - Y{new}$ の分布を考えることで予測区間を構築します。予測区間は一般に $\hat{Y}{new} \pm t{\alpha/2, n-p-1} \times SE_{pred}(X_{new})$ の形をしています。ここで $SE_{pred}(X_{new})$ は予測の標準誤差であり、モデルパラメータの推定誤差と残差のばらつきの両方を含みます。 $$ SE_{pred}(X_{new}) = \hat{\sigma} \sqrt{1 + X_{new}^T (X^T X)^{-1} X_{new}} $$ この手法は、モデル仮定(特に残差の正規性や等分散性)に強く依存しており、仮定が崩れると区間の被覆率が保証されなくなります。非線形モデルや複雑な機械学習モデルでは、$\hat{Y}{new} - Y{new}$ の分布を解析的に導出することは困難であり、ブートストラップなどのリサンプリング手法が用いられることもありますが、これも漸近的な性質に頼る場合が多いです。

また、分位点回帰を用いて、指定された信頼水準に対応する条件付き分位点を直接推定し、それらを予測区間の下限・上限とするアプローチもあります。これも強力な手法ですが、モデルの特定(例:線形分位点回帰)や推定の計算負荷が課題となる場合があります。

これらの従来の予測区間構築法は、特定のモデルクラスやデータ特性に対して有効ですが、モデルに起因する不確実性や、モデル化されていないデータ構造(例:異分散性、非正規性、相関)の影響を受けやすく、特にデータサイズが小さい場合やモデルの仮定が厳密に満たされない場合に、所望の被覆率 $1-\alpha$ を保証できない可能性があります。

コンフォーマル予測の原理

コンフォーマル予測は、このようなモデル仮定への依存性を軽減し、いかなる基盤となるモデルやアルゴリズム(線形回帰、決定木、ニューラルネットワークなど何でも良い)を使用しても、有限サンプルにおいて、指定された信頼水準 $1-\alpha$ を(ほぼ)保証する予測集合を構成するフレームワークです。

コンフォーマル予測の核心的なアイデアは、「新しい観測値 $Y_{new}$ が、既存のデータセット ${ (X_i, Y_i) }{i=1}^n$ と同じ確率分布から独立に生成されたものであるならば、データセット中のどの観測値も『新しい観測値』である可能性は等しい」という交換可能性の仮定に基づいています。より正確には、観測値 $(X_1, Y_1), \dots, (X_n, Y_n), (X{new}, Y_{new})$ の順序を任意に入れ替えても、その結合分布が変わらないという仮定です。i.i.d. (independent and identically distributed) のデータはこの仮定を満たしますが、時間依存性のあるデータや、特定のサンプリングデザインによるデータなど、交換可能性が成り立たない状況も存在します。

コンフォーマル予測は、「非適合度 (nonconformity measure)」と呼ばれる尺度を用います。非適合度 $s(X, Y; \mathcal{D})$ は、与えられたデータポイント $(X, Y)$ が、既存のデータセット $\mathcal{D}$ のパターンからどの程度「外れているか」を測る尺度です。この尺度は、任意の基盤となる学習アルゴリズム $f$(例:回帰モデル、分類モデル)を用いて定義されます。回帰の場合、よく使われる非適合度は残差 $|Y - f(X; \mathcal{D})|$ です。分類の場合、特定のクラス $y$ に対する非適合度は、モデルがそのクラスに割り当てる確信度(例:Softmax出力の $y$ に対応する確率)の符号を反転させたものや、$- \log P(Y=y|X; \mathcal{D})$ などが考えられます。重要なのは、この尺度がデータにおける個々の観測値の「異常性」や「驚き」を捉えることです。

Split Conformal Prediction の手続き

コンフォーマル予測の最も理解しやすいバリアントの一つに「Split Conformal Prediction」があります。これは、データを大きく二つの部分に分割して使用します(図示すると分かりやすいですが、ここでは記述のみとします)。

  1. データ分割: 与えられたデータセット $\mathcal{D} = {(X_i, Y_i)}{i=1}^n$ を、学習セット (Training Set) $\mathcal{D}{train}$ とキャリブレーションセット (Calibration Set) $\mathcal{D}_{cal}$ に分割します。例えば、ランダムに半分ずつに分けるなどです。
  2. モデル学習: 学習セット $\mathcal{D}{train}$ を用いて、基盤となる学習アルゴリズム $f$ を訓練します。例えば、線形回帰モデルやランダムフォレストなどを訓練します。得られたモデルを $f{\mathcal{D}_{train}}$ とします。
  3. 非適合度の計算 (キャリブレーション): キャリブレーションセット $\mathcal{D}{cal} = {(X_j, Y_j)}{j=1}^{n_{cal}}$ の各データポイント $(X_j, Y_j)$ に対して、学習済みモデル $f_{\mathcal{D}{train}}$ を用いて非適合度スコア $s_j = s(X_j, Y_j; \mathcal{D}{train})$ を計算します。例えば回帰なら $s_j = |Y_j - f_{\mathcal{D}{train}}(X_j)|$ です。これにより、キャリブレーションスコアの集合 ${s_j}{j=1}^{n_{cal}}$ が得られます。
  4. 閾値の決定: 計算されたキャリブレーションスコア ${s_j}{j=1}^{n{cal}}$ に、予測したい新しい観測値 $(X_{new}, Y_{new})$ に対する非適合度スコア $s_{new} = s(X_{new}, Y_{new}; \mathcal{D}{train})$ を加えた $n{cal}+1$ 個のスコア ${s_j}{j=1}^{n{cal}} \cup {s_{new}}$ を考えます。コンフォーマル予測の保証は、もし $Y_{new}$ が真の値であるならば、$s_{new}$ がこの $n_{cal}+1$ 個のスコアの中で、任意の順位を取る確率が $1/(n_{cal}+1)$ である、という事実に基づいています(交換可能性のもとで)。被覆率 $1-\alpha$ の予測区間を構成するには、$s_{new}$ がこれらのスコアの中で上位 $\lceil (n_{cal}+1)\alpha \rceil$ 番目以内に入らないようにすれば良いと考えます。つまり、非適合度スコアのリスト ${s_j}{j=1}^{n{cal}}$ の中の $(1-\alpha)$ 分位点(あるいはそれに対応する値)を閾値として設定します。具体的には、スコアを小さい順に並べ替えた $s_{(1)} \le s_{(2)} \le \dots \le s_{(n_{cal})}$ を用いて、閾値 $\hat{q}{1-\alpha} = s{(\lceil (n_{cal}+1)(1-\alpha) \rceil)}$ を設定します。ただし、より正確な有限サンプル保証のためには、スコアを並べ替えた後、$(n_{cal}+1)(1-\alpha)$ 番目のスコアを線形補間なしで選び、さらに厳密な不等式保証のために調整を行う場合(例えば、$\lceil (n_{cal}+1)(1-\alpha) \rceil$ ではなく $\lfloor (n_{cal}+1)(1-\alpha) \rfloor + 1$ 番目など、流儀によって微妙な違いがありますが、コアなアイデアは分位数に基づきます)があります。ここでは $\hat{q}_{1-\alpha}$ を $(1-\alpha)$ 分位点またはそれに近い値と理解してください。
  5. 予測集合の構築: 新しい入力 $X_{new}$ に対して、予測対象の観測値 $Y$ の候補となりうる値の集合を $y$ とします。この $y$ に対して非適合度 $s(X_{new}, y; \mathcal{D}{train})$ を計算し、このスコアがステップ4で求めた閾値 $\hat{q}{1-\alpha}$ を超えないような $y$ の集合を予測集合 $C(X_{new})$ とします。 $$ C(X_{new}) = { y \mid s(X_{new}, y; \mathcal{D}{train}) \le \hat{q}{1-\alpha} } $$ 回帰で $s(X, Y; \mathcal{D}{train}) = |Y - f{\mathcal{D}{train}}(X)|$ を用いた場合、予測集合は区間 $[f{\mathcal{D}{train}}(X{new}) - \hat{q}{1-\alpha}, f{\mathcal{D}{train}}(X{new}) + \hat{q}_{1-\alpha}]$ となります。分類の場合は、予測集合はクラスラベルの集合となります。

コンフォーマル予測の保証

Split Conformal Prediction の最も重要な保証は、データが交換可能性を満たす場合、真の未知の観測値 $Y_{new}$ が構築された予測集合 $C(X_{new})$ に含まれる確率が、信頼水準 $1-\alpha$ を有限サンプルで下回らないことです。すなわち、 $$ P(Y_{new} \in C(X_{new})) \ge 1-\alpha $$ この保証は、基盤となる学習アルゴリズム $f$ がどのようなものであっても成り立ちます。これは、モデルの特定やパラメータ推定の正確さに依存する従来の予測区間とは決定的に異なります。交換可能性という比較的弱い仮定のみに依拠しているのです。

コンフォーマル予測のバリアントと課題

Split Conformal Prediction はシンプルで理論的な保証が明確ですが、データの半分をキャリブレーションにしか使わないため、学習データの量が実質的に減少し、基盤モデルの性能が低下したり、得られる区間が広くなったりする可能性があります。

これを改善するためのバリアントとして、以下のような手法があります。

コンフォーマル予測の主な課題は以下の通りです。

  1. 交換可能性の仮定: データが独立同分布でない場合(例:時系列データ、空間データ、グループ構造を持つデータなど)、交換可能性が成り立たず、被覆率保証が崩れる可能性があります。このような状況に対応するための拡張研究(例:時間構造やグループ構造を考慮した非適合度や分割方法)が進められています。
  2. 区間の長さ(効率性): コンフォーマル予測によって得られる区間は、指定された被覆率を保証しますが、必ずしも最短の区間であるとは限りません。特に、基盤となるモデルの予測精度が低い場合や、非適合度尺度の選択が適切でない場合、得られる区間が非常に広くなり、実用性が低下することがあります。非適合度尺度の選択や、より効率的な区間構成法に関する研究も重要な方向性です。
  3. 計算負荷: Full CP は計算負荷が高く、Cross-CP もSplit CPよりは計算負荷がかかります。大規模データに対する効率的な計算手法が求められます。
  4. 分類における予測集合: 分類問題におけるコンフォーマル予測の出力は、単一のクラスラベルではなく、候補となるクラスラベルの集合です。この集合のサイズはデータの不確実性を示唆しますが、常にサイズが1になるとは限らず、解釈が難しい場合があります。

応用上の注意点と教育上のポイント

コンフォーマル予測は、その強力な理論的保証から、様々な分野での応用が期待されています。特に、予測の信頼性が厳密に求められる医療診断、金融リスク評価、安全が重要な工学分野などで有用です。また、ブラックボックス的な機械学習モデルに対しても適用できるため、これらのモデルの予測に不確実性情報を付加する手段として、モデル解釈可能性と合わせて重要な役割を果たすと考えられます。

統計専門家がコンフォーマル予測を研究や教育で扱う際のポイントをいくつか挙げます。

まとめと今後の展望

予測における不確実性定量化としての予測区間は、統計的推論および応用において不可欠な要素です。伝統的な手法がモデル仮定に依存するのに対し、コンフォーマル予測は交換可能性という比較的弱い仮定のもとで、有限サンプルでの被覆率保証を提供する強力なフレームワークです。Split Conformal Prediction をはじめとするそのバリアントは、多様な学習アルゴリズムと組み合わせて使用でき、特にモデル仮定の検証が困難な複雑な状況や、ブラックボックスモデルに対する不確実性評価において大きな可能性を秘めています。

もちろん、コンフォーマル予測にも交換可能性の仮定の限界、区間の効率性、計算負荷といった課題があります。これらの課題に対する研究は現在も活発に行われており、非i.i.d.データへの拡張、より効率的な区間構成法、計算アルゴリズムの高速化などが重要な研究方向です。

統計専門家としては、コンフォーマル予測を新たな不確実性定量化のツールとして活用し、その理論的基盤と実応用上の利点・限界を深く理解することが求められます。自身の研究テーマにおける予測課題に対して、既存の予測区間手法と比較検討しながら、コンフォーマル予測の適用可能性を探ることは、新たな知見をもたらす可能性を秘めているでしょう。教育の場においては、従来の予測区間の限界を示した上で、コンフォーマル予測が提供する「仮定に依らない保証」という革新的なアイデアとその原理を伝えることで、学生の統計的推論への理解を深めることができると考えられます。

この技術はまだ発展途上にありますが、予測の信頼性を担保する上で非常に有望なアプローチであり、今後の統計学および関連分野の研究・応用に不可欠な概念となるでしょう。