実数値をとる確率変数 X と適当な値t\in\mathbb{R}に対して, 確率\Pr[X\geq t]を抑えるときにモーメント母関数 (MGF: Moment Generating Function) を考えたくなります. 確率変数Xのモーメント母関数はM_X(c)=\mathrm{E}[e^{cX}]で定義されます. これを使うと, 任意の\lambda\geq 0に対して
\Pr[X\geq t] = \Pr[\lambda X \geq \lambda t] = \Pr[e^{\lambda X} \geq e^{\lambda t}] \leq e^{-\lambda t} M_X(\lambda)
が成り立つ (最後の不等式ではMarkovの不等式を適用した) わけです. 一般に浸透された言い回しではありませんが, モーメント母関数のlogをとったものをここではlogMGFと呼ぶこととします. すなわち, 確率変数XのlogMGFは
\Psi_X(\lambda) = \log M_X(\lambda) = \log \mathrm{E}[e^{\lambda X}]
です. これを使うと任意の\lambda\geq 0に対して
\Pr[X\geq t] \leq \exp(-\lambda t + \Psi_X(\lambda))
となるので, 最適な\lambdaをチューニングしたくなります. ここで\Psi_X^*(t) = \sup_{\lambda\geq 0}\{\lambda t - \Psi_X(\lambda)\} を考えてやると,
\Pr[X\geq t] \leq \exp(-\Psi^*_X(t))
を得ますが, \Psi_X^*(t)をよくみると関数\Psi_X(\lambda)のルジャンドル変換っぽいことが分かります (\supで動く\lambdaの範囲が\lambda\geq 0でなく\lambda\in\mathbb{R}ならばルジャンドル変換と一致します. なお, t\geq \mathrm{E}[X]ならば, \Psi_X^*(t)=\sum_{\lambda\in\mathbb{R}}\{\lambda t - \Psi_X(\lambda)\} となり, ルジャンドル変換と一致します).
\Psi_X(\lambda)の有名な性質として凸性が挙げられます. つまり, S=\{\lambda>0\colon \Psi_X(\lambda)<\infty\}とすると\Psi_X(\lambda)はS上で凸関数になっています. これは, x,y\in Sを0<x<yを満たす実数としてp\in(0,1)を任意に選んで\Psi_X(px+(1-p)y)をHölderの不等式を使って上から抑えることによって証明することができます.
0 件のコメント:
コメントを投稿