確率集中不等式の文脈でよく知られているMcDiarmidの不等式について解説します.
準備: 集中不等式でよくある設定
Sを集合としてX_1,\dots,X_n\in SをSに値をとる独立な確率変数とします (同一分布に従うとは限らない). 関数 f\colon S^n\to\mathbb{R}に対し, 確率変数Y=f(X_1,\dots,X_n)を考えます. 例としてS=[0,1], f(x_1,\dots,x_n)=x_1+\dots+x_nとすると, Hoeffdingの不等式よりYはその期待値に集中します. つまり, 任意のt>0に対して
\Pr[|Y-\mathrm{E}[Y]|>t] \leq 2\exp\left(-\frac{2t^2}{n}\right)
が成り立ちます.
これを一般化して次のresearch questionを考えます:
関数fがどのような性質を持てばYは集中性が成り立つのか?
結論から言うと, 次の法則が知られています.
fが"滑らか"ならばYは集中する.
"滑らか"とはどういうことか, については色んな定義が考えられますが, ひとまずこの法則の根拠となる不等式の一つとしてMcDiarmidの不等式という便利な不等式があります.
McDiarmidの不等式
この不等式では関数の滑らかさをハミング距離に関するリプシッツ性と捉えます. x,y\in S^nに対してそのハミング距離d_{\mathrm{ham}}(x,y)を異なる要素の個数, すなわちd_{\mathrm{ham}}(x,y)=|\{i\in[n]\colon x_i\neq y_i\}|と定義します.
定理 (McDiarmidの不等式)
関数f\colon S^n\to \mathbb{R}が, d_{\mathrm{ham}}(x,y)=1を満たす任意のx,y\in S^nに対し|f(x)-f(y)|\leq Lを満たすとする. X_1,\dots,X_n\in Sを独立な確率変数とし, Y=f(X_1,\dots,X_n)とする. このとき,
\Pr[|Y-\mathrm{E}[Y]|>t] \leq 2\exp\left( -\frac{2t^2}{nL^2} \right).
つまり, f(x_1,\dots,x_n)に対して一つの要素x_iを別の値に置き換えてもその時のfの値がほとんど変わらない(i.e., Lが小さい)ならばYはその期待値に集中するということを主張する定理です. 例えば冒頭で見た例 S=[0,1], f(x_1,\dots,x_n)=x_1+\dots+x_n ならば, 一つの要素x_i\in [0,1]を別の要素 x'_i\in [0,1]に置き換えたとしても関数値は高々1しか変化しないので, L=1としてMcDiarmidの不等式を適用するとHoeffdingの不等式が得られます (より一般にS=[a,b]という設定でも得られます).
McDiarmidの不等式の証明は関数f(x_1,\dots,x_n)に対するDoobのマルチンゲールを考え, それにAzuma--Hoeffdingの不等式を適用させるだけで得られるので, それほど難しくはありません.
0 件のコメント:
コメントを投稿