この記事で紹介するのは Chernoff bound, Jansonの不等式, Kim-Vu polynomial concentration です. よくある確率集中不等式の本や連続の世界では Bernsteinの不等式, Azumaの不等式, Talagrandの不等式などが出てきますが, それらはここでは割愛します. Talagrandの不等式についてはめちゃくちゃ面白いので機会があれば紹介したいと思っています.
1. Chernoff bound
独立な確率変数の和の集中性を示す結果で, もっとも代表的なものです. X_1,\ldots,X_nを[0,1]の値をとる独立な確率変数で, \mathrm{E}[X_i]=p_i, S=X_1+\cdots+X_n, \mu=E[S]とします.
定理1 (Chernoff bound).
任意の t>0 に対して
\Pr[S\geq \mu+t] \leq \exp\left(-\frac{t^2}{2(\mu+t/3)}\right).
任意の t\leq \mu に対して
\Pr[S\leq \mu-t] \leq \exp\left(-\frac{t^2}{2(\mu-t/3)}\right).
任意の\epsilon>0に対して,
\Pr[S\geq (1+\epsilon)\mu] \leq \exp\left(-\frac{\min\{\epsilon,\epsilon^2\}\mu}{3}\right)
及び
\Pr[S\leq (1-\epsilon)\mu] \leq \exp\left(-\frac{\epsilon^2 \mu}{2}\right).
Remark.
しばしば, \Pr[S\geq (1+\epsilon)\mu] \leq \exp\left(-\Omega(\epsilon \mu)\right) などと勘違いされますが, これは \epsilon\geq 1 でないと成り立ちません. また, Chernoff boundには Hoeffidingなどいろんな亜種が知られていて, [1, 2]などが詳しいです. 特に
定理3.
独立なベルヌーイ試行 X_1,\ldots,X_n に対して, S=X_1+\cdots+X_n, \mu=\mathrm{E}[S]とおく. 任意の R\geq 2\mathrm{e}\muに対して
\Pr[S\geq R]\leq 2^{-R}
が成り立つ.という結果も知られています[2, Corollary 10.4].
1.1. Chernoff bound の証明 (途中まで)
Chernoff boundの証明は初見だとビックリするようなアイデアに基づくものになっており, マルコフの不等式 (\Pr[X>a]\leq \mathrm{E}[X]/a) を使います. 概略だけ述べると
\Pr[S\geq\mu+t] = \Pr[\exp(\lambda S)\geq \exp(\lambda(\mu+t))] \leq \exp(-\lambda(\mu+t))\mathrm{E}[\exp(\lambda S)]
for any \lambda\geq 0 なので, 右辺の \mathrm{E}[\exp(\lambda S)] を上から抑えることを考えます. ここでSは独立確率変数の和なので, 積に分解でき
\mathrm{E}[\exp(\lambda S)]=\prod_{i=1}^n \mathrm{E}[\exp(\lambda X_i)] = \prod_{i=1}^n (1-p_i(1-\mathrm{e}^{-\lambda}))
となります. (個人的には\exp(\lambda S)を考えるあたりがビックリポイントなのですが, モーメントなどをよくよく考えるとなんとなく自然に感じられるようになります). あとはこの右辺を気合いで上から抑えます. 具体的には
\exp(\lambda x)\leq 1-x+x\exp(\lambda) for x\in[0,1]
という不等式を使います. この先は式変形を頑張って整理するだけです. 詳しく知りたい方は, 例えば [3, 21.4節] などをご覧ください.
2. Janson の不等式
Erdős–Rényiグラフ G(n,p) を考えます. ここでG(n,p) とは n 頂点のグラフで各辺が独立に確率 p で接続されて得られたグラフのことです. このグラフに含まれる三角形の個数を Y とします. また, 辺eに対し, X_eを「G(n,p)がeを含んでいたら 1, そうでなければ 0」と定めます. すると
Y=\sum_{u,v,w} X_{uv}X_{vw}X_{wu}
より一般に述べるために, 次の設定を考えます:
有限集合 E で添字づけられた01確率変数の族 (X_e)_{e\in E} を考えます. \mathrm{E}[X_e]=p_e とし, 相異なる e,f\in E に対して X_e と X_f は独立であるとし. E上の部分集合族 \mathcal{E}\subseteq 2^E に対して確率変数 Y_{\mathcal{E}} を
Y_{\mathcal{E}}=\sum_{F\in\mathcal{E}} \prod_{e\in F} X_e
と定めます. 三角形の例だと, Eは\binom{n}{2}通りの辺の全体\binom{V}{2}であり, X_e は G(n,p) が辺eを含んでいるかどうかの indicator です. また, \mathcal{E} は集合で書くと
\mathcal{E}=\{\{a,b,c\}:a,b,c\in E are distinct. \}
です. すると Y_{\mathcal{E}} は G(n,p)が含む三角形の個数になります.
定理4 (Jansonの不等式).
任意の t>0 に対し以下が成り立つ:
\Pr[Y_{\mathcal{E}}\leq \mathrm{E}[Y_{\mathcal{E}}]-t] \leq \exp\left(-\frac{t^2}{\nabla}\right).
\nabla=\sum_{F_1,F_2\in\mathcal{E}:\,F_1\cap F_2\neq\emptyset} \mathrm{E}[\prod_{e\in F_1\cup F_2} X_e].
2.1. 三角形の個数の下界の導出
\mathcal{E}を, 冒頭で述べたように三角形の辺集合の全体と定めます. まず期待値 \mathrm{E}[Y_\mathcal{E}]を評価してみると,
\mathrm{E}[Y_{\mathcal{E}}]=\binom{n}{3}p^3\approx \frac{(np)^3}{6}
ここで F_1,F_2 は辺を共有するので, |F_1\cup F_2|\leq 5です. そこで三つの場合を考えます:
(i). |F_1\cup F_2|=3 の場合: このとき, F_1=F_2は同じ三角形を表すので, このような組(F_1,F_2)は全部で O(n^3) 通りあります.
(ii). |F_1\cup F_2|=4 の場合: そもそも辺を共有する三角形で|F_1\cup F_2|=4となるものは存在しません.
(iii). |F_1\cup F_2|=5 の場合: F_1は三角形の全体\mathcal{E}から選ばれるので, O(n^3)通りの選び方があります. 一方でF_2はF_1と一本だけ辺を共有するため, 下図のような感じになります. すると F_2 の頂点の自由度は 1 なので, F_1を固定したときF_2は O(n) 通りしかとれません. 従って組 (F_1,F_2) はO(n^4)通りです.
![]() |
Case (iii) における二つの三角形 (F_1,F_2) に対して F_1\cup F_2 が表すグラフ. |
以上より, \nablaは
\nabla = O(n^3)p^3+O(n^4)p^5 = O(n^3p^3(1+np^2))
となります. これを定理4 に代入すると,
\Pr\left[Y_{\mathcal{E}} \leq \mathrm{E}[Y_{\mathcal{E}}]-t\right] \leq \exp\left(-\Omega\left(\frac{t^2}{(np)^3(1+np^2)}\right)\right)
が得られます. 例えば t=\mathrm{E}[Y_{\mathcal{E}}]\approx \frac{(np)^3}{6}を代入すると,
\Pr[G(n,p)が三角形を含まない]\leq \exp\left(-\Omega\left(\frac{(np)^3}{1+np^2}\right)\right) \leq \exp(-\Omega((np)^2))
Remark.
実は Janson の不等式は多くの場合で指数部分が定数倍を除くとタイトなバウンドを与えていることが知られており[5], 非常に強力な不等式であることがわかります.
備忘録.
証明はChernoff boundと同様に \mathrm{E}[\exp(-\lambda Y)] のバウンドをうまく与えるのですが, 独立性が成り立たないのが辛いポイントで, 「とりあえず\lambdaで微分」「アイテムeを固定し, X_eと独立な部分和とそうでない部分和に分けて, 独立でない部分和に関してはFKG不等式を使ったり」などを工夫します.
3. The Kim-Vu polynomial concentration
文献[4]で示された定理を紹介します. 一般的な呼称がわからないのですが自分はとりあえず表題の通り呼んでいます. 2節で用いたセッティングをここでも流用します. すなわち, 台集合 E 上の独立01確率変数 (X_e)_{e\in E} と部分集合族 \mathcal{E}\subseteq 2^E に対して, 新たな確率変数
Y_{\mathcal{E}}=\sum_{F\in\mathcal{E}} w_F\prod_{e\in F} X_e
の集中性を考えます. ここで w_F>0 は重みです. 2節では Janson の不等式を用いて下界だけ示しましたが, この節では集中性を述べる結果を紹介します. 上界も求められるためJansonより汎用性は高いように見えますが, 得られるバウンド自体は Janson よりも少し弱い結果になります.
ここでは, Y_{\mathcal{E}} は X_e を変数として見たとき多変数多項式になっていることに着目します. この節で紹介する定理は, この多項式の次数が小さいときに有効な結果になります.
準備として, 縮約について述べます. 部分集合 A\subseteq E に対して, 確率変数 Y_A を
Y_A=\sum_{F\in\mathcal{E}:A\subseteq F} w_F \prod_{e\in F\setminus A} X_e
例えば \mathcal{E} を 前節で考えた三角形をなす辺集合の族とし, A=\{\{1,2\}\} を辺12のみからなる集合としましょう (今は大集合Eは\binom{n}{2}個の辺集合であることに注意). すると, Y_A は辺\{1,2\}を含む三角形 F に対して 辺\{1,2\}を除去して足し上げたものになっているため,
Y_A = \sum_{u\in V\setminus\{1,2\}} X_{1,u}X_{2,u}
となります. イメージとしては G(n,p) が 辺集合A を含むという事象を条件つけたときの Y_{\mathcal{E}} を表しています.
定理5 (The Kim-Vu polynomial concentration).
Y_{\mathcal{E}} を k 次多項式とする. すなわち, 任意の F\in\mathcal{E} に対して |F|\leq k が成り立つとする. a_k=8^k\sqrt{k!}とし,
\Xi(\mathcal{E})=\max_{A\subseteq E}\mathrm{E}[Y_A],
\Xi'(\mathcal{E})=\max_{\emptyset\neq A\subseteq E}\mathrm{E}[Y_{A}].
と定める. 任意の\lambda>1に対して
\Pr\left[|Y_\mathcal{E}-\mathrm{E}[Y_{\mathcal{E}}]|\geq a_k \sqrt{\Xi(\mathcal{E})\Xi'(\mathcal{E})}\lambda^k\right]\leq O(\exp(-\lambda+(k-1)\log n))
が成り立つ.
3.1. G(n,p) が含む三角形の個数の集中性
三角形の個数は Y_{\mathcal{E}} として表せるため, 定理5により集中性が示せます. A\subseteq Eに対して \mathrm{E}[Y_A] を評価する必要がありますが, Aを一辺 \{1,2\} のみからなる集合のとき, 冒頭の例で述べた事実を使うと
\mathrm{E}[Y_A]= \sum_{u\in V\setminus \{1,2\}} p^2 = O(np^2)
となります. A=\{\{1,2\},\{1,3\}\} ならば, Aを含む F としては三角形123しかありえないので, \mathrm{E}[Y_A]=p です. つまり, Aは増えれば増えるほど Y_A は減っていく一方なので,
\Xi(\mathcal{E})=\max_{A\subseteq E}\mathrm{E}[Y_A]=O(n^3p^3),
\Xi'(\mathcal{E})=\max_{\emptyset\neq A\subseteq E}\mathrm{E}[Y_{A}]=O(np^2)
が成り立ちます. これを定理5に突っ込むと
\Pr\left[|Y_{\mathcal{E}}-\mathrm{E}[Y_{\mathcal{E}}]|\geq \Theta(n^2p^{2.5})\lambda^3\right] \leq O(\exp(-\lambda+2\log n))
となります. 例えば \lambda=3\log n を代入すると, 確率 1-O(n^{-1}) で
\frac{(np)^3}{6}-O(n^2p^{2.5}(\log n)^3) \leq 三角形の個数 \leq \frac{(np)^3}{6}+O(n^2p^{2.5}(\log n)^3)
が成り立つことが簡単に示せます.
[1]. Concentration Inequalities and Martingale Inequalities: A Survey, F. Chung, and L. Lu, Internet Mathematics Vol. 3, No. 1: pp. 79-127 (2006).
[2]. Probabilistic Tools for the Analysis of Randomized Optimization Heuristics, B. Doerr, arXiv:1801.06733, (2018).
[3]. Introduction to Random Graphs, A. Frieze, and M. Karoński, Cambridge University Press, (2016).
[4]. Concentration of multivariate polynomials and its applications, J. H. Kim, and V. H. Vu, Combinatorica, Vol. 20, No. 3, pp. 417-434 (2000).
[5]. The lower tail: Poisson approximation revisited, S. Janson, and L. Warnke, Random Structures and Algorithms, Vol. 48, No. 2, pp. 219-246 (2014).