2021年2月22日月曜日

The 123 Theorem

こんにちは. のぶしみです. 最近Mathlogという数学の記事共有サービスを使って記事を書くことにハマっておりまして, つい最近, エキスパンダーグラフの紹介記事を書きました. しかし今まで5年以上このブログをやってきているので, メジャーなトピックはmathlogで紹介し, マイナーなトピックは引き続きこのブログで紹介していきたいと思います.

そこで今回は123 Theoremと呼ばれる定理を紹介します. 変わった名前ですが, 次の定理です:

定理 (123 Theorem)
$X,Y$を同じ分布に従う実数上の二つの独立な確率変数とする. このとき
$$\Pr[|X-Y|\geq 2] \leq 3 \Pr[|X-Y|\geq 1].$$

123 Theoremという名前は不等式に出てくる三つの定数に由来します. 私がこの定理に初めて出会ったのは2021年1月に研究室の後輩とAlon & Spencer の The Probabilistic Method の輪読していた時に第1章の演習問題として出題されていた時でした. 私は基本的に本を読むときは演習問題は頑張って解く習慣があるので, 頑張って証明しようしたのですがかなり苦戦して, 結局丸一日を溶かして以下のようにして示すことが出来ました. 実は同じ証明が[1]に載っていてビックリしたので紹介します.


証明.
$x_1,\ldots,x_m\in\mathbb{R}$を$X$の分布に従って独立にサンプリングされた$m$個の点とし, $T_r=\{(i,j):|x_i-x_j|\leq r\}$とする ($(i,i)\in T_r$とする). まず

$|T_2| \leq 3|T_1|$ ......(1)

を示す. この主張は定理の離散化みたいなもので, 実は(1)を示せば良いということが以下の議論から分かります:
$$\mathrm{E}[|T_2|]=m+m(m-1)\Pr[|X-Y|\leq 2]$$
$$\mathrm{E}[|T_1|]=m+m(m-1)\Pr[|X-Y|\leq 1]$$
および(1)より
$$m+m(m-1)\Pr[|X-Y|\leq 2] \leq 3m+3m(m-1)\Pr[|X-Y|\leq 1].$$
これを整理すると,
$$\Pr[|X-Y|\leq 2] \leq 3\Pr[|X-Y|\leq 1] + \frac{2}{m-1}.$$
これが任意の$m$に対して成り立つので, $m\to\infty$とすれば,
$$\forall\epsilon>0,\,\Pr[|X-Y|\leq 2] \leq 3\Pr[|X-Y|\leq 1]+\epsilon.$$
即ち定理の主張が従う.

(1)の証明.
有向区間グラフの言葉で説明する. $\{x_1,\ldots,x_m\}$および$r>0$に対し, 有向グラフ$G_r$を, $V(G_r)=[m]=\{1,\ldots,m\}$, $E(G_r)=T_r$とする. 特に$(i,j)\in E(G_r)$ならば$(j,i)\in E(G_r)$でもあるので, 向きを付けることに本質的な意味はないが, 辺の本数=$|T_r|$として議論していきたいので有向グラフを考えることにする. つまり, $|E(G_2)|\leq 3|E(G_1)|$を示せば良い. 

二つのグラフ$G_1,G_2$を考える. 頂点$i$のグラフ$G_r$における出次数を$\deg_r^+(i)$とする. つまり, $\deg_r^+(i)=|\{j\in[m]:(i,j)\in E(G_r)\}|$であり, 自己ループも1としてカウントする.

主張(1)の証明は$m$に関する帰納法で行う. $m=1$なら$T_r=\{(1,1)\}$なので(1)は成り立つ. $m\geq 2$の場合を考える. $i\in[m]$を$G_1$内で最大出次数を持つ頂点とする. このとき, $\deg^+_2(i) \leq 3\deg^+_1(i)$が成り立つことを言う. もし$\deg^+_2(i)>3\deg^+_1(i)$とすると, 数直線上の区間 $[x_i+1,x_i+2]$ と $[x_i-2,x_i-1]$ のどちらかに必ず$>\deg^+_1(i)$個の点がある (下図).

図. もし$\deg_2^+(i)>3\deg_1^+(i)$なら, より出次数の大きい点がとれる.


これは$\deg^+_1(i)$が最大であることに矛盾します. 従って $\deg_2^+(i)\leq 3\deg_1^+(i)$です. $G_1$と$G_2$からそれぞれ頂点$i$を削除して得られるグラフを$G'_1$, $G'_2$とすれば, 帰納法の仮定より$|E(G'_2)|\leq 3|E(G'_1)|$であり, $|E(G_r)|=|E(G'_r)|+2\deg^+_r(i)+1$なので,

$$|E(G_2)|\leq 3|E(G'_1)|+6\deg^+_1(i)+1<|E(G_1)|$$

となり(1)が成り立つ.


補足


123 Theoremはタイトな例を作ることができ, 例えば$\Pr[|X-Y|\leq 2] \leq 2.99\Pr[|X-Y|\leq 1]$は一般には成り立ちません: $\{2,4,6,\ldots,2n\}$上の一様分布を考え, この分布に従う独立な二つの確率変数$X,Y$を考えます. このとき,
$$\Pr[|X-Y|\leq 2] = \frac{3}{n}-\frac{2}{n^2},$$
$$\Pr[|X-Y|\leq 1] = \Pr[X=Y]=\frac{1}{n}$$
より, $\Pr[|X-Y|\leq 2] = 3\Pr[|X-Y|\leq 1] - \frac{2}{n^2}.$


参考文献


[1] N. Alon and R. Yuster. The 123 Theorem and its extensions, Journal of Combinatorial Theory, Series A, 72(2)322--331, 1995.

2021年2月15日月曜日

ランダム正則グラフの sandwich conjecture

ランダム正則グラフ理論において有名な sandwich conjecture と呼ばれる予想があるのですが, 最近この予想に大きな進展[3,4]が見られたので紹介します. このトピックは私が修士の頃から論文を読んで追っていたトピックなので, 今回の進展をもたらした論文の登場は個人的にはかなり衝撃的でした.


1. ランダム正則グラフとErdős–Rényiグラフ


1.1. 定義

$n$ 頂点 $d$-正則の頂点ラベル付きグラフ全体の集合から一様ランダムに取り出したグラフをランダム$d$-正則グラフと呼び, $G_{n,d}$ で表します. また, $n$頂点の各頂点のペアを独立に確率$p$で辺で引いて得られるランダムなグラフを Erdős–Rényiグラフと呼び, $G(n,p)$ で表します. $G(n,p)$の基本的な性質などは以前の記事を参照してください.


1.2. ランダムグラフの解析

ランダムグラフの解析をする上でそのランダムグラフの生成モデルに対する考察が不可欠です. たとえば, 

$p=o(n^{-1})$ に対して $G(n,p)$ は確率 $1-o(1)$ で三角形を含まない

という事実が知られていますが, これは, $X$ を $G(n,p)$内に含まれる三角形の個数と定めたときに, Markovの不等式より

$\Pr[X\geq 1] \leq \mathbb{E}[X] = \binom{n}{3}p^3 \leq (np)^3 = o(1)$

となることから従います. $G(n,p)$を考えると$\mathbb{E}[X]$の期待値が非常に計算しやすいためにこのような簡単に証明できるわけです.

それでは, $G_{n,d}$ に含まれる三角形の個数 $X$ に対して $\mathbb{E}[X]$ を求める時はどのようにすれば良いでしょうか? $G(n,p)$の場合は各辺が独立に出現していたので簡単に $\mathbb{E}[X]$ を求められましたが, $G_{n,d}$ はそうとはいきません.

実は, $G_{n,d}$ には configuration model と呼ばれる生成モデルが知られていて, これを使えば $2^{O(d^2)} nd$ 時間でランダム $d$-正則グラフを生成することができます. 技術的な詳細は省きますが, このconfiguration model に基づけば $d=d(n)$が $n$ に依存しない定数ならば $G_{n,d}$ のさまざまな構造的性質を用意に解析することができます. 例えば, $d$が定数のときは $n\to\infty$ の漸近で三角形の個数$X$ はポアソン分布に従うことが証明できます. また, $d=d(n)$ が $o(\sqrt{\log n})$ くらいまでならなんとかできることもありますが, 例えば $d=(1+o(1))n^{1/3}$ などの場合は難しくなります.

$d=d(n)$ が大きいときの$G_{n,d}$の生成はそれ自体が一つの研究トピックになるほど難しい問題になっていて, 例えば $d=o(n^{1/2})$ に対して $G_{n,d}$ を $O(nd^3)$ 時間でサンプリングする論文がFOCS15に採択されています[6]. このトピックは多くの論文がありますが, 大体は switching method と呼ばれる手法に基づいたものになっていて, この手法を考えることで$G_{n,d}$ の解析を (時にはかなりアドホックな発想も必要になりつつも) 行うことができます ([2]の10章参照). しかしながら switching method を以てしても $d=o(n^{1/2})$ などの条件を課す必要があります. 

すなわち, $d=d(n)$ が大きくなるにつれて$G_{n,d}$の生成と解析は困難なものになっていきます.


1.3. 構造的類似性

$G(n,p)$ の平均次数 $np$ が $np=d=\omega(\log n)$ を満たすとき, $G_{n,d}$と近い構造を持つであろうことが以下の議論から推察できます: まず, $G(n,p)$の頂点 $v$ を固定しその次数 $\deg(v)$ を考えます. この値は$G(n,p)$ がランダムに生成されるので確率変数となっていますが, $\deg(v)=\sum_{u\in V\setminus \{v\}} \mathbb{1}_{uv\in E}$ と書けてこれは独立確率変数の和になっているため, 期待値 $(n-1)p\approx np$ に集中します. 具体的には, Chernoff bound (補足の章の補題A.1参照) とUnion boundを組み合わせると, 任意の$t>0$に対し$$ \Pr[\forall v\in V, |\deg(v)-(n-1)p|\geq t] \leq 2n\exp\left(-\frac{t^2}{2(n-1)p+2t/3}\right)$$が示せます. 特に, $np=\omega(\log n)$ が成り立つときに $t=10\sqrt{np\log n}$ を代入すると, 非常に高い確率で, 全ての頂点の次数が $np\pm 10\sqrt{np\log n}$ の範囲におさまることが示せます. この議論から, $G(n,p)$ は "ほぼ" $(np)$-正則グラフとみなすことができるので, $np=d$のときは $G(n,p)$と$G_{n,d}$は似た構造的性質を持つことが予想されます. 実際, 彩色数や最大クリークのサイズなどは漸近的にほぼ同じ値を持つことが知られています.

(*) あくまでもこの類似性は $d=np$ が大きい場合にのみ成り立つことに注意してください. 例えば $d=np=3$ のとき, $G_{n,d}$ は確率 $1-o(1)$ で連結である一方で $G(n,p)$ は確率 $1-o(1)$ で非連結です.


2. Sandwich conjecture


1章で述べた類似性をちゃんと議論した研究が幾つかあります [1,3,4,5]. 一番最初にこの類似性を研究したのは Kim & Vu [5] です. 彼らの定理を述べるために, $\mathcal{G}(n,p)$ を $G(n,p)$ の分布, $\mathcal{G}_{n,d}$ を $G_{n,d}$ の分布とし, $X\sim \mathcal{G}$ と書いた時は確率変数 $X$ は分布$\mathcal{G}$に従うことを意味します. また, 次の定理ではランダムグラフのカップリングについて考えていきます. カップリングの定義などについては補足A.2を参照ください.


定理1 (Informal; Theorem 2 of [5]).

$d=d(n)\in\mathbb{N}$ を, $d=\omega(\log n)$ かつ $d=o(n^{1/3}/\log^2 n)$ を満たす関数とする.
$p_1=p_1(n)=(1-O(\log n/d)^{1/3}) d/n$,
$p_2=p_2(n)=(1+o(1))d/n$
とする. このとき, 次を満たす $G_L\sim \mathcal{G}(n,p_1)$, $G_d\sim \mathcal{G}_{n,d}$, $G_U\sim \mathcal{G}(n,p_2)$ のカップリング $\pi$ が存在する:
(1) $\Pr[E(G_L) \subseteq E(G_d)] = 1-o(1)$.
(2) 確率 $1-o(1)$ で $E(G_U) \setminus E(G_d)$ のなすグラフの最大次数は $o(\log n)$




定理1の内容はinformalなもの (特に $p_2$ には実際にはもう少し条件が設定されている) であることに注意してください. 厳密なステートメントを知りたい方は元論文[5]を参照してください.

定理1から, $G_{n,d}$ は $d$ が定理1の条件を満たす場合は $p\approx d/n$ に対し $G(n,p)$ を部分グラフとして含むということが従います. 例えばこの $G(n,p)$ が直径$\leq 10$ であったならば, これを含む $G_{n,d}$ も直径$\leq 10$ になることが直ちに従います. より一般的に, 辺の追加における単調性を持つような性質を$G_{n,d}$が持つという証明をしたい場合は対応する $G(n,p)$ で考えれば良いという議論になるので, ランダム正則グラフの構造的性質の証明が一気にしやすくなるわけです.

その一方で, (2)の結果では単に $G(n,p_2)\setminus G_{n,d}$ の最大次数が抑えられるということしか主張しないので, $G(n,p_2)$が$直径>10$であることが言えたとしてもそこから$G_{n,d}$が直径$>10$になることが従うわけではありません. つまり, 定理1には

・ $d=d(n)$ に条件がついている (特に, $d=o(n^{1/3})$じゃないといけない).
・包含関係が片方しか示されていない.

という二つの問題点が残っていることになります. Kim と Vuは sandwich conjectureと呼ばれる次の予想を[5]で提示しています:

予想 (Sandwich conjecture, Conjecture 1 of [5]).

$d=d(n)=\omega(\log n)$ とする. ある関数 $p_1=(1-o(1))d/n$, $p_2=(1+o(1))d/n$ に対して, 以下を満たす $G_L\sim \mathcal{G}(n,p_1)$, $G_d\sim \mathcal{G}_{n,d}$, $G_U\sim \mathcal{G}(n,p_2)$ のカップリングが存在する:
$\Pr[G_L \subseteq G_d \subseteq G_U] = 1-o(1)$.



3. Sandwich conjecture 解決への進展


Sandwich conjectureに対する進展を簡単に紹介していきます.

・Kim & Vu [5] では上にあげた二つの問題点を残していました.

・Dudek, Frieze, Ruciński, and Šileikis [1] は, $d=\omega(\log n)$ かつ $d=o(n)$ ならば, ある$p_1=(1-o(1)) d/n$ に対して 定理1 の(1) の条件を満たすようなカップリングがあるということを示しています. 実際には[1]ではランダムグラフを一般化したランダムハイパーグラフを考えてカップリングの存在性を証明しています. ランダムグラフの本[2]の10章にこの結果の説明と証明が載っているので気になる方は参照ください. 実は, 私が2018年にSODAに通した論文も[1]の結果を用いています.

・Gao, Isaev, and McKay [4] は $d=\omega(n/\sqrt{\log n})$ に対して Conjecture 1 が真であることを主張しています. Kim and Vu の問題点だった逆方向の包含関係を ($d$が非常に大きいという仮定の下ではありますが) 解決したものになっています.

・Gao [3] は $d=\Omega((\log n)^7)$ に対して Conjecture 1 は真であることを主張しています. [4]では $d$ の仮定が非常に強いものでしたが, これをほぼ解決したということになります.


4. まとめ

ランダム正則グラフが研究に出てくるときは, $p=d/n$ に対して $G(n,p)$ を考えると良いです. もし $G(n,p)$ が望ましい性質を持つならば, sandwich conjecture より, 対応する $G_{n,d}$ も同様の性質を持つことが言えるかもしれません.



A. 補足


A.1. 集中不等式

補題A.1 (Chernoff bound; Theorem 21.6 of [2]).

$X_1,\ldots,X_n$を独立な確率変数で, $0\leq X_i\leq 1$ とする (必ずしも同一である必要はない). $S=\sum_{i=1}^n X_i$ とし, その期待値を $\mu$ とする. このとき, 任意の$t>0$に対して以下が成り立つ:

$$\Pr[S\geq \mu+t] \leq \exp\left(-\frac{t^2}{2\mu + 2t/3}\right),$$

$$\Pr[S\leq \mu-t] \leq \exp\left(-\frac{t^2}{2\mu + 2t/3}\right).$$


A.2. カップリング


$X$と$Y$をそれぞれ分布 $\mathcal{D}_X,\mathcal{D}_Y$ に従う確率変数とします. $X$と$Y$の同時分布 $\pi$ であって, $X$と$Y$の周辺分布$\pi_X$, $\pi_Y$ がそれぞれ$\mathcal{D}_X$, $\mathcal{D}_Y$と等しいものを, $X$と$Y$のカップリングと呼びます. この記事では$G(n,p)$や$G_{n,d}$をそれぞれ確率変数とみなし, ランダムグラフ同士のカップリングを考えることがあります. また, 確率変数と分布を区別するために, $G(n,p)$と$G_{n,d}$の分布をそれぞれ $\mathcal{G}(n,p)$, $\mathcal{G}_{n,d}$ と書くことにします.

例1: $G(n,p)$ と $G(n,p)$ のカップリング.

$\mathcal{G}(n,p)$に従って得られた二つのグラフ $G_1,G_2$ が, $G_1=G_2$を満たすようなカップリングが存在します. 最初に$X$として$G(n,p)$を考え, 次に$Y=X$とするだけです. このカップリングにしたがって得られた二つのグラフ $G_1,G_2$は必ず $G_1=G_2$ となっており, $G_1$と$G_2$の周辺分布はどちらも$\mathcal{G}(n,p)$ になっています. 自明な例です.

例2: $G(n,p_1)$ と $G(n,p_2)$ のカップリング.

$p_1\leq p_2$ とします. $G_1\subseteq G_2$ となるような $G_1\sim \mathcal{G}(n,p_1)$ と $G_2\sim \mathcal{G}(n,p_2)$ のカップリングが存在します. まず, $G_2\sim\mathcal{G}(n,p_2)$を生成します. そして得られたグラフ$G_2$の確辺を確率 $1-p_1/p_2$ で削除して得られたグラフを$G_1$とします. このように生成したグラフの組 $(G_1,G_2)$ は $G_1\subseteq G_2$の条件をみたします. $G_2$の周辺分布は明らかに$\mathcal{G}(n,p_2)$です. 最後に$G_1$の周辺分布を考えます. $G_1$の各辺は独立に現れ, その確率は$p_2\cdot (1-(1-p_1/p_2))=p_1$ となり, 確かに$G_1$の周辺分布は$\mathcal{G}(n,p_1)$となります.

この例で紹介したカップリングの存在生から, 例えば次の結果が用意に証明できます:

命題 A.2.

$G(n,p_1)$が確率$1-o(1)$で連結であるとする. このとき, 任意の $p_2\geq p_1$ に対して $G(n,p_2)$は確率$1-o(1)$で連結である.

証明:
例2のカップリング$\pi$を考える. このとき
$$\Pr[G(n,p_2)\text{ is connected}] = \Pr_{(G_1,G_2)\sim \pi}[G_2\text{ is connected}]\geq \Pr_{(G_1,G_2)\sim \pi}[G_1\text{ is connected}]$$
となり, $G_1\sim\mathcal{G}(n,p_1)$は確率$1-o(1)$で連結であることから主張は直ちに従います. 上式の不等号は$G_1\subseteq G_2$から従います.

一般に, 連結性といった, 辺の追加でinvariantなグラフの性質ならどんなものでも命題A.2のような結果が例2のカップリングを使えばすぐに示せます.



参考文献

[1] Andrzej Dudek, Alan Frieze, Andrzej Ruciński, and Matas Šileikis. Embedding the Erdős–Rényi hypergraph into the random regular hypergraph and Hamiltonicity, JCTB, 2017.

[2] Alan Frieze, and Michał Karoński. Introduction to random graphs, Cambridge University Press, 2015

[3] Pu Gao, Kim-Vu's sandwich conjecture is true for all $d=\Omega(\log^7n)$. arXiv, 2020. https://arxiv.org/abs/2011.09449

[4] Pu Gao, Mikhail Isaev, and Brendan D. McKay. Sandwiching random regular graphs between binomial random graphs. In Proceedings of SODA, 2020.

[5] Jeong Han Kim and Van H Vu. Sandwiching random graphs: Universality between random graph models. Advances in Mathematics, 2004.

[6] Pu Gao and Nicholas Wormald. Uniform Generation of Random Regular Graphs, In Proceedings of FOCS, 2015.

2020年10月17日土曜日

SODA21に論文が2本通りました (2/2)

 論文が SODA21 (Symposium on Discrete Algorithms) に 2本採択されました。


Nearly Optimal Average-Case Complexity of Counting Bicliques Under SETH
Shuichi Hirahara and Nobutaka Shimizu

How Many Vertices Does a Random Walk Miss in a Network with Moderately Increasing the Number of Vertices?
Shuji Kijima, Nobutaka Shimizu, and Takeharu Shiraga

の2本です。どちらの論文も非常に面白い内容で、嬉しいことに全ての査読者にかなり褒めて頂きました。


この記事では、前回に引き続き、後者の論文
How Many Vertices Does a Random Walk Miss in a Network with Moderately Increasing the Number of Vertices?
の概要をものすごく簡潔に紹介します。

具体的なモデルと結果を述べると少し長くなってしまうので、背景と貢献を簡単に紹介させて頂きます。


実世界に現れるネットワーク上の解析は、そのネットワーク上での様々な現象 (例えば情報拡散など)の振る舞いを知る上で大きな手がかりとなるため非常に重要な研究トピックの一つとなっており、ランダムウォークなどの手法が用いられることが多々あります。


また、実世界に現れるネットワーク (例えばSNSのネットワーク, 化学反応ネットワーク, 携帯電話の基地のセルラネットワークなど) は時間と共にそのグラフ構造が変化します。


この背景を踏まえ、時間とともに変化する動的なネットワーク上でのランダムウォークを理論的に解析するというのが本論文の主題となります。


実は動的なネットワーク上のランダムウォークは幾つか既存研究があるのですが、それらのほとんどは、辺だけが動的に変化するネットワークを対象としています。


というのも、ネットワーク上でランダムウォークを評価する際には、全頂点を訪問するのに必要な時間 (cover time) 、特定の頂点を訪問するのにかかる時間 (hitting time) 、定常分布に収束するまでにかかる時間 (mixing time) などの指標が基本的です。しかし頂点数が動的に変化するようなネットワークに対してはこれらの指標は定義できない(例えば cover time はどうする?)ため、何を解析していいのかがよく分かりませんでした(つまり、ランダムウォークをしている最中にも頂点が増えていくことがあるので、全頂点を訪問するという概念がよく分かりません)。


本論文では、頂点が動的に増え続けるグラフ (growing graph) 上のランダムウォークを評価する指標として、「時刻1からnまでのランダムウォークでカバーされない頂点の個数」を見ることを提案し、様々なタイプのグラフに対してその個数の期待値の上下界を導出しました。



頂点集合が動的に変化するグラフの解析は非常に重要なトピックではあるものの、そのようなグラフ上のランダムウォークはこれまでほとんど解析されていませんでした。でもそのようなグラフ上のランダムウォークの解析は考えるべき課題であり、その需要に応えたという点がこの論文の最大の貢献です。



SODA21に論文が2本通りました (1/2)

論文が SODA21 (Symposium on Discrete Algorithms) に 2本採択されました。

Nearly Optimal Average-Case Complexity of Counting Bicliques Under SETH
Shuichi Hirahara and Nobutaka Shimizu

How Many Vertices Does a Random Walk Miss in a Network with Moderately Increasing the Number of Vertices?
Shuji Kijima, Nobutaka Shimizu, and Takeharu Shiraga

の2本です。どちらの論文も非常に面白い内容で、嬉しいことに全ての査読者にかなり褒めて頂きました。

この記事では、前者の論文
Nearly Optimal Average-Case Complexity of Counting Bicliques Under SETH
の概要をものすごく簡潔に紹介します。

この論文はNIIの平原 秀一さんとの共著です。今年の2月に 冬のLA symposium で発表させていただいた内容を論文としてまとめたものになっています。

この論文は「ランダムグラフの tractability」が主要なテーマです。NP困難な問題は "intractable" であるというイメージを持つ方が多いと思います。しかしながらNP困難であるからといって実用的に解けないというわけではないはずです。なぜならば、その問題がNP困難であるとは、$\mathrm{P}\neq \mathrm{NP}$の下で

任意の多項式時間アルゴリズム $A$ に対し, ある入力の族 $(x_n)_{n\in\mathbb{N}}$ が存在して 全ての$n\in\mathbb{N}$に対し$A(x_n)$は不正解となる

ことを主張しているに過ぎず、つまるところ意地悪な入力 $x_n$ は非常に人工的に構成されたものになるからです。ですので、現実世界にしばしば現れるような入力ではもっと高速に解ける可能性があるはずです!

ということは、問題の時間計算量を、「全ての入力に対し正解する最速のアルゴリズム」ではなく「多くの入力に対して正解する最速のアルゴリズム」で測るという考え方がより実用性に近いと思われます。この考え方を平均計算量といいます。平均計算量のより詳しいフレームワークはこちらを参照してください。

この論文では、「$n^{c+o(1)}$ 時間で解けるとあるグラフ上の問題に対し, (SETHと呼ばれる予想の下で)ランダムグラフ上ですら $n^{c-\epsilon}$ 時間では解けない 」ことを証明しました。具体的には、ランダム二部グラフが入力として与えられたときにそれに含まれる完全二部グラフ $K_{a,b}$ と同型な部分グラフの個数を数え上げる問題を考えます。この問題は愚直にやると $O(n^{a+1})$ 時間で解くことができます (頂点を $a$ 個列挙し、その$a$個全てに隣接している頂点を列挙すれば良い)。また、例えば $a=b=2$ の場合だとこれは四角形の個数をカウントする問題になりますが、これは現状知られている中では $O(n^{\omega})$ 時間が最速です ($\omega <2.373$ は高速行列積の指数). この論文では $K_{a,b}$ 数え上げ問題に対し、
(i). $a\geq 8$ なら $bn^{a+o(1)}$ 時間で解けることを証明
(ii). SETHの下では任意の $\epsilon>0$ に対し, 十分大きな $b=b(a,\epsilon)$ が存在して $K_{a,b}$ の数え上げは$n^{a-\epsilon}$ 時間では解けないことを証明
(iii). ランダム二部グラフ上で $T(n)$ 時間で解けるならば、全ての入力に対し $T(n)\mathrm{polylog}(n)$ 時間で解く乱択アルゴリズムが存在することを証明
しました。

SETH に関しては Hardness in P について紹介しているこちらのページを参照ください。

(ここから先は専門家向けの説明になります)

実はこの論文の最大の貢献は、fine-grained average-case complexity に hardness amplification の枠組みを提供したことにあります。hardness amplification は 平均計算量の世界ではかなりスタンダードなツールなのですが、local list decoding なので uniform な計算モデルで考えようとすると advice が必要になり、fine-grained な世界には実は愚直には適用することができません。しかし、今回のような数え上げの問題のように良い性質を持つ問題ならば適用することができる、というのが最大のウリです。

2020年10月16日金曜日

ICALP20に論文が通りました。

半年くらい前の話になってしまいますが、ICALP2020 (International Colloquium on Automata, Languages and Programming) に論文が通りました。中央大学の白髪 丈晴さんとの共著です。

この論文では以前の論文と同様にグラフ上の合意モデルと呼ばれるものを解析しています。合意モデルでは、各頂点が意見を持った無向連結グラフを考えます。各ラウンドで各頂点は隣接点と通信を行い、予め定められたプロトコルに従い意見を同時に更新します。プロトコルの目的は合意(つまり全頂点が同じ意見を持つ状態)に至ることで、それまでにかかるラウンド数が興味の対象となります。具体的にはpull voting, best-of-two, best-of-three などが非常に有名で、特に分散コンピューティングの文脈でよく研究されています。詳細はリンク先を参照してください。

幾つかの既存結果では best-of-two や best-of-three といった特定のモデルに対してそれぞれアドホックに解析がなされていましたが、本研究の最大の特徴はこれらのモデルを含む幅広い合意モデルのクラス quasi-majority functional voting と呼ばれる合意モデルを提案したことにあります。そして、この広いクラスに属する合意モデルがエキスパンダーグラフ上だと高速 ($O(\log n)$ ラウンド) に合意に至ることを証明しました。

簡単なアイデア


今回は各頂点が二種類$A,B$どちらかの意見を持つケースを考えています。このとき、合意モデルは $2^V$ 上のマルコフ連鎖と見なせます。しかし、完全グラフ上だと $A$の意見を持つ人数にだけ着目すればよくなるので、マルコフ連鎖の状態空間は $\{0,\ldots,|V(G)|\}$ とできるので解析が一気に簡単になります。エキスパンダーグラフ上の合意モデルは、厳密には $2^V$ 上のマルコフ連鎖ですが、実は $\{0,\ldots,|V(G)|\}$上のマルコフ連鎖に「近似」できることを証明しました。この話は best-of-two では既に知られており、Expander Mixing Lemma を用いることで証明できるのですが, この研究ではそれを拡張したいわば "Nonlinear Expander Mixing Lemma" のようなものを証明し、それを利用して幅広い合意モデルの解析に応用しました。

議論をするたびに共著者様がすごく非自明な式変形を涼しい顔で繰り出してこられたのがとても面白かったです(ありがとうございました)


2020年9月30日水曜日

with high probability について

皆さんは with high probability (w.h.p.) という用語をご存知でしょうか。機械学習とかグラフ理論とか色んな文脈で出てきますが文脈に応じて定義が違うのでこれらを整理したいと自分は常々思っています。

例えば、アルゴリズムを扱う文脈 (以後、文脈1と呼ぶ) では、「アルゴリズム $A$ が w.h.p. で $T(n)$ 時間で動く」と言ったときは、ある定数 $c>0$ が存在して

$$ \Pr[A \text{ runs in time }T(n)] \geq 1-n^{-c}$$

が成り立つことを意味します。

一方で、ランダムグラフなどの文脈 (以後、文脈2と呼ぶ) では「ランダムに生成されたグラフ $G$ が w.h.p. で性質$\mathcal{P}$ を満たす」と言ったときは、

$$\lim_{n\to \infty} \Pr[G\text{ satisfies }\mathcal{P}] = 1$$

が成り立つことを意味します。

つまり、文脈1の方が漸近のスピードにより厳しい条件を課しています。


自分は両方の文脈に出会うことが多いのでいつも困惑してしまいますが、
文脈2の w.h.p. は asymptotically almost surely (a.a.s.) と言うこともあるようなので、
・文脈1 → w.h.p.
・文脈2 → a.a.s.
と使い分けるようにしています。基本的には両者が同時に出てくることは高確率でないとは思うのですが、自分はレアケースを引いてしまいました...

他にも似たような数学用語として
・almost surely (a.s.)
・almost everywhere (a.e.)
などがありますが、a.e. は測度論で使われる用語、a.s.は確率論で使われる用語で、
・almost surely は 「確率1で」
・almost everywhere は「測度0を除いて」
という意味になるので、基本的には連続の空間で意味をなす用語です。



2020年8月20日木曜日

予想の紹介は止そう

グラフ理論に残されたconjectureを幾つか紹介します。今回の記事は open problem garden を参考にさせて頂き、面白いと感じた予想の中身と簡単なコメントのみを広く浅く紹介させて頂く形になってます。ですのでその予想を思いつくモチベーションとか重要性などは書いていませんので、気になる方は予想の名前で検索して色んな文献を調べてみてください。もし何か間違っている点がありましたらご指摘いただけると幸いです。


1. 5-flow conjecture

登場人物.

・$G=(V,E)$ : ループなしグラフ。ただし多重辺は持ちうる。

・$D$ : $E$の向き付け.

・$\phi:E \to \mathbb{Z}_{\geq 0}$

・$\phi$ が nowhere-zero であるとは、全ての辺 $e\in E$ に対し $\phi(e)\neq 0$ が成り立つことをいう。

・$(D,\phi)$ が $k$-flow であるとは、$\phi$の値域が$\{0,\ldots,k-1\}$であり, 全ての頂点$v\in V$においてキルヒホッフ則を満たすことをいう。つまり、

$$\forall v\in V, \sum_{e\in \delta^{-}(v)} \phi(e) = \sum_{e\in \delta^+ (v)} \phi(e)$$

が成り立つことをいう。ここで$\delta^{-}(v)$ と $\delta^{+}(v)$ は $v$にそれぞれ向き付け$D$において $v$ に入る辺と出る辺の集合である。

Conjecture [Tutte, 1954].

    橋を持たない任意のグラフは nowhere-zero な 5-flow を持つ。


コメント.

・橋を持つグラフならnowhere-zeroなフローはない(橋をどちらの向きにしても流量は保存されないから)。

・5ではなく6なら証明されている [Seymour, 81].


2. Cycle Double Cover Conjecture

登場人物.

・$G=(V,E)$: グラフ.

・閉路の多重集合 $[C_1,\ldots,C_m]$ が $G$の cycle double cover であるとは、$G$の全ての辺がちょうど2個の相異なる $C_i$ と $C_j$ に含まれることをいう。

Conjecture [Szekeres, 73][Seymour, 80].

橋を持たない任意のグラフは cycle double cover を持つ。

コメント.

・cycle double cover が多重集合であることには意味があります。例えば $G$ が単なる閉路の場合は多重集合じゃないと予想の反例になってしまいます。

・$G$が橋を持たない平面グラフなら、面の全体 (外面も含む)が cycle double cover になりますね。

・$G$が橋を持つなら、その橋はいかなる閉路にも含まれないので cycle double cover を持ちません。

・「この予想を証明した」と主張する論文が幾つかarXivにあがっています。


3. The Berge-Furkerson Conjecture

登場人物.

・$G$ : 橋を持たない$3$-正則グラフ.

Conjecture [Fulkerson, 71]

$G$には以下を満たす6個の完全マッチング $M_1,\ldots,M_6$ が存在する:

    全ての辺はそれぞれ$M_1,\ldots,M_6$のうちちょうど2個に含まれる。

コメント.

・$M_1,\ldots,M_6$ は相異なる必要はありません (例えば$M_1=M_2$でもokです)。

・$G$ は必ず完全マッチングを持ちます (cf. ピーターセンの定理)

・$G$ が 3-辺彩色可能なら、それぞれの色を持つ辺集合を$M_1=M_2, M_3=M_4, M_5=M_6$ とすれば構成できます。

・Fulkerson が初めて提示した予想ですが、元々 Berge がこれに似ているちょっと弱い予想をunpublishながら提示していて、それを元に Fulkerson が提示したものらしいです。

・余談ですが、橋を持たない3正則グラフで3-辺彩色可能でないもののうち最小のグラフがピーターセングラフです。ちなみに色んな予想の反例になることで有名なピーターセングラフに対してもBerge-Fulkerson conjectureは成り立ちます。実際、$M_1,\ldots,M_6$ として次が考えられます。



4. Erdős–Gyárfás Conjecture

Conjecture [Erdős, 97].

全ての次数が3以上の任意のグラフは長さが2ベキの閉路を含む.


コメント.

・示したら$100, 反例を見つけたら$50 貰えるらしい。

・3-連結かつ3-正則な平面的グラフでは成り立つ [Heckman, Krakovski, 13].

・次数2の頂点を許すと反例が簡単に構成できます。例えば

・ピーターセングラフは15頂点で長さ4の閉路を持たないのですが、長さ8の閉路を持ちます。


5. Reconstruction Conjecture.

登場人物.

・$G=(V,E)$ : 多重辺を持ちうるグラフ

・$n$頂点グラフ $G$ に対して, $D(G)$ を多重集合 $[H_1,\ldots,H_n]$ であって各 $H_i$ は $G-v_i$ と同型なラベルなしグラフ と定める。ただし $v_i$ は $G$ の $i$番目の頂点。例えば



Conjecture [Kelly, 57][Ulam, 60].

3つ以上の頂点を持つ二つのグラフ $G,H$ が $D(G)=D(H)$ を満たすならば、$G$ と $H$ は同型.

コメント

・要するに、各頂点を削除した時のグラフの形状をみれば元々のグラフ$G$の形状が復元できる、ということを主張しています。

・2頂点だと多重辺を持つグラフ同士が識別できなくなってしまいます。

・$D(G)$ は $G$ の デッキ (deck) と呼ばれます。

・[Kelly, 57] では $G$ が木である場合にreconstruction conjectureが正しいことを証明しています。


6. The Barnette Conjecture

Conjecture [Barnette, 69].

任意の3-連結, 3-正則, 二部な平面的グラフはハミルトン閉路を持つ.

コメント.

・二部という条件は本質で、二部じゃない場合は反例が [Tutte, 46] で見つかっています(二部の条件を外した時のステートメントは元々は[Tait, 1884]が予想していて、Tutteが反例を見つけたということです。詳しくは Tait's Conjecture を参照)。

・3正則平面的グラフがハミルトン閉路を持つかどうかの判定がすでにNP-completeなのでコンピュータによるチェックは大変ですが、66頂点未満のグラフはこの予想が正しいことが知られています [Holton, Manvel, McKay, 85]。100頂点未満のグラフで確認とかしたら学士論文とかになるんじゃないですかね。

アルゴリズムの理論研究の最高峰とは?

競プロで道具として用いられる様々な賢いアルゴリズムやデータ構造の多くは, 非常に賢い研究者たちによって発見されており, ほとんどは理論計算機科学の論文として国際学会の会議録や学術雑誌の形として出版されています. ここではアルゴリズム系の研究論文がよく出てくる様々な国際会議を紹介し...