ビット演算（ビットボード）によるライフゲーム高速化

Nobuhide Tsuda

23-Dec-2012

概要

　単純な遷移ルールによる2次元セル・オートマトンである Conway's Game of Life（ライフ・ゲーム）の次世代状態計算を行う高速なアルゴリズムを調査・考案・実装・評価した。
ビットボード演算により８近傍のON状態数をカウントすることで、条件分岐をまったく使用せず多くのビットをパラレルに処理することができる。
本稿では32ビット長までの実装・計測を行なったが、レジスタのビット数に比例した処理速度を得ることが出来るので、 SSE の128ビットレジスタを使用すれば、テーブルを引く方法のように多量のメモリを使用することもなく、さらに4倍程度の高速化も可能である。

ライフゲーム

Conway's Game of Life
1970年に英国数学者の John Horton Conway が考案。当時、計算機科学者・技術者の間で大ブームとなる。
２値（ON/OFF, 1/0, 生/死）状態の２次元セル・オートマトン
自分自身・８近傍の状態により次の状態が確定的に決まる
８近傍でON状態のセル数を数え、３の場合は次の状態はON、２の場合は現状維持
上記以外の場合（0, 1, 4～8）の場合は、OFFとなる
bd' = (bd & s2) | s3 （※ s2は8近傍の生きているセル数が2、s3 は 3）
比較的単純なパターンが予想もつかないパターンに成長することもあり、みていて飽きない
対称的なパターンは結構美しい
無限に増殖できるかどうかを証明したものに $50 の賞金
→ MIT の Bill Gosper らのチームが無限にグライダーを発射し続けるグライダー砲を発見。
以下の動画がライフゲームの魅力について非常に詳しく解説している。必見だお。
ライフゲームの世界【複雑系】ライフゲームの世界２【複雑系】ライフゲームの世界３【複雑系】
ライフゲームの世界４【複雑系】ライフゲームの世界５【複雑系】ライフゲームの世界６【複雑系】ライフゲームの世界７【複雑系】ライフゲームの世界８【複雑系】ライフゲームの世界最終回【複雑系】

データ構造

２次元セル・オートマトンだが、データ構造は１次元配列にするのが定石
std::vector<T> buffer を使うといいぞ
型 T は bool, byte, uint, uint64 などが可。byte を使うのが無難
bool の場合は true/false で ON/OFF を表す。
bool 以外の場合は MSB が左側とし、ビット値が 1 ならば ON とする。
例：「・＊・＊＊・＊・」→ 01011010 → 0x5a
周囲に値が０の番人を置いた方が、境界チェックをしなくていいので高速になるぞ。

    ┏━━━━━━━━━━━┓
    ┃         番人         ┃
    ┃  ┌────────┬┨
    ┃  │・(0, 0)        │┃パディング
    ┃  │                │┃(w が T のサイズの倍数で無い場合）
    ┃  │                │┃
    ┃  │     (w-1,h-1)・│┃
    ┃  └────────┴┸━┓
    ┃         番人             ┃
    ┗━━━━━━━━━━━━━┛
     ←      hSize      →

T を byte、座標値を0オリジンにした場合、(x, y) に対応するオフセット、マスクは以下のように計算出来る

    int offset = (x + 1) / 8 + (y + 1) * hSize;
    int mask = 0x80 >> (x & 7);

x, y 位置セルの状態は (buffer[offset] & mask) != 0 で参照できるぞ
x, y 位置セルを ON にするときは buffer[offset] |= mask だぞ
x, y 位置セルを OFF にするときは buffer[offset] &= ~mask だぞ
次世代の計算は、現世代の buffer を参照し、結果を別のベクターに格納し、計算が終わったら swap するのがよい

次世代状態計算（定義通りの自然な方法）

まずは、ライフゲームの定義どおりに自然に計算する方法を示す。
これは、あとで処理を高速化した時の比較用でもある
前節で説明した方法で pixel(x, y) : bool で buffer の状態を参照、setPixel2(x, y, bool) で buffer2 の状態を設定できるものとする
コードは以下のように記述できる

    std::vector<byte> buffer2;    //  結果を一時的に保存するバッファ（予め作成しておく）
    for(int y = 0; y < h; ++y) {
        for(int x = 0; x < w; ++x) {
            const int cnt =     //  8近傍の状態がONのセル数を求める
                        (pixel(x - 1, y - 1) ? 1: 0) +
                        (pixel(x, y - 1) ? 1: 0) +
                        (pixel(x + 1, y - 1) ? 1: 0) +
                        (pixel(x - 1, y) ? 1: 0) +
                        (pixel(x + 1, y) ? 1: 0) +
                        (pixel(x - 1, y + 1) ? 1: 0) +
                        (pixel(x, y + 1) ? 1: 0) +
                        (pixel(x + 1, y + 1) ? 1: 0);
            bool b = cnt == 3 || cnt == 2 && pixel(x, y);
            setPixel2(x, y, b);     //  結果を buffer2 に設定
    	}
    }
    buffer.swap(buffer2);    //  バッファを交換

この方法で 1280x800 セルの次世代状態を求めた場合、処理時間は約24ミリ秒だった。
環境：Core i5 670 @3.47GHz, 12.0GB, Win7 x64, VS2010 + Qt, 32bitモードでビルド
セル数は約100万なので、1セルあたりの処理時間は約24ナノ秒ということになる。
１ナノ秒に約３命令を実行するとすれば、１セルを処理するのに約72命令を費やしている計算になる。

次世代状態計算（テーブルを引く方法）

次世代の状態は8近傍と注目点の合計９ビットの状態で決まるので、９ビット分のテーブルを用意しておいて、テーブルを引くことにより次世代状態を得ることも出来る。
だが、この方法はテーブルインデックスの計算にかなりの演算回数を必要とするし、テーブルを引くことに対応する演算数はもともと多くない（比較２回と論理演算１回）なので、あまり高速化にはならない
１ビットではなく多数ビットを一度に処理すれば高速化することができるが、その分テーブルが巨大になり実用的ではない
例えば、８ビットを一度に処理するには2^30バイトものテーブルが必要となる
４ビットを一度に処理（テーブルサイズは 2^18）するのが実際上は限度ではないかと考える

次世代状態計算（ビットボードを使用する方法）

1ビットごとに計算するのではなく N ビットをまとめて計算するようにしてみる。
8ビットまとめて計算すれば、単純に言えば8倍高速になる。64ビットや 128ビットまとめて計算すれば、恐ろしく高速になる。（※ 実際には余分な処理が入るので、単純にビット数倍高速にはならない）
「ライフゲームビットボード」でググると以下のページがみつかる
ビットボード(Bitboard)を用いたライフゲームのソースコード
このページで解説されているアルゴリズムは非常に面白い。

各ビットについて、左上・上・右上・左・右・左下・下・右下の8近傍のビットを求め、それを a, b, c, ... h とする
a～h の各ビットごとの合計を s0～s8（※ 意味は数行後で説明）に求め、
(bd & s2) | s3 を次の状態とする

一瞬わかりづらいのは s0～s8 の意味である。各ビットはビットの数がちょうどその数の場合のみ１となるのだ
ますますわかりづらいかもしれないので、例を下図に示す
（※ 下図では処理単位を８ビット（1 byte）にしているが、処理単位は任意のレジスタ長で可能である。
例えば、SSE を使用すれば、速度低下無しに128ビットを処理単位にすることが出来る）

    ０│０１１０００１０│１
    ─┼────────┼─
    ０│０１００１１００│０    //  注目箇所・周辺の生データ
    ─┼────────┼─
    ０│１０１１００００│１

               ↓       ８近傍データに変換

    ａ: ００１１０００１
    ｂ: ０１１０００１０
    ｃ: １１０００１０１
    ｄ: ００１００１１０
    ｅ: １００１１０００
    ｆ: ０１０１１０００
    ｇ: １０１１００００
    ｈ: ０１１００００１
    ＋  ----------------
        ３４５４２２２３    //  ビットごとの１の数

               ↓

    s0: ００００００００
    s1: ００００００００
    s2: ００００１１１０
    s3: １００００００１
    s4: ０１０１００００
    s5: ００１０００００
    s6: ００００００００
    s7: ００００００００
    s8: ００００００００

               ↓       s3 | (bd & s2)
    
    bd: １０００１１０１

s0～s8 を求めるために、a～h を順に加算しているというわけだ
ただ、先のページのプログラムは、純粋にライフゲームの計算としては無駄がある
必要なのは s2, s3 のみなので、s4～s8 を計算する必要はない。また、最後の方の s0, s1 の計算も s2, s3 に影響を及ばさないので不要である。
不要部分を除いたコードは以下のようになる

    s2 = a & b;
    s1 = a ^ b;
    s0 = ~(a | b);  //  a と b の加算、論理演算回数：４
    s3 = s2 & c;
    s2 = (s2 & ~c) | (s1 & c);
    s1 = (s1 & ~c) | (s0 & c);
    s0 &= ~c;       //  c を加算、論理演算回数：１１（９）
    s3 = (s3 & ~d) | (s2 & d);
    s2 = (s2 & ~d) | (s1 & d);
    s1 = (s1 & ~d) | (s0 & d);
    s0 &= ~d;       //  d を加算、論理演算回数：１４（１１）
    s3 = (s3 & ~e) | (s2 & e);
    s2 = (s2 & ~e) | (s1 & e);
    s1 = (s1 & ~e) | (s0 & e);
    s0 &= ~e;       //  e を加算、論理演算回数：１４（１１）
    s3 = (s3 & ~f) | (s2 & f);
    s2 = (s2 & ~f) | (s1 & f);
    s1 = (s1 & ~f) | (s0 & f);
    s0 &= ~f;       //  f を加算、論理演算回数：１４（１１）
    s3 = (s3 & ~g) | (s2 & g);
    s2 = (s2 & ~g) | (s1 & g);
    s1 = (s1 & ~g) | (s0 & g);
    //s0 &= ~g;     //  g を加算、論理演算回数：１２（１０）
    s3 = (s3 & ~h) | (s2 & h);
    s2 = (s2 & ~h) | (s1 & h);
    //s1 = (s1 & ~h) | (s0 & h);
    //s0 &= ~h;     //  h を加算、論理演算回数：８（７）

論理演算の回数合計は、4 + 11 + 14 * 3 + 12 + 8 = 77 となる。
（※ c～h の反転演算は１回行えばいいので、それを考慮すると 4 + 9 + 11*3 + 10 + 7 = 63 となる）
先の例は8bit変数を使用していたが、そのCPUが扱える最大のビット数を用いるればより高速になる
※ Core i5 32 bit モードでビルドした場合、uint64 を使用可能だが、32ビットレジスタを２つで64ビット演算を行うので、 32ビットで計算した場合よりも、かえって遅くなってしまった。
なお、８近傍の生データを引数にとり、次世代の状態を返す関数は以下のように定義できる

template<typename T>
T nextGeneration(byte UL, T U, byte UR, byte L, T bd, byte R, byte DL, T D, byte DR)
{
    const int MSB = 0x80 << (sizeof(T)*8 - 1);
    T a = (U >> 1) | (!(UL & 0x01) ? 0 : MSB);
    T b = U;
    T c = (U << 1) | (!(UL & 0x80) ? 0 : 1);
    T d = (bd >> 1) | (!(L & 0x01) ? 0 : MSB);
    T e = (bd << 1) | (!(L & 0x80) ? 0 : 1);
    T f = (D >> 1) | (!(DL & 0x01) ? 0 : MSB);
    T g = D;
    T h = (D << 1) | (!(DL & 0x80) ? 0 : 1);

    a～h から s2, s3 を計算;

    return (bd & s2) | s3;
}

８近傍の生データの取得位置を下図に示す。

    ┏━━━━━━━━━━━━━┓
    ┃         番人             ┃
    ┃  ┌──────────┬┨
    ┃  │ ┌─┬───┬─┐ │┃
    ┃  │ │UL│  U   │UR│ │┃
    ┃  │ ├─┼───┼─┤ │┃
    ┃  │ │L │  bd  │R │ │┃
    ┃  │ ├─┼───┼─┤ │┃
    ┃  │ │DL│  D   │DR│ │┃
    ┃  │ └─┴───┴─┘ │┃
    ┃  └──────────┴┸━┓
    ┃         番人                 ┃
    ┗━━━━━━━━━━━━━━━┛

次世代状態計算（より高速な方法）

a～h から s2, s3 を計算するのにもっと高速な方法はないものかとランチを食べながらいろいろ考えてたら、ピコン！とひらめいた。
s2, s3 を直接計算するのではなく、まずビットごとの加算を行う。合計の上限は８なので、４ビットあれば十分である。
※ 加算処理は論理回路による加算器と同じように処理する
合計値を b0, b1, b2, b3 とすれば、s2, s3 は以下の式で求めることが出来る

    s2 = ~b3 & ~b2 & b1 & ~b0;
    s3 = ~b3 & ~b2 & b1 & b0;

さらに、合計値の上限は８なので 1010 または 1011 になることはあり得ないので、b3 の計算は不要である。
このアルゴリズムでの計算例を以下に示す

    ａ: ００１１０００１
    ｂ: ０１１０００１０
    ｃ: １１０００１０１
    ｄ: ００１００１１０
    ｅ: １００１１０００
    ｆ: ０１０１１０００
    ｇ: １０１１００００
    ｈ: ０１１００００１
    ＋  ----------------
        ３４５４２２２３    //  ビットごとの１の数

               ↓

    b2: ０１１１００００
    b1: １０００１１１１
    b0: １０１００００１

               ↓

    s2: ００００１１１０
    s3: １００００００１

a～h から b0～b2 を計算してから s2, s3 を求めるコードを以下に示す

	b0 = a ^ b;
	b1 = a & b;
	b2 = 0;			//	a と b を加算、論理演算回数：２
	x = b0 & c;		//	桁上り
	b0 ^= c;
	b2 ^= b1 & x;
	b1 ^= x;		//	c を加算、論理演算回数：５
	x = b0 & d;
	b0 ^= d;
	b2 ^= b1 & x;
	b1 ^= x;		//	d を加算、論理演算回数：５
	x = b0 & e;
	b0 ^= e;
	b2 ^= b1 & x;
	b1 ^= x;		//	e を加算、論理演算回数：５
	x = b0 & f;
	b0 ^= f;
	b2 ^= b1 & x;
	b1 ^= x;		//	f を加算、論理演算回数：５
	x = b0 & g;
	b0 ^= g;
	b2 ^= b1 & x;
	b1 ^= x;		//	g を加算、論理演算回数：５
	x = b0 & h;
	b0 ^= h;
	b2 ^= b1 & x;
	b1 ^= x;		//	h を加算、論理演算回数：５

	x = ~b2 & b1;		//	共通部分
	s2 = x & ~b0;
	s3 = x & b0;		//	s2, s3 を計算、論理演算回数：５

論理演算の回数合計は、2 + 5 * 6 + 5 = 37 となる。
s2, s3 を直接求める方法に比べ、加算処理が簡単になり、論理演算の合計回数が約半分に減った

次世代状態計算（もうちょい高速な方法）

前節の方法は (…((a+b)+c)+d)+…+h) という手順で加算を行ったが、(((a+b)+(c+d))+…) という手順でも加算が出来る
最初の２ビットだけの加算は論理演算回数が２回で済むが、それ以降はキャリーを考慮しなくてはいけないので、論理演算回数が５回になる
a+b, c+d, e+f, g+h と計算すれば、演算回数を(5-2)*3回節約できる計算だ
コードは以下のようになる

	//	a + b → (xab a), c + d → (xcd c),… を計算、論理演算回数：２＊４＝８
	xab = a & b;	//	a + b の上位ビット
	a ^= b;
	xcd = c & d;
	c ^= d;
	xef = e & f;
	e ^= f;
	xgh = g & h;
	g ^= h;
	// (xab a) + (xcd c) → (c b a)		論理演算回数：５
	d = a & c;
	a ^= c;
	c = xab & xcd;		//	b2 が１になるのは (1 0) + (1 0) の時のみ
	b = xab ^ xcd ^ d;
	// (xef e) + (xgh g) → (g f e)		論理演算回数：５
	h = e & g;
	e ^= g;
	g = xef & xgh;		//	b2 が１になるのは (1 0) + (1 0) の時のみ
	f = xef ^ xgh ^ h;
	//	(c b a) + (g f e) → (c b a)	論理演算回数：９
	d = a & e;
	a ^= e;
	h = b & f;
	b ^= f;
	h |= b & d;		//	d は b0 からの桁上り
	b ^= d;
	c ^= g ^ h;
	//	論理演算回数：５
	x = ~c & b;
	s2 = x & ~a;
	s3 = x & a;

論理演算の回数合計は、2*4 + 5*2 + 9 + 5 = 32 となる。
a～h を順に加算する方法に比べ、論理演算の合計回数が約13.5%減少した

次世代状態計算（アイデア倒れな方法）

実は、a～h から s2, s3 を計算する方法はこれまでに説明した方法以外にもいろいろ考えた。その中で、ちょっと面白い方法を考えついたのだが論理演算回数が減らずアイデア倒れになってしまったものがある。
だが、せっかく考えついたのにくやしいから参考までに、ここに記述しておく
それは、ビットの合計数を求めずに s2, s3 を求めるという方法だ。
a～h を各ビットごとにソートすることを考える。先の例では以下のようになる

    ａ: ００１１０００１
    ｂ: ０１１０００１０
    ｃ: １１０００１０１
    ｄ: ００１００１１０
    ｅ: １００１１０００
    ｆ: ０１０１１０００
    ｇ: １０１１００００
    ｈ: ０１１００００１

               ↓       ビットごとにソート

    ａ: ００００００００
    ｂ: ００００００００
    ｃ: ００００００００
    ｄ: ００１０００００
    ｅ: ０１１１００００
    ｆ: １１１１０００１
    ｇ: １１１１１１１１
    ｈ: １１１１１１１１

上記のようにソートしてしまえば、s2 = ~f & g; s3 = ~e & f; とすればよい！
で、ビットごとのソートをどうするかなのだが、２変数だけの場合は以下のようにすればよい

    x = a & ~b;     //   a == 1, b == 0 の場合のみ 1 とする
    a ^= x;
    b ^= x;         //  論理演算回数：４回

あとはこれを複数回使ってソートすればよい
単純なバブルソートであれば、上記を 7 + 6 + 5 + 4 + 3 + 2 + 1 = 28 回実行すればよい。
論理演算の合計回数は 4 * 28 = 112 にもなってしまう。orz
合計を素直に求める方法よりはるかに遅くなってしまった。orz
この方法も、e, f, g の値さえ正しく求まればいいので、いくつかのソート処理を省略できると思う。
また、バブルソートではなく、シェルソートやマージソートを使うともっと速くなりそうである。
しかし、どう最適化しても、b0～b3 で合計を求める方法以下にはなりそうもないと考える

パフォーマンス測定結果

測定環境：Core i5 670 @3.47GHz, Mem12.0GB, Win7 x64, VS2010 + Qt, 32bitモードでビルド
測定内容：1280x800 セルにランダムデータをセットし、1世代後の状態を計算に要する時間を測定
測定方法：QTestLib の BENCHMARK マクロを使用（自動的に複数回処理を行い、平均値を計算）
測定結果：

方式	処理時間（ミリ秒）
定義通りに処理 1ピクセル単位	24 (total: 97, iterations: 4)
8近傍→s3～s0（順次計算）８bit単位	5.4 (total: 87, iterations: 16)
8近傍→b2～b0（分割計算）→s3,s2 ８bit単位	4.7 (total: 76, iterations: 16)
8近傍→b2～b0（分割計算）→s3,s2 32bit単位	1.0 (total: 69, iterations: 64)

定義どおりに１セルごとに計算する方法に比べ、24倍も高速になった。

評価・考察・今後の課題

ビットボードによる処理はCPUの処理単位（レジスタのビット長）が上がれば、その分処理が高速化される、スケーラブルな処理方式である。
今回は実装しなかったが、最近の Core シリーズであれば、SSE 命令で 128ビットを一括処理することも可能。
テーブルを引く方法もかなり高速であるが、テーブルサイズ増大問題があり、ビットボードに比べると多くのビットを一度に処理することが出来ない。
生データから直接次世代を計算するより、８近傍データ、ビットごとの合計値、s2・s3ビットと計算してから次世代を計算した方が高速なのは興味深い。
処理方式を考えることは戦略で、処理方式を高速に実装することは戦術に対応すると考える。
高速化とは結局は無駄を省くことである。
ビットボードよりも高速な「ハッシュライフ」という方式もあるが、メモリを多量に消費し、実装がかなり難解らしい。将来的には試してみたい。
Qt を使用し、Windows/Android 上で実装してみた＞ライフゲーム
実際に動作するものを見たい人は試してね。
今回調査・考案・実装した方式をデータフローっぽい図にしてみた：

┌────────┐ １セルごとに定義どおりに処理（非ビットボード）約72命令/pixel
│１次元配列データ│─────────────────────────────────┐
└────────┘                                                                  │
     │                                                                               │
     │各配列要素について処理                                                         │
     ↓                                                                               │
┌───────────────┐                                                    │
│UL, U, UR, L, bd, R, DL, D, DR│注目データの８近傍生データ                          │
└───────────────┘                                                    │
     │                                                                               │
     │シフト（6）と論理演算（18）                                                    │
     ↓                                                                               │
┌───────────┐                                                            │
│a, b, c, d, e, f, g, h│各ビットごとの８近傍データ                                  │
└───────────┘                                                            │
     │                                                                               │
     │ビットごとに直接加算                                                           │
     ├────────────────────────────────┐             │
     │                                                                │             │
     │s2, s3 のみを直接的に計算                                       │             │
     ├───────────────────────────────→│             │
     │                                                                │             │
     │s0～s3 (s4～s8) を順に計算（63論理演算）                        │             │
     ├───────────────────────────────→│             │
     │                                                                │             │
     │b0～b2 を ((…(a+b)+c)+d)+… で計算（32論理演算）               │             │
     ├────────────────────┐        s2=~b2&b1&~b0 │             │
     │                                        │        s3=~b2&b1&b0  │             │
     │                                        │        （5論理演算） ↓             │
     │b0～b2 を ((a+b)+(c+d))+… で計算（27） ↓  ┌───┐      ┌───┐         │
     ├─────────────────────→│b0～b2│──→│s2, s3│         │
     │                                            └───┘   ↑ └───┘         │
     │ビットごとにソート（4論理演算/比較交換）                 │     │             │
     ↓                                                         │     │s3|(bd&s2)   │
┌────────┐    s2 = g & ~f, s3 = f & ~e （4論理演算）  │     ↓（2論理演算）│
│ソート済み a～h │──────────────────────┘ ┌───┐         │
└────────┘                                               │  bd' │         │
                                                                   └───┘         │
                                                                       │             │
                                                                       │ ←─────┘
                                                                       ↓
                                                              ┌────────┐
                                                              │１次元配列データ│
                                                              └────────┘

余談

多くの場合、データは０なので、注目箇所・上下左右４近傍データが０ならば論理演算を行わないようにした方が高速になる（※ 斜め方向の４近傍はチェックする必要がないことに注意）

template<typename T>
T nextGeneration(byte UL, T U, byte UR, byte L, T bd, byte R, byte DL, T D, byte DR)
{
    if( !U && !L && !bd && !R && !D ) return 0;

    const int MSB = 0x80 << (sizeof(T)*8 - 1);
    .....
    return (bd & s2) | s3;
}

上記の判定式は !(L&1)、!(R&MSB) でもよいが、効果は微妙である

まとめ

ビットボードによるライフゲーム次世代生成アルゴリズムを調査・考案・実装・評価した。
比較的単純な実装で、十分な高速化が達成できた。