in English

 

クーンポーカー ナッシュ均衡戦略
Jan-2023 written by N.Tsuda
mail to: ntsuda@master.email.ne.jp

概要

単純化された2人ポーカーである「クーンポーカー」のナッシュ均衡戦略について解説する。

論文 [1]、wikipedia [2] に最適戦略が明記されているが、 なぜそれが最適戦略なのかの説明がない。 また、些細な過ちがある(と考えられる)ので、その点についても詳しく述べる。

クーンポーカー

ナッシュ均衡

ナッシュ均衡について簡単に説明しておく。

ナッシュ均衡とは、「他のプレーヤーの戦略を所与とした場合、 どのプレーヤーも自分の戦略を変更することによってより高い利得を得ることができない戦略の組み合わせ」 と定義される(wikipedia より引用)。

通常のジャンケンにおいては、グー・チョキ・パー をそれぞれ 1/3 の確率で選択するのがナッシュ均衡戦略となる。 なぜなら相手はどの手をどのような確率で選択しても利得期待値は±0であり、 戦略を変更することによってより高い利得を得ることができないからである。

相手がグーを100%出すのであれば、パーを100%出せば、期待利得は +1 となり、 ナッシュ均衡戦略よりも期待利得が高くなる。だが、この場合相手がチョキを出すようにすると、相手の期待利得が +1 になってしまう。 相手が戦略を変更することでより高い利得を得ることが可能なので、これはナッシュ均衡戦略ではない。
つまり、ナッシュ均衡戦略は最高の利得期待値を得るものではなく、相手の戦略選択肢を無くす戦略とも言える。

ゲーム木

下記にクーンポーカーのゲーム木全体を示す。

    PlayerⅠ    PlayerⅡ   PlayerⅠ      ※ PⅠから見た利得
    ---------   ---------  --------      ---------------
    ○┬Check ─□┬Check─◆            ±1
      │          └Raise─○┬Fold─◆  -1
      │                     └Call─◆  ±2
      └Raise ─□┬Fold─◆             +1
                  └Call─◆             ±2

状態は○、□、◆ノードで表記し、それぞれプレイヤーⅠの手番、Ⅱの手番、末端(勝敗がついた状態)を表す。
親子ノードは線分(ブランチ・枝)で結合され、その間にアクションを記述する。
複数のアクションが可能な場合、枝が分岐し複数の子ノードを記述する。親が同じ複数のノードを兄弟ノードと呼ぶ。

なお、Raise されていない状態での Fold は意味が無いので行わないものとする。

手札

先手・後手の手札は、「JQ, JK, QJ, QK, KJ, KQ」の6通りのみ。

プレイヤーは自分の手札のみ見ることが出来、相手の手札はわからないので、実際の状態は 「K?」のように表すものとする(この場合は KJ or KQ)。 後手の場合は「?Q」のように表す。

状態表記と利得

状態は、下記のように、手札とアクション履歴で表記する。

    Q?:○─Check─□─Raise─○

上記は、プレイヤーⅠの手札がQで、先手・後手それぞれが Check, Raise を行い、プレイヤーⅠの手番になった状態を表す。

ショーダウンまたはどちらかがFoldし勝負がついた場合は、 下図のように末端ノードの右に空欄を空けて(常にプレイヤーⅠから見た)利得を記述する。 手札により勝敗が決まる場合は ± 記号を記述する。

    Q?:○─Check─□─Raise─○┬─Fold─◆  -1
                                └─Call─◆  ±2

アクション確率

複数アクションがある場合、その選択確率をアクション名の直前に記述する。 確率は分数または%で表記する。 また α・β・γ 等のギリシャ文字で([0, 1] のような制限はあるが)任意の確率を表すものとする。

    Q?:○─Check─□─Raise─○┬ 2/3 Fold─◆  -1
                                └ 1/3 Call─◆  ±2
    J?:○┬─  α Raise─□
          └─1-α Call ─□

ヒューリスティックな最善アクション

以下に、ナッシュ均衡ではなく、いわゆるヒューリスティックな最善アクションを示す。

    ?J:○─Raise─□─100% Fold─◆
    J?:○─Check─□─Raise─100% Fold─◆

手札がJの場合、RaiseにCallすると必ず負けて-2になるので、100% Foldし-1に留める。

    ?K:○─Raise─□─100% Call─◆
    K?:○─Check─□─Raise─100% Call─◆

手札がKの場合、Callすると必ず勝って+2になる(相手にRaiseさせてCallするのが理想の展開のひとつ)ので、 Raise された場合は 100% Call する。

    ?Q:○─Check─□─100% Check─◆

QでRaiseすると相手がKであればCallされ(Q側から見て)-2、相手がJであればFoldで+1、利得期待値は-0.5となる。
Checkした場合は、相手がKであれば-1、相手がJであれば+1なので、利得期待値は±0となる。

    Q?:○─100% Check─□

QでRaiseすると相手がKであればCallされ-2、相手がJであればFoldで+1、期待値は-0.5となる(?Q の場合と同じ)。
Checkした場合、相手がRaiseする可能性があるので少々複雑ではあるが、期待値はおおよそ±0となる (具体的な値は後述する)。

    ?K:○─Check─□─100% Raise─○

プレイヤーⅠがCheck、プレイヤーⅡの手札がKの場合、Checkを行うと必ず勝利できるが、+1にしかならない。
Raiseを行えば、プレイヤーⅠがCallするかもしれないので、利得期待値が上がる。

ナッシュ均衡戦略

本章では、ヒューリスティックには最善手が決まらない場合の、ナッシュ均衡戦略について述べる。
手札がQの場合はRaiseせずにCheckすべきなので、J, K の場合にどのような確率で Raise するかを考える必要がある。
逆に、Raise された場合、手札が J・K の場合は Fold・Call するのが最善なので、 Qの場合のみ Call・Fold 確率を考える必要がある。

プレイヤーⅠがRaise、プレイヤーⅡの手札がQの場合

プレイヤーⅠの手札がJの場合の後手のナッシュ均衡戦略は以下のようになる。

    JQ:○─Check─□─Check─◆         -1
    JK:○─Check─□─Raise─○─Fold─◆   -1
                             ※ 期待値:-1
    JQ:○─Raise─□┬2/3 Fold─◆  +1
                     └1/3 Call─◆  -2
    JK:○─Raise─□─Call─◆          -2
                             ※ 期待値:-1

これはプレイヤーⅠがCheck、Raiseのどちらの場合でも利得期待値が同一になるようにするためだ。
プレイヤーⅠがCheckした場合、相手はQまたはJなので、相手がCheckでショーダウンになると必ず負ける(利得:-1)。 相手がRaiseした場合も、Foldするよりなくやはり利得-1となる。
プレイヤーⅠがRaiseした場合、相手の手札がKであれば、必ずCallされ利得は-2となる。
したがって、相手がQの場合の利得期待値が±0になるようにすれば、プレイヤーⅠがCheckした場合の利得期待値が-1となる。 つまり、先手はどのような確率でRaiseしても利得が変化しないナッシュ均衡戦略になる。

Qの場合の利得期待値が±0になるようにするには、QのCall確率を1/3に、Fold確率を2/3にするとよい。 この場合のプレイヤーⅠからみた利得は -2*1/3 + 1*2/3 = 0 となるからだ。

次に、プレイヤーⅠの手札がKの場合を考える。

    KJ:○─Check─□┬2/3 Check─◆        +1
                     └1/3 Raise─Call─◆  +2
    KQ:○─Check─□─Check─◆                +1               
                               ※ 期待値:(4/3 + 1)/2 = 7/6
    KJ:○─Raise─□─Fold─◆            +1
    KQ:○─Raise─□┬2/3 Fold─◆    +1
                     └1/3 Call─◆    +2
                               ※ 期待値:(4/3 + 1)/2 = 7/6

プレイヤーⅠの手札が K の場合も、プレイヤーⅡの手札がQの場合は、 2/3 の確率でFold、1/3 の確率でCallするのがナッシュ均衡戦略となる (後手Jが1/3の確率でRaiseする理由は後述する)。

したがって、プレイヤーⅠの手札が J または K のいずれであっても、 プレイヤーⅠがRaiseしプレイヤーⅡの手札がQの場合は、2/3 の確率でFold、1/3 の確率でCallするのが ナッシュ均衡戦略となる。

プレイヤーⅠの手札がQ、プレイヤーⅡがRaiseした場合

プレイヤーⅠの手札がQの場合、初手はChechするのがヒューリスティックな最善手だ。 そして後手がRaiseした場合は、前節と同じ状況なので、 手札がQの場合は、2/3 の確率でFold、1/3 の確率でCallするのがナッシュ均衡戦略となる。

    QJ:○─Check─□─Raise─○┬2/3 Fold─◆  -1
                                └1/3 Call─◆  +2
    QK:○─Check─□─Raise─○┬2/3 Fold─◆  -1
                                └1/3 Call─◆  -2

プレイヤーⅠの手札がJまたはKの場合

プレイヤーⅡの手札はQとは限らないが、Q以外の場合はヒューリスティックな最善アクションが存在するので、 それらの場合を考慮せず Qの場合のみを考える。

プレイヤーⅡがFoldした場合、プレイヤーⅠの利得は+1なので、 プレイヤーⅡがCallした場合も同じ利得になるようにプレイヤーⅠの行動を決める。

    JQ:○─α Raise─□┬Fold─◆  +1
                        └Call─◆  -2
    KQ:○─γ Raise─□┬Fold─◆  +1
                        └Call─◆  +2

プレイヤーⅡがFoldした場合のプレイヤーⅠの利得は +1。 プレイヤーⅡがCallした場合のプレイヤーⅠの利得期待値は -2α + 2γ なので、 これを Fold した場合と同じ期待値にするには
 -2α/(α+γ) + 2γ/(α+γ)= 1
 -2α + 2γ = α + γ
 γ = 3α
とすればよい。

したがって、プレイヤーⅠの手札がJまたはKの場合は、以下のような確率でRaiseを行う (ただし 0≦α≦1/3)。

    J?;○─α Raise
    K?:○─3α Raise

プレイヤーⅠが手札QでCheckし、プレイヤーⅡの手札がJまたはKの場合

プレイヤーⅡの手札がKの場合は100% Raiseなので、J の場合のRaise確率を 1/3 にすれば、 K:J の割合は 3:1 となり、前節同様にナッシュ均衡戦略となる。

利得期待値

双方がナッシュ均衡戦略を採った場合のプレイヤーⅠの利得期待値は以下のようになる。

    JQ:○┬1-α Check─□─Check─◆    -1 * (1-α) = -(1-α)
          └  α Raise─□┬1/3 Call─◆ -2 * α * 1/3 = -2/3α
                          └2/3 Fold─◆ +1 * α * 2/3 = 2/3α
    JK:○┬1-α Check─□─Raise─○─Fold─◆ -1 * (1-α) = -(1-α)
          └  α Raise─□─Call ─◆    -2 * α = -2α

プレイヤーⅠの手札がJの場合の利得期待値:
(-(1-α) -2/3α + 2/3α -(1-α) -2α) / 2
= -1

    QJ:○─Check─□┬2/3 Check─◆                +1 * 2/3 = 2/3
                     └1/3 Raise─○┬2/3 Fold─◆  -1 * 1/3 * 2/3 = -2/9
                                    └1/3 Call─◆  +2 * 1/3 * 1/3 = +2/9
    QK:○─Check─□─Raise─○┬2/3 Fold─◆  -1 * 2/3 = -2/3
                                └1/3 Call─◆  -2 * 1/3 = -2/3

プレイヤーⅠの手札がQの場合の利得期待値:
(2/3 - 2/9 + 2/9 - 2/3 - 2/3) / 2
= -1/3

    KJ:○┬1-γ Check─□┬2/3 Check─◆  +1 * (1-γ) * 2/3 = 2/3*(1-γ)
          │              └1/3 Raise─○─Call─◆ +2 * (1-γ) * 1/3 = 2/3*(1-γ)
          └  γ Raise─□─Fold─◆       +1 * γ = γ
    KQ:○┬1-γ Check─□─Check─◆      +1 * (1-γ) = (1-γ)
          └  γ Raise─□┬1/3 Call─◆   +2 * γ * 1/3 = 2/3*γ
                          └2/3 Fold─◆   +1 * γ * 2/3 = 2/3*γ

プレイヤーⅠの手札がKの場合の利得期待値:
(2/3 - 2/3*γ + 2/3 - 2/3*γ + γ + (1-γ) + 2/3*γ + 2/3*γ) / 2
(2/3 + 2/3 + 1 - 2/3*γ - 2/3*γ + γ - γ + 2/3*γ + 2/3*γ) / 2
=7/6

したがって、プレイヤーⅠの利得期待値は、(-1 + -1/3 + 7/6) / 3 = -1/18 となる (2人零和なので、プレイヤーⅡの利得期待値は +1/18)。

論文、wikipedia 版との差異

論文、wikipedia には最適戦略が具体的に記述されているが、なぜそれが最適戦略なのかの説明は無い。

それらと本稿との違いは、プレイヤーⅠの手札がQで、初手 Check 後に、プレイヤーⅡがRaiseした場合の部分だ。
論文、wikipedia には「1/3+α の確率でCall」とある。本稿では単に「1/3 の確率で Call」と考える。

    QJ:○─Check─□┬2/3 Check─◆                   +1 * 2/3 = 2/3
                     └1/3 Raise─○┬2/3-α Fold─◆  -1 * 1/3 * (2/3-α) = -2/9 + 1/3α
                                    └1/3+α Call─◆  +2 * 1/3 * (1/3+α) = +2/9 + 2/3α
    QK:○─Check─□─Raise─○┬2/3-α Fold─◆  -1 * (2/3-α) = -2/3 + α
                                └1/3+α Call─◆  -2 * (1/3+α) = -2/3 - 2α

上図はプレイヤーⅠの手札がQで、1/3+α の確率でCallする場合のゲーム木。利得期待値は、
(2/3 - 2/9 + 2/9 - 2/3 - 2/3 + 1/3α + 2/3α + α - 2α) / 2
= -1/3
となりαによらず利得期待値は一定となる。これはプレイヤーⅡがナッシュ均衡戦略をとっているためだ。

また、プレイヤーⅡがJの場合のRaise確率を0にすると、利得期待値は下記のようになる。

    QJ:○─Check─□─Check─◆                   +1
    QK:○─Check─□─Raise─○┬2/3-α Fold─◆  -1 * (2/3-α) = -2/3 + α
                                └1/3+α Call─◆  -2 * (1/3+α) = -2/3 - 2α

この場合、利得期待値が -1/6 - 1/2α となり、プレイヤーⅠの利得期待値が減少(プレイヤーⅡの利得期待値が増加)する。
これはプレイヤーは戦略を変更することによってより高い利得を得ることができない、というナッシュ均衡の定義に反する。

よって、「1/3+α の確率でCall」は誤りで、正しくは「1/3 の確率でCall」であると考える。

まとめ

クーンポーカーのナッシュ均衡戦略の導出を具体的に説明した。 導出された戦略は従来から示されていたものとほぼ同一であるが、 最終手が 1/3+α でCallだったものが 1/3 でCallが正しいことを明らかにした。 また、プレイヤーⅡが戦略を変更することでより良い利得を得ることができることから、 従来の戦略はナッシュ均衡戦略ではないことを示した。

謝辞

本稿の執筆にあたり、I氏、Y氏、小林健太郎氏 のご支援に感謝する。 彼らの注意深い聞き取りにより、私の思考を整理することができた。
また、元岡オープンサロン によって小林氏との接点を作っていただき感謝している。

参考文献

[1] Kuhn, H. W. (1950). "Simplified Two-Person Poker". In Kuhn, H. W.; Tucker, A. W. (eds.). Contributions to the Theory of Games. Vol. 1. Princeton University Press. pp. 97–103.

[2] "Kuhn Poker", wikipedia( https://en.wikipedia.org/wiki/Kuhn_poker