「行動ゲーム理論入門」を読んだので、メモ書きを残しておく。

あまり理解できなかった部分は青色で示している。

第1章 決定不能性

  • 一般の非協力ゲームにおいて、ナッシュ均衡という解が混合戦略の範囲で存在することが証明されている
    • しかしその解を具体的に求めるアルゴリズムを構成できないことが存在する
      • 10x10以上の盤面のヘックス
      • ディオファンタス・ゲーム
    • ちなみにナッシュ均衡とは、どのプレーヤーも自分の戦略を変更することによってより高い利得を得ることができない、安定的な状態のことである
  • 限定合理性
    • 解(均衡)を求めることができない状況では、
      プレーヤーは合理的な行動を取ることができず、
      限定された合理性に基づいて行動するしかない
  • 囚人のジレンマ
    • 相手が自白・黙秘どちらを選択した場合でも
      こちらは自白を選択する方が利得が大きくなるため、
      両方とも自白を選択するのが合理的なプレーヤーによるゲームの均衡である
    • しかし現実には二人とも黙秘をする選択が存在し、
      しかもこの場合利得の和が最大になるためパレート効率となる
    • つまり合理的な選択をしてもパレート効率にならないというジレンマ
  • 囚人のジレンマの無限繰り返しゲーム
    • オウム返し戦略が最も有効とされた
      • 進化ゲームにおける進化的安定戦略の基準は満たさないので最適戦略ではない
      • 計算コストの制約を設けた場合も最適戦略ではない
    • 戦略的安定戦略かつ計算コストの制約(限定合理性)のある場合において、
      パレート効率な結果が実現可能なことが示されている

第2章 混合戦略

  • 純戦略と混合戦略
    • 混合戦略とは、いくつかの純戦略を確率的に選ぶ戦略
    • 純戦略とは、特定の選択肢のみを選択する戦略
    • 混合戦略においては、相手がどんな選択をしても期待利得が均一になるような確率で選択をするのが合理的である
  • 混合戦略の均衡
    • 各プレーヤーの戦略選択頻度が混合戦略で予測される確率と等しいかどうか
      • プレーヤー全体で見るとおおよそ等しくなる
    • 各プレーヤーの毎回の戦略選択が統計的に独立におこなわれるかどうか
      • 過去の自分や相手の選択に依存して系列相関する
    • 個人としては混合戦略に従っていない(=不合理な選択をしている)にも関わらず
      集団全体としては混合戦略に従っていることも、
      混合戦略と考えることができる

第3章 学習理論

  • 信念学習
    • 相手プレーヤーの行動を学習して自分の行動を決定する
    • クールノー学習
      • 直前の記憶をもとに相手の行動を予測する
    • 仮想プレー学習
      • より長期の記憶をもとに相手の行動を予測する
    • 問題点
      • 相手の行動を決定する確率分布がプレー中に変化しないという定常性が仮定されている
  • 強化学習
    • 自分の過去の行動から自分の行動を決定する
    • 試行錯誤と忘却
  • 学習理論と初期値
    • 学習初期には均衡からの逸脱が多く見られる
    • 均衡に収束するか、収束するとしてどれくらいかかるかを決定する要素として初期値の取り方がある
    • 最後通牒ゲームにおいても、 サブゲーム完全均衡になるか否かは初期値のとり方によって変わってくる

第4章 予測と推論

  • 実験経済学と行動経済学
    • 実験経済学
      • 利己的で限定合理的
      • レベルK理論
        • プレーヤーは利己的な動機付けで行動するが
          相手の合理性は完全には分からないので推論する
        • その推論によって予測された相手の行動が間違っている可能性もあるという意味で限定合理的
    • 行動経済学
      • 利他的で合理的
      • 心理学ゲーム理論
        • 互恵性の理論
        • 罪回避の理論
  • 利他性の理論
    • 最後通牒ゲーム
    • 不平等回避の選好
      • 自分の利得が他人のそれより小さいときは羨望を、
        他人のそれより多いときは後悔を感じるため、
        利得の差を小さくする選択肢が選ばれる
      • 結果だけが考慮されるので、過程の違いを区別できない
    • 互恵性の理論
      • 相手の行動に対する二階の予測により親切度を定義する
    • 罪回避の理論
  • レベルK理論
    • 支配的戦略の逐次的消去
      • 美人投票ゲーム
      • 旅人のジレンマゲーム
      • 実際の実験では逐次消去によって生き残る解が選択されることは多くなく、
        推論の深さはプレーヤーによって異なる
    • ムカデ・ゲーム
      • ギフトギビング行動を利他性の理論により説明するか、
        レベルK理論により説明するか?
      • レベルK理論のほうがより実験結果の説明力が高いという結果に

第5章 ロジット均衡

  • ロジット均衡
    • 合理性のパラメータ$\lambda$を変化させることで
      完全にランダムなプレーヤー($\lambda=0$)から 完全に合理的なプレーヤー($\lambda\rightarrow\inf$)まで
      多種多様な行動を表現できる
    • 限定合理性とナッシュ均衡を特殊なケースとして含むような
      より一般的な均衡概念
    • 均衡の精緻化
      • $\lambda$を$0$から$\inf$まで大きくした時、
        $\lambda=0$のときのロジット均衡と連続的に接続する均衡は
        完全均衡と一致する
    • ムカデ・ゲームのギフトギビング行動もロジット均衡で説明できる
      • ロジット均衡では利他性は一切考慮されていないにも関わらず
    • レベルK理論のように相手のレベルを予想して
      それに最適な反応を選ぶこともできる
      • プレーヤーが同じレベル同士の場合、
        コーディネーションの失敗が発生する

第6章 コーディネーションとコミュニケーション

  • コーディネーション問題
    • ナッシュ要求ゲーム
    • 複数の均衡が存在する非決定性の問題において、
      焦点に向けて各プレーヤーの行動が調整される
  • 均衡選択理論
    • 複数の均衡が存在する場合に、
      どれが選ばれやすいかの基準を設ける
      • パレート支配基準
      • リスク支配基準
    • 基準を設けることで
    • リスク支配ナッシュ均衡のほうが
      均衡選択の理論として優れている
  • コミュニケーション
    • プレーヤー間の事前コミュニケーションにより
      コーディネーションの失敗を回避する
    • メッセージに信憑性があるk
      • 自己コミットメント
      • 自己シグナリング
    • 完備情報ゲーム(e.x. 鹿狩りゲーム)において、
      事前コミュニケーションによりプレーの意図を伝える
    • 不完全情報ゲームにおいて、私的情報を相手に伝える
      • 分離均衡
    • プレーヤー間で言語が共有されていなくても、
      特に利害関係が一致する場合コミュニケーションは成立する
  • 相関均衡
    • サンスポット均衡
    • 外生的に与えられたルールがプレーヤーの戦略選択に相関を生み出し、
      パレート効率的な結果に誘導する

第7章 メカニズム・デザイン論

  • インセンティブ両立的メカニズムの設計
    • 目標
      • プレーヤーに真の選好を表明させるようなインセンティブを与えて
        すべての選好の組み合わせの下で社会選択対応で目標としている
        社会的に望ましい結果を均衡として導く
    • 一般不可能性定理
      • ほとんどの問題において、
        インセンティブ両立的メカニズムを見たすメカニズムは設計できない
      • 安定結婚問題
    • グローブス・メカニズム
    • ピボタル・メカニズム
  • ナッシュ均衡メカニズム
    • インセンティブ両立性にはあまりこだわらず、
      プレーヤーたちが均衡をプレーするという条件の元でのメカニズムを考える
    • マスキンのメカニズム
      • 単調性と非拒否権性を満たすことが条件
    • ウォーカーのメカニズム
  • 行動メカニズム・デザイン論

第8章 社会的学習と制度変化

  • 群集行動の理論
    • プレーヤーは私的情報と共有情報(先行者の行動)を用いて
      期待利得の高い選択をおこなう
    • 先行者の選択が間違っていた場合、間違った予測が伝搬し非効率性を生む
    • 一方、プレーヤーは私的情報を過度に重視するので
      群集行動が発生しづらいことも
  • 慣習の形成と崩壊
    • 世代間ゲーム
      • あるプレーヤーにとって不利な均衡が慣習として維持される(慣性)
      • ある均衡が維持されている間は、現世代のプレーヤーが次世代にその均衡を維持するようアドバイスする(慣習の社会化)
      • 先行する世代によって形成された慣習を次世代が戦略的に変えようとする(慣習の断続化)
    • 断続化に見られるようなプレーヤーの行動は制度選択にどのような影響を与えるのか?
  • 内生的制度選択
    • モニタリングと制裁がプレーヤー間に協調をもたらす
    • あらかじめ決められたメカニズムのうちどれが良いかプレーヤーに選ばせる
    • 共有財ゲーム
      • 誰がコストを払ってまで制裁or報償を与えるのかという非決定性問題
      • 制度のための制度を導入する必要があり問題が無限に後退する
  • 内生的制度選択
    • プレーヤーに自由にメカニズムを設計できる機会を与える
    • 人間は限定合理的なので制度選択の無限後退問題は起こり得ない
    • 比較的シンプルなメカニズムが自発的に生み出され、安定的に運用される