みどりぼん第3章を読んでポアソン回帰について自分の理解をまとめた。

ポアソン分布

ポアソン分布の確率分布は以下の式で表される。

p(X=y|λ)=λyexp(λ)y!

p(X=y|λ)は分布の平均がλであるときに
ポアソン分布にしたがう確率変数Xyになる確率である。

ポアソン回帰

ここで、架空の植物の種子数をモデル化することを考える。

λが全個体で共通の場合

どの個体の種子数yiも平均λのポアソン分布にしたがう場合、
個体iの種子数がyiになる確率は以下の式で表される。

p(X=yi|λ)=λyiexp(λ)yi!

対数尤度関数は

logL(λ)=ilog(p(X=yi|λ))

となる。

λが個体によって異なる場合

個体ごとに異なる説明変数によって平均種子数が変わる場合、
個体iの種子数がyiになる確率は以下の式で表される。

p(X=yi|λi)=λiyiexp(λi)yi!

個体ごとの平均種子数λiが体サイズxiに影響されるとき、
線形予測子(linear predictor)と対数リンク関数(log link function)を使って、

logλi=β1+β2xi

と表される。

λiβ1,β2の関数なので、対数尤度関数は

logL(β1,β2)=ilog(p(X=yi|β1,β2))

となる。

正規分布回帰

種子数がポアソン分布ではなく正規分布にしたがうと考えたとき、 種子数がyiとなる確率p(yi|μi,σi)は、

p(yi|μi,σi)=12πσi2exp((yiμi)22σi2)

で表される。ここで、μは平均、σは標準偏差である。

対数尤度関数は以下の式で表される。

logL(μi,σi)=12ilog(2πσi2)12σ2i(yiμi)

ここで分散σi2は平均μiによらず一定とすると、

logL(μi)=i(yiμi)

線形予測子と恒等リンク関数を使ってμi=β1+β2xiと表すと、

logL(β1,β2)=i(yi(β1+β2xi))

となる。
この式より、正規分布回帰の回帰パラメータを最尤推定することは最小二乗法と同じになることがわかる。

ただし、

  • 離散値をとる目的変数のモデリングに連続値の分布である正規分布を使っている
  • 種子数yが負になりうる
  • 平均の値に関わらず分散一定を仮定している

などの理由で、種子数のモデリングに正規分布を用いるのは適切ではない。

サンプルデータを使って種子数をモデリング

本書で使用されていたサンプルデータを使って、

  • 説明変数が体サイズxのみ
  • 説明変数が施肥処理fのみ
  • 説明変数が体サイズxと施肥処理f

の3パターンで種子数をモデリングする。

Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.

まとめ

  • どの分布を使用するかについて
    • 実データの応答変数yの構造をよく考えて分布を選ぶことが重要
    • なんでも正規分布を仮定して直線回帰させれば良いというものではない
  • どのリンク関数を使用するかについて
    • 分布関係なく、恒等リンク関数を用いた場合yの回帰値の集合は直線に、
      対数リンク関数を用いた場合は指数関数となる
    • ちなみに、正規分布の正準リンク関数は恒等リンク関数、
      ポアソン分布は対数リンク関数である
    • 恒等リンク関数を使った場合、各説明変数の回帰値への効果は加算で表され、
      対数リンク関数を使った場合は乗算で表される
  • 目的変数が種子数のようなカウントデータの場合はポアソン回帰を用いるとあるが、
    平均値が大きくサンプルサイズが十分ある場合は正規分布にしたがうとしてもよい

疑問

  • みどりぼんによると、ポアソン分布で対数リンク関数を使う理由は
    「推定計算に都合よく」かつ「わかりやすい」からとあるが、理論的な理由があるのか?
  • 正規分布で対数リンク関数を使うなど、
    正準リンク関数ではないリンク関数を使う場面は存在するのか?

参考文献・サイト