みどりぼん第3章を読んでポアソン回帰について自分の理解をまとめた。

ポアソン分布

ポアソン分布の確率分布は以下の式で表される。

\[p(X=y|\lambda)=\cfrac{\lambda^{y}\exp(-\lambda)}{y!}\]

$p(X=y|\lambda)$は分布の平均が$\lambda$であるときに
ポアソン分布にしたがう確率変数$X$が$y$になる確率である。

ポアソン回帰

ここで、架空の植物の種子数をモデル化することを考える。

$\lambda$が全個体で共通の場合

どの個体の種子数$y_{i}$も平均$\lambda$のポアソン分布にしたがう場合、
個体$i$の種子数が$y_{i}$になる確率は以下の式で表される。

\[p(X=y_{i}|\lambda)=\cfrac{\lambda^{y_{i}}\exp(-\lambda)}{y_{i}!}\]

対数尤度関数は

\[\log L(\lambda)=\sum_{i}\log(p(X=y_{i}|\lambda))\]

となる。

$\lambda$が個体によって異なる場合

個体ごとに異なる説明変数によって平均種子数が変わる場合、
個体$i$の種子数が$y_{i}$になる確率は以下の式で表される。

\[p(X=y_{i}|\lambda_{i})=\cfrac{\lambda_{i}^{y_{i}}\exp(-\lambda_{i})}{y_{i}!}\]

個体ごとの平均種子数$\lambda_{i}$が体サイズ$x_{i}$に影響されるとき、
線形予測子(linear predictor)と対数リンク関数(log link function)を使って、

\[\log \lambda_{i} = \beta_{1}+\beta_{2}x_{i}\]

と表される。

$\lambda_{i}$は$\beta_{1}, \beta_{2}$の関数なので、対数尤度関数は

\[\log L(\beta_{1},\beta_{2})=\sum_{i}\log(p(X=y_{i}|\beta_{1},\beta_{2}))\]

となる。

正規分布回帰

種子数がポアソン分布ではなく正規分布にしたがうと考えたとき、種子数が$y_{i}$となる確率$p(y_{i}|\mu_{i}, \sigma_{i})$は、

\[p(y_{i}|\mu_{i}, \sigma_{i})=\cfrac{1}{\sqrt{2\pi \sigma_{i}^{2}}}\exp\left(-\cfrac{(y_{i}-\mu_{i})^{2}}{2\sigma_{i}^{2}}\right)\]

で表される。ここで、$\mu$は平均、$\sigma$は標準偏差である。

対数尤度関数は以下の式で表される。

\[\log L(\mu_{i}, \sigma_{i})=-\cfrac{1}{2}\sum_{i}\log(2\pi\sigma_{i}^{2})-\cfrac{1}{2\sigma^{2}}\sum_{i}(y_{i}-\mu_{i})\]

ここで分散$\sigma_{i}^{2}$は平均$\mu_{i}$によらず一定とすると、

\[\log L(\mu_{i})=-\sum_{i}(y_{i}-\mu_{i})\]

線形予測子と恒等リンク関数を使って$\mu_{i}=\beta_{1}+\beta_{2}x_{i}$と表すと、

\[\log L(\beta_{1},\beta_{2})=-\sum_{i}(y_{i}-(\beta_{1}+\beta_{2}x_{i}))\]

となる。
この式より、正規分布回帰の回帰パラメータを最尤推定することは最小二乗法と同じになることがわかる。

ただし、

離散値をとる目的変数のモデリングに連続値の分布である正規分布を使っている
種子数$y$が負になりうる
平均の値に関わらず分散一定を仮定している

などの理由で、種子数のモデリングに正規分布を用いるのは適切ではない。

サンプルデータを使って種子数をモデリング

本書で使用されていたサンプルデータを使って、

説明変数が体サイズ$x$のみ
説明変数が施肥処理$f$のみ
説明変数が体サイズ$x$と施肥処理$f$

の3パターンで種子数をモデリングする。

まとめ

どの分布を使用するかについて
- 実データの応答変数$y$の構造をよく考えて分布を選ぶことが重要
- なんでも正規分布を仮定して直線回帰させれば良いというものではない
どのリンク関数を使用するかについて
- 分布関係なく、恒等リンク関数を用いた場合$y$の回帰値の集合は直線に、
  対数リンク関数を用いた場合は指数関数となる
- ちなみに、正規分布の正準リンク関数は恒等リンク関数、
  ポアソン分布は対数リンク関数である
- 恒等リンク関数を使った場合、各説明変数の回帰値への効果は加算で表され、
  対数リンク関数を使った場合は乗算で表される
目的変数が種子数のようなカウントデータの場合はポアソン回帰を用いるとあるが、
平均値が大きくサンプルサイズが十分ある場合は正規分布にしたがうとしてもよい
- 中心極限定理により、平均値（あるいは合計値）の分布は正規分布に近づくため
- 事実、ポアソン分布でも$\lambda$が大きくなると分布の形は正規分布に近づく
- 種子数は平均値が小さく、ポアソン回帰が適していたと思われる
- 詳しくは銀座で働くデータサイエンティストのモデル選択について: ニュースの社会科学的な裏側を参照

疑問

みどりぼんによると、ポアソン分布で対数リンク関数を使う理由は
「推定計算に都合よく」かつ「わかりやすい」からとあるが、理論的な理由があるのか？
正規分布で対数リンク関数を使うなど、
正準リンク関数ではないリンク関数を使う場面は存在するのか？
- $x$が増加すると$y$は指数的に増加し、ばらつきは一定であるような場合？
- 対数変換と一般化線形モデル - DTAL（旧RCEAL）留学記録によると、
  $y=a e^{bx}+\epsilon$のような指数関数で正規分布+対数リンク関数を使っている

みどりぼん第3章ポアソン回帰