Rにおける名義変数の扱いがわからん
自分がGLMなんてものを使う日が,こんな早く来ようとは.
しかしRのglm()で3水準以上の名義変数を使ったときの挙動がよくわからない.Monthという変数の中身がJuly, August, September, Octoberの4つだとする.glm()で出てくるCoefficientsは,MonthJuly, MonthOctober, MonthSeptemberの3つ.これってAugust=0, July=1と,August=0, October=1と,Aucust=0, September=1ということだろうか.as.integer(Month)するとAugust=1, July=2, October=3, September=4とアルファベット順に数字が割り振られているように見えるけど,この値がそのまま使われているわけじゃないよね?
えーと,4水準は2ビットで表せるような気がするけど,
X1 | X2 | |
---|---|---|
Aug. | 0 | 0 |
Jul. | 1 | 0 |
Oct. | 0 | 1 |
Sep. | 1 | 1 |
統計処理のためには3ビット(水準-1)じゃないとダメってこと?
MonthJuly | MonthOctober | MonthSeptember | |
---|---|---|---|
Aug. | 0 | 0 | 0 |
Jul. | 1 | 0 | 0 |
Oct. | 0 | 1 | 0 |
Sep. | 0 | 0 | 1 |
しかし,どっちに何という数値が割り当てられてるかってどうやったらわかるんだろう?