いろんなものはつながっている

正規分布の形は等しいと無理やり解釈するのが回帰分析のルールなのよ!

「マンガでわかる統計学」を人に薦められて手にとってみた。
本自体は本屋で見かけて前から知っていたが、これまで読んだことはなかった。

本屋でぱらぱらとみると、薦められたとおり、マンガとはいえなかなか細かく解説してありわかりやすい。

「統計学が最強の学問である」にある一般化線形モデルをまとめた1枚の表
一般化線形モデルを理解したいこともあり、まずは回帰分析編を読んでみることにした。

回帰分析の手順を読んでみる

回帰分析の概念はそんなにむずかしくない。最小二乗法だ。

具体的な回帰分析の手順は
回帰分析手順とある。

最小二乗法で回帰係数をもとめたあと、回帰式がどれくらいデータと合致しているかの評価をすることになる。

寄与率、決定係数というのは、ざっくりいって相関だというのもイメージしやすい。

さて、問題は回帰係数の検定だ。

回帰係数の検定

回帰係数の検定では、

帰無仮設を傾き=0(←相関ないよ、全部同じ値)

とおく。

計算式がぞろぞろと書いてあるが、なぜ、そんなふうに変数を定義しているのかわからない。
この本ではF分布を用いて検定をしているが、多くの場合はt分布を用いるとある。

そもそもt分布がわからない。わからないことだらけで先に進めない。

t分布とは

t分布、これまで何度もでてきて、そのたびに調べたが全く覚えていない。
Wikipediaをみると
「正規分布する母集団の平均と分散が未知で標本サイズが小さい場合に平均を推定する問題に利用される」
とある。また、正規分布から抽出したサンプルから以下のように生成した変数(検定統計量という)統計検定量tが従う分布がt分布ということ。

正規分布に従っているのはわかっているが(or 正規分布に従っていると仮定するが)、平均、分散はわかってない集団から抽出したサンプルの平均値が従う分布ということか。

また、このt分布は自由度というものには依存するが、もとの正規分布の母数である平均や分散にはよらない。だから、検定に使えるということか。

回帰係数の検定とt分布の関係

何はともあれ、t分布で検定するとして話をすすめよう。それで、傾きが0(帰無仮説)であるときのt分布において、今回求めた傾きの値はあえりあない値だ、だから傾きが0という仮説は棄却される、という流れにもっていくのか。

そもそも回帰係数の検定はどう導かれるのかを調べてみるとこんな資料があった。

なるほど。

あれ、正規分布による検定と何が違うんだ。だんだんこんがらがってきた。t分布の自由度を無限大にすると正規分布になる、そんな理解でいいのか?

信頼区間

回り道をしたが、検定がが腑に落ちれば、信頼区間の計算自体はすんなり納得できる。

母集団の平均はサンプルの平均を中心にして、どれくらいの範囲にいるか?ってことだ。

予測区間

予測区間?初めてきいた。

信頼区間と予想区間の違いを事例でもってしめしているここはイメージがつきやすかった。

上記で求めた信頼区間というのは、回帰係数のばらつきに関するもの。回帰直線から値を予測したときには、それに、回帰直線と実際の値との差(=残差)のばらつきが加わってくる。

したがって、回帰直線から計算される予測値の範囲は
回帰直線そのもののバラツキ + 回帰直線と実際のデータの差のバラツキ
を考慮してやる必要がある。

Wikipediaで言葉の定義をみると
信頼区間とは母集団の母数(標本から測定できない)に対して 「どの範囲にあると推定できるか」というもので、
予測区間とは母集団を仮定した上で、将来観察されるであろう標本値(現在は測定できない)に対して「どの範囲にあると予測されるか」を示すものとある。

以上で、回帰直線の手順のイメージはついた。実際に自分で調べたいデータに手を動かして計算してみないと。

関連記事

コメント

  1. この記事へのコメントはありません。

  1. この記事へのトラックバックはありません。

スポンサード リンク

カテゴリー

スポンサード リンク