いろんなものはつながっている

この2つのグループって同じといえるの?

2つのデータセットがありそれらは同じものであるかを判定したい事例は多々ある。例えば、
・この薬はこの症状の患者に効果があるか?
・この会社では理系or文系で出世に差があるか?
・母親が働いているor働いていないは子供の成績に影響するか?
など。

そもそも「同じ」とはどういう状態か。グループが従う母集団が正規分布である場合、正規分布を特徴付けるパラメータは平均と分散なので、「同じ」の定義は「平均」や「分散」が同じと考えてもいいだろう。

では、まず、2つのグループの母集団の平均は同じか?を判定することを考えてみる。

これを考える際、分散が機知の場合と未知の場合では考え方がちがってくることはなんとなく予想できる。

まずは機知の場合を考えてみる。仮説検定からの類推で、分散が機知の場合は正規分布を用いて検定を行うんじゃないかと予想できる。だとするとどんな統計検定量を定義してやればよいか。分散がわかっている場合、

2標本検定z

こんな統計検定量が標準正規分布に従う。上記の式は分散が同じでも異なる場合でも使用できる。

では、分散が未知の場合はどうだろう。これもt分布で検定できるんじゃないかと類推できる。ただ、分散が同じ場合と異なる場合で検定の方法が異なる。分散が未知だが同じと仮定できる場合は、
2標本検定t
こんな統計検定量がt分布に従う。

一方、分散が未知で異なる場合はWelchのt検定という枠組みで行うようだ。

ここまでわかれば、2つのグループの平均が同じか?という検定ができる。

2つの母集団の平均値が同じか否かをそれぞれの母集団から抽出したサンプルから判定する方法を2標本検定というらしい。

これもこのサイトにきれいにまとめられていた。

また、2標本のデータに対応関係がある場合は、より精度の高い検定の方法がある。

対応するデータの差の平均値と分散から
2標本検定t対応という統計検定量をつくり、t分布を用いて検定する。

対応関係のあるデータの検定の場合、分散が異なっていてもそこは気にしなくてもいいみたい。

関連記事

コメント

  1. この記事へのコメントはありません。

  1. この記事へのトラックバックはありません。

スポンサード リンク

カテゴリー

スポンサード リンク