2018年05月09日

記述的指標の繋がり<共分散,分散,標準偏差,相関係数,平均>

こんばんは。現役東大院生のアリシスです。

今回は,統計学の記述的指標を解説します。

(記述的指標とは,データの大きさ,広がり,重なり度合いを数値で記述できるように表したものです)

始めに考え方としては,最初に意味を考えるのではなく数学的なルールに当てはめ,意味は後から考える方がおすすめです。その方が,スムーズに理解できると思います。

さて,記述的指標を理解するには以下の3点がポイントになります。

➀まず共分散を起点に考える
②そこから分散標準偏差相関係数代表値としての平均をつなげて考える
③上述した➀②と平均偏差,代表値を中央値とする考え方は別もの

___________
共分散

共分散とは2つの変数の関係性を見る指標です。
(変数とは,値が変化しうる数値すべてを指します)

式は,下記の表を参照ください。

右辺の右から,xとyの関係性を見る,すべてのデータを足す,人数で割って平均を出すという仕組みになります。

出た値(Sxy)が正の値をとれば,正の相関になり,負の値をとれば,負の相関になります。

(正の相関とは,どちらか一方の値が下がれば,もう一方の値も下がる関係性です。

負の相関とは,どちらか一方の値が上がれば,もう一方の値も上がる関係性です)

___________
分散

分散は,言い方を変えるとxとxの共分散です。

式は下記の表を参照ください。


共分散のyの部分をxに置きかえただけです。

式を見ると分かる通り,分散はある数(Xi)から平均を引いた式になります。

つまり,データの分布にどれほどの広がりがあるのかを示す指標です。

また,こうすることで,1つの変数に対して個人差を見ることが出来ます。

例えば,身長という一つの変数を年齢別に比較する際には,各年齢でどれだけ身長差があるのかが分かります。12歳の女子の身長と60歳の女性の身長を比較すると,前者は身長差(分散)が大きく,後者は身長差が小さいと考えられます。

つまり,分散の値が大きいほど分布の広がりが大きく,値が小さいほど分布の広がりが小さくなり,1つの変数内での個人差を知ることが出来ます。

また分散は,全員が同じ値であれば,ゼロになります。分散はデータの差の広がりを表す指標であるため,差がない場合,値はゼロになります。

しかし分散は,各データと平均の距離の2乗の平均であるため,この2乗が値の意味を分かりづらくしています。

よって√で割ることで,元の数値に戻して分かりやすくした値が標準偏差(SD)と呼ばれる以下の式になります。

さて標準偏差と似たような値で,平均偏差があります。

式は下記の表を参照ください。

これも,各データと平均の距離の合計を人数で割って平均からの距離(広がり)を表した式になりますが,心理学研究の中では,標準偏差の方がよく使われます。

これは,標準偏差の方が優れている,ということではありません。

標準偏差と比べて平均偏差は,式がシンプルで理解しやすく,また計算がしやすいので実用的です。

標準偏差が使用されるのは,今までの流れで見てきた通り,共分散や分散とのつながりがあり,論理的に一貫性があるためです。あるいは多くの人が使用しているため,さして考えもなく使用しているかのどちらかでしょう。

平均偏差で示した方が分かりやすい場合は平均偏差で示すなど,柔軟に選択すればよいでしょう。

___________
○相関係数

共分散の範囲は下記の表を参照ください。


また,何故この範囲になるかを知りたい方は,式1の証明を参照ください。

この範囲すべてにSxSyを割ります。

そうして出てきた,Sxy/SxSyの値は,相関係数と言います。

この値は単位の影響を受けません

例えば,xをcm,yをmと考えます。
分母と分子がx(cm)とy(m)で割れるため,単位が取られて意味をなさなくなります。

______
続いて,代表値について説明します。

代表値は,複数のデータの値を代表して1つに示した,中心的な位置を表す指標です。

代表値は複数あり,考え方によって「適切さ」は異なります。

今回は,共分散とのつながりで考えられる平均とその比較対象として中央値を解説します。

○平均値

代表値と各値との距離が最も小さくなる(ロスが少ない)値が,代表値として最もふさわしくなります。

この式を最小とするのが,平均値です。つまり,平均値が代表値となります。

この式は,分散の式と非常に似通っています。

つまり,代表値としての平均値は共分散ファミリーの中に含まれており,論理的に一貫性を持った式になります。

また,代表値と各データとの差を2乗していることから,大きく離れているデータも考慮する式です。

その反面,外れ値の影響も受けやすいと言えます。

○中央値

これは表中の式*(最後に添付してあるwardの中央値の式を参照ください)を最小にするtの値のことを言います。

例えば,
3 7 7 8 9

という数字が並んだとき,真ん中にある7が代表値となります。

平均と比較したときに,理論的に一貫しているのは平均の方なので,中央値よりも平均の方が代表値として使われます。しかし,中央値は平均と比べて外れ値の影響を受けにくいというメリットもあります。

平均と中央値,両者の値に大きな違いがあるときは,両方とも報告することで,分布の特徴を正確に報告できるでしょう。

最後に,上述した記述的指標の関係性をまとめてみたので,ご参考ください。
記述的指標の繋がり.xlsx

式1

式2

参考資料:

スポンサーリンク


posted by アリシス at 19:00| Comment(0) | 統計学 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
コチラをクリックしてください