2018年08月16日

欠測値の処理の仕方

◎完全ランダム欠測            

他の観測データや他の欠測値と無関係な欠測値のことです。

例えば、
質問紙の記入漏れが該当します。


◎ランダム欠測              

欠測値が他の観測データに依存する場合です。欠測値を他の観測データを手掛かりに推測することができます。

例えば、
乳幼児の知能検査と言語理解を計り、言語理解に欠測値があった場合を考えます。知能検査が低かった乳幼児が、言語理解のテストを放棄したと考えられた場合、言語理解の欠測値は知能検査から推測します。

これら2つの欠測値の処理方法は、

・多重代入法

・完全情報最尤推定法
があります。

多重代入法は、予測値の誤差分散を考慮します。

様々な予測値の誤差を加え(代入)、複数の疑似的な完全データセット(多重)をつくります。

個別にデータセットを分析して、その結果を統合してより正確な推定結果を得ようとするのが、多重代入法の狙いです(p23)。

回帰法のように1つの疑似的な完全データセットを作るのではなく、乱数を用いていくつもの完全データセットをつくるのです。

完全情報最尤推定法は、最尤推定法を使います。そして観測されているデータのもつ情報をすべて使って、母数を推定します。

母数を推定することで、欠測値の平均、分散や共分散も完全データに近い推定結果が出ます。


これら2つの方法は、正規分布を仮定しているため、元のデータが正規分布とズレている場合は、本来の結果と推定結果が大きく異なってしまいますが、そうでない場合は、優れた方法になります。

どちらが優れているのでしょうか。多重代入法が良いでしょう。

ただし欠測値が多くある場合や欠測値を予測する観測変数が多くある場合、作業が複雑になります。

しかし、観測データが十分にある場合は、完全情報最尤法よりもより適切な推定結果が得られます。

◎非ランダム欠測             

欠測したデータそのものに依存して欠測が生じる場合です。

例えば、
打ち切りや天井効果によって、正確な値が分からない場合があります。

この処理方法は、

・選択モデル

・パタン混合モデル


があります。

選択モデルは、欠測が生じるメカニズムをモデル化し、それを利用して母数を推定する手続きをふみます。

パタン混合モデルは、異なる欠測パタンをもつ対象ごとに、欠測データを考慮したモデルを設定して、それらを統合して推測を行います(p28)。

参考文献:





posted by アリシス at 02:34| Comment(0) | 統計学 | このブログの読者になる | 更新情報をチェックする

2018年07月27日

5件法の質問紙を分散分析する方法

〇5件法とは

1全く当てはまらない-5とてもよく当てはまる

のように5つの選択肢からなる尺度で、

例えば、
1はい 2いいえ

であれば2件法、

1あてはまらない 2あまりあてはまらない 3ややあてはまる 4あてはまる

の4つの選択肢があると、4件法になります。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
〇分散分析とは

2つ以上の群平均値に有意な差があるかを調べる(検定)ために使用されます。

例えば、薬の効果を調べるために、新薬と偽薬群を比較して、新薬群の方が偽薬群よりも健康状態の平均が高く、その差が有意(たまたま出た差ではなく、実際に薬の効果だと言えるほどの意味のある差)であった場合、新薬は効果があると言えます。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
〇5件法の群分けの仕方

分散分析は複数の群に分けて、検定を行います。

そのため質問紙で5件法を使った場合、どう群分けをすべきか、悩んだことがある人はいないでしょうか。

例えば、6件法を2群に分ける場合、(1,2,3)(4,5,6)に分け、前者を低群、後者を高群として群分けできそうですが、

5件法の場合(1,2)3(4,5)となり、3をどちらの群に含めるべきか悩ましいところです。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
〇解決策①

ー1つの調べたい事柄に対して複数の質問を設けている場合ー

心理学の質問紙では多くの場合、一つの調べたい事柄に対し、複数の質問を行い、その合計点の平均を算出し、調べたい1つの項目の得点とします。

そうすることで、より正確に調べたい事柄を調べることができるようになります。

例えば、被検者の抑うつを調べたい場合、

「あなたは気分が沈みやすいですか」などと一つの質問で調べるだけでは、丸をつけ間違えてしまうとその影響をダイレクトに受けてしまいますし、一つの質問だけで、抑うつを説明できるとは言い難いでしょう。

なので、質問紙では以下のように複数の質問を尋ねます。

1)いつもの通り元気だと思う
2)体重が減っている
・・・
48)私の将来は真暗だ
・・・
51)終始疲れている
・・・
「日本語版キャロル抑うつ自己評価尺度」(島,2009)より

というように、逆転項目を加えながら(この場合は1)、抑うつに関わる様々な質問をします。

これらの項目を合計して(逆転項目はもちろん処理して)出た値が、平均値(中央値)より高いか低いかで、

抑うつ低群、抑うつ高群の2つの群に分けられます

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
〇解決策②

ー調べたい事柄について1つの質問しか設けていない場合ー

この場合も、解決策①と同様、中央値(平均値)よりも高いか、低いかで比較します。

Aさん、Bさん、Cさん、Dさん、・Lさん(中央値)・・nさん
1   1   2   2       3         5

このように得点が低い順から高い順に被験者を並ばせたとき、

その中央値(この場合はLさん)よりも低いか、それ以上か、で2群に分けられます。

この場合A、B、C、Dさんは低群、Lさんからnさんまでは高群に入ります。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
〇解決策の問題点

上述の解決策の問題点は、中央値や平均値で群分けしたときに、線引きされた付近にあるデータは、それらのデータ間であまり差が無いにも関わらず、2つにはっきりと群分けされてしまうということです。

この問題の解決策としては、真ん中のデータを取り除き両脇を値を検定するという方法があります。(5件法の場合は3を取り除き(1,2)(4,5)とする)

こうすることで、もちろん差が出やすくなるので、有意な結果が得られやすいのですが、これは恣意的な方法でもあります。

ーーーーーーーーーーーーーーーー

〇まとめ

5件法をどうやって群分けすべきか、一瞬迷うかもしれません。

しかしという尺度数で群分けしなくても、

項目尺度の合計点を平均を軸に群分けしたり(解決策➀)、被検者の中央値・平均値の人を軸に群分け(解決策②)したりすること
も出来ます。

ここでは、2値での群分けを例に挙げましたが、2群のときと同様、尺度の合計点や人数に注目して、3群にも分けられます。


読んで分からないことなどありましたら、お気軽にコメントいただけたらと思います。

最後まで読んでいただき、ありがとうございました。

ーーーーーーーーーーーーーーーーーーーーーーーーー
〇余談

5件法できいた場合、最も良いのは(重)回帰分析をすることです。

(重)回帰分析ならば、群分けせず、得られた値をそのまま分析することができます。

5件法で聞いたのに、2群や3群に直してしまうのは、せっかく得られた情報を無駄にしてしまう、ということです。

それならば最初から、2件法や3件法できいていれば良かったことになります。

しかしデータの性質によっては、(重)回帰分析では捉えることができない性質をもったデータの場合もあります。

その時は上述のように、群分けして分散分析をする方法が考えられます。




posted by アリシス at 17:14| Comment(0) | 統計学 | このブログの読者になる | 更新情報をチェックする

2018年07月20日

決定係数とモデル適合度

〇決定係数とは?

決定係数とは、分散説明率とも言い、R²(SSy^/SSy)で表されます。

独立変数が従属変数(の分散)をどれだけよく予測あるいは説明するかを評価する指標で、0~1の範囲で表されます。

ーーーーーーーーー

例えば、R²=0.4のときを考えてみましょう。
(xを独立変数、yを従属変数、eを誤差とおく回帰分析を考える)

x1→y←e

x2⤴

R²=0.4のとき、x1,x2はyを4%しか説明できておらず、yを説明するには他の変数が必要だと考えられます。

このとき、eは96%(100%-4%)です。

ーーーーーーーーー
〇モデル適合度とは?

決定係数とよく混合されるのが、モデルの適合度です。

しかし、決定係数とモデルの適合度は、全く異なる話になります。

先ほどの例だと、決定係数は0.4でモデル適合は100%、という可能性もありえます。

モデル適合度とは、少ない変数でどれだけ多くの情報量を持っているのかという割合

と考えると理解しやすいかと思います。

20の変数で80%のモデル適合を示すより、

3つで70%のモデル適合を示す方が、モデル適合度を表す基準(赤池情報量基準:AIC)は高くなります。

言い換えると、

全ての変数にパスが引かれている状態(飽和モデル)から、どのパスを消しても良いか、をみる指標でもあります。

ーーーーーーーーー
〇モデル適合度の数値の見方

モデル適合度を評価する指標はいくつかあります。

論文では、代表的な指標を複数提示し、そのどの指標もモデル適合度が良い、という風に報告する必要があります。

例えば、
GFIは、0.9を超えることが望ましいとされています。

ーーーーーーーーー
〇まとめ

決定係数とモデル適合度は異なる指標なので、混合しないようにしましょう。

posted by アリシス at 20:18| Comment(0) | 統計学 | このブログの読者になる | 更新情報をチェックする