2018年08月16日

欠測値の処理の仕方

◎完全ランダム欠測            

他の観測データや他の欠測値と無関係な欠測値のことです。

例えば、
質問紙の記入漏れが該当します。


◎ランダム欠測              

欠測値が他の観測データに依存する場合です。欠測値を他の観測データを手掛かりに推測することができます。

例えば、
乳幼児の知能検査と言語理解を計り、言語理解に欠測値があった場合を考えます。知能検査が低かった乳幼児が、言語理解のテストを放棄したと考えられた場合、言語理解の欠測値は知能検査から推測します。

これら2つの欠測値の処理方法は、

・多重代入法

・完全情報最尤推定法
があります。

多重代入法は、予測値の誤差分散を考慮します。

様々な予測値の誤差を加え(代入)、複数の疑似的な完全データセット(多重)をつくります。

個別にデータセットを分析して、その結果を統合してより正確な推定結果を得ようとするのが、多重代入法の狙いです(p23)。

回帰法のように1つの疑似的な完全データセットを作るのではなく、乱数を用いていくつもの完全データセットをつくるのです。

完全情報最尤推定法は、最尤推定法を使います。そして観測されているデータのもつ情報をすべて使って、母数を推定します。

母数を推定することで、欠測値の平均、分散や共分散も完全データに近い推定結果が出ます。


これら2つの方法は、正規分布を仮定しているため、元のデータが正規分布とズレている場合は、本来の結果と推定結果が大きく異なってしまいますが、そうでない場合は、優れた方法になります。

どちらが優れているのでしょうか。多重代入法が良いでしょう。

ただし欠測値が多くある場合や欠測値を予測する観測変数が多くある場合、作業が複雑になります。

しかし、観測データが十分にある場合は、完全情報最尤法よりもより適切な推定結果が得られます。

◎非ランダム欠測             

欠測したデータそのものに依存して欠測が生じる場合です。

例えば、
打ち切りや天井効果によって、正確な値が分からない場合があります。

この処理方法は、

・選択モデル

・パタン混合モデル


があります。

選択モデルは、欠測が生じるメカニズムをモデル化し、それを利用して母数を推定する手続きをふみます。

パタン混合モデルは、異なる欠測パタンをもつ対象ごとに、欠測データを考慮したモデルを設定して、それらを統合して推測を行います(p28)。

参考文献:





スポンサーリンク


posted by アリシス at 02:34| Comment(0) | 統計学 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
コチラをクリックしてください