2010年09月11日
クラスター分析(非階層的)
久しぶりの更新です。
今回はクラスター分析を使ってみました。
クラスター分析の手法としては大きく分けて二つあります。
1)階層的クラスター分析
2)非階層的クラスター分析
ですが、今回は非階層的クラスター分析において使用するコマンドのみ概説します。
Ⅰ:非階層的クラスター分析(k-means法)の実行
※クラスター数、は分析対象データに応じて適宜設定します。
※距離名、は類似度の指標を設定します。なお、k-means法による分析では、ユークリッド距離が類似度のデフォルトとして設定されています。
例)(matching)⇒単純一致係数、(Peason)⇒ピアソンのファイ係数、(Gower)⇒Gowerの一般類似係数
※クラスター名は自分で判別できるよう、適宜設定します。
Ⅱ:クラスターの中身の解釈(分析に用いた変数の平均値の比較)
※出力した表をエクセルなどにコピーし、グラフ化して各クラスターの特徴を比較します。
参考文献:石黒格(2008):『Stataによる社会調査データの分析』
今回はクラスター分析を使ってみました。
クラスター分析の手法としては大きく分けて二つあります。
1)階層的クラスター分析
2)非階層的クラスター分析
ですが、今回は非階層的クラスター分析において使用するコマンドのみ概説します。
Ⅰ:非階層的クラスター分析(k-means法)の実行
cluster kmeans 変数1 変数2 変数3 ・・・ 変数p, k(クラスター数) measure(距離名) name(クラスター名)
※クラスター数、は分析対象データに応じて適宜設定します。
※距離名、は類似度の指標を設定します。なお、k-means法による分析では、ユークリッド距離が類似度のデフォルトとして設定されています。
例)(matching)⇒単純一致係数、(Peason)⇒ピアソンのファイ係数、(Gower)⇒Gowerの一般類似係数
※クラスター名は自分で判別できるよう、適宜設定します。
Ⅱ:クラスターの中身の解釈(分析に用いた変数の平均値の比較)
tabstat 変数1 変数2 変数3 ・・・ 変数p, s(mean) by(クラスター名)
※出力した表をエクセルなどにコピーし、グラフ化して各クラスターの特徴を比較します。
参考文献:石黒格(2008):『Stataによる社会調査データの分析』