第四回研究会議事録


第四回目の研究会は,1月27日,東京大学柏キャンパスにて開催されました.今回の参加人数は,途中退出含めて計12名の方が参加し,内2名の方が新規に参加してくれました.

今回は「クラスタリング特集」と題して、発表者は,宮崎@東大,岡田@立正大,永岡@立正大の計3名でした.発表内容および質疑応答の内容は以下の通り.



1.クラスター分析と階層的クラスタリング(by宮崎@東大)


発表資料

頂いたコメント等

  • Ward法でユークリッド距離を用いるとき、距離関数は単に新重心と旧重心の偏差平方和となる!
  • 単連結法は帷子さんの研究のようなパスをつなぐ場合には役に立ちそうだ。

→ 補足 by帷子
単連結法の利点は,必ずしも超球状のクラスタにはならないという点ではないでしょうか.クラスタリング対象によっては,先にクラスタのセントロイドが決まっている場合もあり,この核からある閾値以内の距離にあるデータを再帰的に統合していく(これをクラスタ成長法というらしい)ことによってクラスタを生成したい場合もあり,これは超球にはなりません.単にユークリッド距離で近いもの同士を纏めていきたい場合,単連結のようなチェイニング効果がむしろ嬉しい場合もあるのです.僕の研究で行ってるクラスタリングは主にこのような考え方です.ただし外れ値には非常に弱いですが…



2.k-means法とISODATA法(by岡田@立正大)


発表資料

  • Yahooブリーフケースにupしました.多大学合同研究会フォルダのk-means.pptというファイルです.


頂いたコメント等

  • クラスタの初期位置を偏らせた場合に結果に影響が出るか分かればなお良い.
  • k-meansでは10,000回ほど計算すればある程度結果が安定するようだ.

→補足 by帷子
ちょっと言い忘れていましたが,k-meansの欠点の一つに,ポイントをマージする順番でも最終結果に影響が出てしまうというところです.初期値依存性や順序依存性をできるだけ回避するような方法や,高速に計算する方法なども開発されているそうなので,この辺りのことも是非調べてみたいですね.

タグ:

+ タグ編集
  • タグ:

このサイトはreCAPTCHAによって保護されており、Googleの プライバシーポリシー利用規約 が適用されます。

最終更新:2007年02月27日 17:22