DesignAssembler

備忘録に近い

階層的凝集型クラスタリングで画像分類

クラスタリング

クラスタリングとは観測データの距離の近いものをグループ化することで、教師なし学習に分類され今回は階層的凝集型クラスタリングについて説明します。


階層的凝集型クラスタリング

近いものを同じクラスタ、遠いものを別クラスタに振り分けるものです。
メリット:一度デンドログラフが出来れば欲しい性質を持ったクラスタに分けやすくなること
デメリット:データ数が増えると計算量も増えること

{ \displaystyle  }

デンドログラムの作成
データ集合{ \displaystyle D = \{x_i | \ i=1...N\} } についてデンドログラムを作ります。{ \displaystyle D }中のデータそれぞれをデータ数1のクラスタ候補{ \displaystyle C_n }とします。次に、その{ \displaystyle C_n }の代表値{ \displaystyle x_n }を求め、{ \displaystyle x_n }同士の距離の値が小さいものを統合します。(距離の判定方法は後述)この統合を{ \displaystyle C_n = 1 }になるまで繰り返します。
出来たデンドログラムを切り分けていくつかのクラスタにするには以下のような制限によるものがあります。
1.データ数による制限
2.各クラスタ候補内のデータの距離の制限
3.クラスタ個数の制限

距離判定の方法には以下のようなものがあります。また、どの距離を使うかによっても値が変わることがあります。
1.最短距離法
→各クラスタ候補同士の最短距離
2.最長距離法
→各クラスタ候補同士の最長距離
3.Ward法
→各クラスタ候補同士の重心間の距離

画像分類しました

LTで発表させてもらった時の資料を貼ります。
www.slideshare.net


コード

全然わかってないのでツッコミ下さい。


参考

非常に参考になりました。ありがとうございます。
aidiary.hatenablog.com

あと黄色い本と緑の本も読みました。緑の本をベースに考えました。

パターン認識と機械学習 下 (ベイズ理論による統計的予測)

パターン認識と機械学習 下 (ベイズ理論による統計的予測)

東京大学工学教程 情報工学 機械学習

東京大学工学教程 情報工学 機械学習