PCA Maker

PCA Maker

The web service of principal component analysis

PCA Makerとは

PCA Makerは、主成分分析を簡単に行えるように設計したウェブサービスです。

主成分分析について

多次元データのもつ情報をできるだけ損わずに低次元空間に情報を縮約する方法。 多次元データを2次元・3次元データに縮約できれば、データ全体の雰囲気を視覚化することができる。視覚化により、データが持つ情報を解釈しやすくなる。

PCA Makerの使い方

① 以下のような欠損値のないcsvファイルを用意します。

例示しているデータは、setosa・versicolor・virginica の3種類のアヤメについて、 それぞれ Sepal_length・Sepal_width・Petal_length・Petal_widthの4項目のデータを集めたものです。 主成分分析は、このような多次元のデータを2次元に圧縮して、データの特徴を捉えることができます。

青で塗られている領域は、必ず数値でなければなりません。文字や空白セル(NA値)が存在した場合、エラーが表示されます。 白で塗られている部分は、空白セル(NA値)以外であれば問題ありません。

② データの要素数に応じて、要素数を選択します。

例示しているデータは、setosa・versicolor・virginica の3種類の要素を持っているので、 "3"を選択します。
※要素数は、3~20までの範囲で利用可能です。

③ csvデータを読み込みます。

④ csvデータの列情報を入力します。

「Start Row」には、"2"を、「End Row」には、"csvデータの最終列の列番号"を入力してください。

例示しているデータは、第2列から第5列までがデータの存在する列となっているため、以下の画像のように数値を入力をしました。

⑤ csvデータの各要素の行情報を入力します。

「Start Column of Nth Factor」には、第N番目の要素の始まりの行をマイナス1した値を、「End Column of Nth Factor」には、第N番目の要素の終わりの行をマイナス1した値を入力してください。

例示しているデータは、Excelの表示で第2行から第51行までが1つ目の要素 (setosa)、第52行から第101行までが2つ目の要素 (versicolor)、第102行から第151行までが3つ目の要素 (virginica) となっています。 そのため、PCA makerに入力する際には全てマイナス1した値を入力しています。

⑥ 各要素のラベルを付与します。

例示しているデータの第1要素は setosa、第2要素は versicolor、第3要素は virginica であるので、 以下の画像のようにラベルを付与しています。

⑦ 計算方法の設定

特別な理由がない限り、標準化は「True」にしておいてください。 標準化を行うことで、分散の大きな変数の主成分に対する影響が大きくなって しまうことを防ぐことができます。標準化は、各項目の単位が異なるときに 特に有効に働きます。

⑧ グラフの表示の調整

PCA Makerは、2つのパターンのグラフを出力することができます。 目的に合わせてグラフの表示を調節してください。

[Pattern 1 PCA Graph]

[Pattern 2 PCA Graph]

解析結果の見方

PCA Makerは、主成分分析の結果をグラフと主成分得点、固有値で表示します。

Principal Component Score (主成分得点)

元のデータを各主成分に変換した値を主成分得点と言います。

各主成分得点の Standard deviation (標準偏差)、Proportion of Variance (分散の割合)、Cumulative Proportion (累積比率) を確認することができます。

Eigenvector Value (固有値)

「それぞれの主成分の重要度の違いを表現」した値を固有値といいます。

各主成分における各項目の寄与率を表しています。