PCA Makerは、主成分分析を簡単に行えるように設計したウェブサービスです。
① 以下のような欠損値のないcsvファイルを用意します。
例示しているデータは、setosa・versicolor・virginica の3種類のアヤメについて、 それぞれ Sepal_length・Sepal_width・Petal_length・Petal_widthの4項目のデータを集めたものです。 主成分分析は、このような多次元のデータを2次元に圧縮して、データの特徴を捉えることができます。
csvファイルをUTF-8で保存する必要あり
csvを保存する際に、文字コードがUTF-8で保存されることを確認してください。Shift-JIS形式では、PCA Makerがcsvファイルを正常に読み込めません。 Excelをご利用になられている方は、保存する際に「ファイル」→「エクスポート」→ 「ファイルの種類の変更」と進んでいき、「CSV UTF-8 (コンマ区切り) (*.csv)」 の形式を選択して保存してください。csvファイルのデータの構造
データ構造は、以下の形に従ってください。 ※データ構造を以下の形にしないと、PCA Makerで正確に主成分分析を行うことができません。青で塗られている領域は、必ず数値でなければなりません。文字や空白セル(NA値)が存在した場合、エラーが表示されます。 白で塗られている部分は、空白セル(NA値)以外であれば問題ありません。
② データの要素数に応じて、要素数を選択します。
例示しているデータは、setosa・versicolor・virginica の3種類の要素を持っているので、 "3"を選択します。 ※要素数は、3~20までの範囲で利用可能です。
③ csvデータを読み込みます。
ファイルを読み込んだ際に発生しがちなエラーと対処法
① Error: 'x' must be numeric [解決方法] 本来数値である部分に、数値でないものが混ざっています。 文字が紛れ込んでいたり、全角の数字が混じっていないか確認し、データを修正しましょう。 ② Error: missing value where TRUE/FALSE needed [解決方法] 第一列にラベルを持ってきていない場合に発生しがちなエラーです。 また、csvファイル内に欠損値がある場合も、同様のエラーが発生します。 データの形式は、手順①で示したデータ形式にする必要があります。 データ形式が正しいにも関わらずエラーが出る場合は、欠損値がファイル内に混ざっていることを疑いましょう。 csvのデータ内に空白のセルが混ざっている場合があります。 空白のセルをすべて排除して、再度PCA Makerに読み込ませてみましょう。④ csvデータの列情報を入力します。
「Start Row」には、"2"を、「End Row」には、"csvデータの最終列の列番号"を入力してください。
列情報を入力する際に気を付けること
PCA Makerは、ラベルの列(Excelの表示で第1列に当たる部分)を第1列と認識します。 そのため、「Start Row」には"2"を入力して下さい。例示しているデータは、第2列から第5列までがデータの存在する列となっているため、以下の画像のように数値を入力をしました。
⑤ csvデータの各要素の行情報を入力します。
「Start Column of Nth Factor」には、第N番目の要素の始まりの行をマイナス1した値を、「End Column of Nth Factor」には、第N番目の要素の終わりの行をマイナス1した値を入力してください。
各要素の行情報を入力する際に気を付けること
PCA Makerは、ラベルの行(Excelの表示で第1行に当たる部分)を行と認識しません。 そのため、Excelで表示されている行番号をマイナス1する必要があることに注意してください。例示しているデータは、Excelの表示で第2行から第51行までが1つ目の要素 (setosa)、第52行から第101行までが2つ目の要素 (versicolor)、第102行から第151行までが3つ目の要素 (virginica) となっています。 そのため、PCA makerに入力する際には全てマイナス1した値を入力しています。
⑥ 各要素のラベルを付与します。
例示しているデータの第1要素は setosa、第2要素は versicolor、第3要素は virginica であるので、 以下の画像のようにラベルを付与しています。
⑦ 計算方法の設定
特別な理由がない限り、標準化は「True」にしておいてください。 標準化を行うことで、分散の大きな変数の主成分に対する影響が大きくなって しまうことを防ぐことができます。標準化は、各項目の単位が異なるときに 特に有効に働きます。
⑧ グラフの表示の調整
PCA Makerは、2つのパターンのグラフを出力することができます。 目的に合わせてグラフの表示を調節してください。
[Pattern 1 PCA Graph]
[Pattern 2 PCA Graph]
PCA Makerは、主成分分析の結果をグラフと主成分得点、固有値で表示します。
Principal Component Score (主成分得点)
各主成分得点の Standard deviation (標準偏差)、Proportion of Variance (分散の割合)、Cumulative Proportion (累積比率) を確認することができます。
Eigenvector Value (固有値)
各主成分における各項目の寄与率を表しています。