因子分析: Factor Analysis

 

兵庫教育大学 成田 滋

Updated January 6, 1998

心理・教育のための統計の初歩][論文の書き方] [偏相関分析について][多変量解析は強力で難しくない] [ノンパラメトリック法による分散分析の方法 --Friedman][直線的関連 Correlation] [データの性質と反復測定データ: Repeated Mesurement][ 共分散分析について][データの性質を知ろう][クラスター分析: Cluster Analysis][判別分析: Discriminant Analysis][重回帰分析: Multiple Regression Analysis


はじめに

の中では、いろいろなアンケート調査が行われます。新しい製品がどんな消費者に人気があるのか、どの店の売り上げが高いのか、どの政党をなぜ支持するのか、総理大臣の人気はどうか、どの学校がなぜ親に人気があるのかなど、いろいろな調査が見られます。

大学では、卒業研究のために調査をする学生が大勢います。生徒のストレスの原因はなにで、その対策をどうしたらよいか、就職の適性と雇用者の期待はなにか、などなど多岐に渡ります。

すべての調査は、傾向と対策を調べるために行われるといって過言でありません。市場の場合は、個々の店を評価して経営の方針や職員の研修方法を考えることができます。生徒のストレス原因を把握して、有効な対策をたてることもできます。学力検査によって言語的能力、数学的能力、動作的能力などを特定し、進路の材料を得たくなります。このテーマを扱うのが因子分析-factor analysis-です。

調査をするときは、たくさんの質問項目を用意します。項目は通常変数と呼ばれます。この変数の中から数少ない因子-ファクター-を抽出する手法が因子分析です。因子分析は、調査項目の背景にある直接には観測できない概念を特定するために役に立ちます。

因子分析の基本はなんでしょうか。それは人が考えたことや感じたことの背景にある次元とか因子が、複雑な現象の解明に役立つということです。変数というのは、こうした因子を共有していますので、変数間には大小の差はあれ相関関係があります。商品の売れ行きには、流行性とかブランド志向という共通の因子があります。学校の人気には、進学傾向とか生徒中心とかの因子があると考えられます。因子分析の目標は、観測可能な変数に基づいて、観測するのが困難な因子を特定することです。

 

因子分析のモデル

因子分析のモデルは、いくぶん重回帰分析に似ています。つまり変数は実際には観測できない因子の結合として表されます。商品の人気はつぎのような式になります。

商品の人気度得点=ブランド得点+品質得点+価格得点+アフターケア得点

この式におけるブランド得点とは、人気度得点のブランド得点に対するウエイトと商品のブランド得点との積で表されます。品質得点、価格得点、アフターケア得点も同様となります。ウエイトのことを因子負荷量と呼びます。

一般的に標準化変数のモデルは次のように表記されます。

Xi=Ai1F1+Ai2F2+,,,,,,+U

ここでFは共通因子であり、Uは独立因子と呼ばれます。独立因子は変数固有の特長で共通因子と相関していないと考えます。すべての変数が商品の人気度因子に寄与するわけではありません。むしろ、一部の変数だけが人気度を特長づけていることを私たちは期待します。つまり、標本から得られた変数間の関係をできるだけ簡潔に説明したいのです。いいかえれば私たちは観測された変数間の相関をできるだけ少ない因子を用いて説明したいわけです。

 

因子分析の手順

因子分析は次のような4つの手順に従って行われます。

 

例題--授業評価

因子分析の手順として、学生による教官の授業評価の例題を以下に取り上げます。どのような授業が学生に人気があるのかを調べようとするものです。20名の教官の授業に関する9つの質問項目の平均を示すのが下図です。表の下部が一部欠けています。

 

 

相関行列

次に、9種類の授業評価についての相関行列は、下図に示されています。因子分析の目標が、変数間の相関に役立つ「データの分解」と「因子の特定」にありますから、変数を適切な因子モデルについて互いに関連させねばなりません。もし変数同士の相関が低ければ、共通の因子を有する確率は同時に低くなります。

 

標本妥当性の測度と偏相関係数

変数間の関連を調べるためのもう一つの指標は、偏相関係数です。複数の変数が共通の因子を有しているとしますと、他の変数の線形効果が除去されたときには、変数同士の偏相関係数は小さくなるはずです。偏相関はその場合には独自因子間の相関となります。前述したように独自因子は相関がないはずです。これを調べるのがBartlettの球面性についての検定といい、その結果は下図に示されます。これによると確かに相関係数は0に近いという仮説が支持されています。

なおKMO(Kaiser-Meyer-Olkin)による標本妥当性の測度とは、観測相関係数の大きさと偏相関係数の大きさを比較する指標です。大きいKMOの基準値は1に近いほうが変数の因子分析がうまくゆくとされます。Keiserは0.9以上は優秀、0.8以上はかなり良い、0.7以上は良い、0.6は普通、0.5以下は不十分としています。下図の場合KMO=0.427ですから因子分析がうまくいかないことも考えられます。例題ですからこのまま分析をつづけますが、、、

 

 

負荷平方和の因子抽出と初期の固有値

下図は、合計分散の83%が、4つの因子に属することを表しています。残り5つの因子をあわせても17%にしかなりません。これは4つの因子によるモデルが授業評価のデータを分解するのに適していることを示します。初期の固有値ですが、これは因子の数を決めるための一つのモデルとされます。一つの規準は、1より大きい分散(固有値が1より大きい)を説明する因子だけを含めるということです。その前提は、それぞれの変数は1という分散を持っているからです。下図でみますと、1から4までの変数は初期の固有値が1以上です。累積%は、累積寄与率とも呼ばれます。つまり、説明することに寄与している分散の累積率です。

 

 

因子負荷

下図によると、因子は4つが抽出されそうです。変数それぞれの行は、標準化されたされた変数を因子の側面から表わすための係数を指します。これらの係数は、因子にどれだけの重みを持っているかを示すために、「因子負荷」と呼んでいます。変数について絶対値の大きい係数も持つ因子が、変数と関連が深いことになります。

 

因子と回転

抽出された因子の行列は、因子とそれぞれの変数の間の関連性を表します。ですが、それだけでは行列から意味ある因子を特定できません。ほとんどの因子は多くの変数と相関がありますので、因子を特定してやる必要があります。ある変数のグループの間だけで密接に関連する因子をみつけるのが因子分析の目的でした。そこで意味ある因子を探すのに使われる手法が回転という作業です。回転は、行列となっている因子を解釈ができるものに変換してやることです。回転には、直交回転と斜交回転があります。いずれも因子の簡単な構造を得ることです。このための直交回転にはいくつかのアルゴリズムがあります。最も一般的に使用されるのは、ある因子に対して高い負荷を持つ変数の数を最小化するバリマックス回転です。

回転前の因子行列は、解釈しにくいことがあります。多くの変数がいくつかの変数に対して中程度の相関を持つからです。ですが、回転後の因子には、大きな因子負荷と小さな因子負荷の数が増えます。それぞれの変数は単一の因子とより大きな相関を持っていきます。因子の解釈もそれにより可能となります。例えば、最初の因子は、評価法、信頼度、機器利用、資料用意との間で相関を示します。従い、この因子は「学習配慮化」といった測定値とでも解釈できます。

因子を特定するには、同じ因子に対して高い負荷を持つ変数をグループ化する作業を行います。つまり同じ因子に対して高い負荷を持つ変数が一緒に現れるように因子パタンの行列をソートします。このほうが同じ因子を持つグループが視覚的にわかりやすくなります。その結果が下図に示されています。つまり、第一の因子を構成する変数は、評価法、信頼度、機器利用、資料用意ということになります。第二の因子は親和性と授業内容、第三の因子はやりとりと準備状況、第四の因子は明確さとなります。

 

 

 

最後に、共通の因子をどうして決定するかです。現象を簡潔に説明するのが因子分析ですから、因子は少ないほうがよいのです。通常、因子の決め方は次の二つであると思って間違いありません。

以上です。