Excelで相関係数を出したいけれど、やり方がわからない方へ
「2つのデータに関連性があるか調べたいけれど、Excelでどう計算すればいいの?」と悩んでいませんか。相関係数はビジネスの売上分析、学術研究、マーケティング施策の効果検証など、あらゆる場面で活用される重要な統計指標です。
しかし、統計の知識がないと計算方法が難しく感じてしまうものです。実はExcelを使えば、関数を1つ入力するだけで瞬時に相関係数を求められます。
この記事では、Excelでの相関係数の出し方を3つの方法に分けて、初心者でも迷わず実践できるよう具体的な手順を解説します。さらに、計算結果の正しい読み取り方や、分析時に注意すべきポイントまで網羅しています。最後まで読めば、今日からすぐにデータ分析に活かせるスキルが身につきます。
そもそも相関係数とは?基礎知識を3分で理解しよう
相関係数の出し方を学ぶ前に、まず「相関係数とは何か」を簡単に押さえておきましょう。基礎を理解しておくことで、Excelで出した結果を正しく解釈できるようになります。
相関係数の定義
相関係数とは、2つの変数(データ)の間にどの程度の直線的な関連性があるかを示す数値です。統計学では「ピアソンの積率相関係数」と呼ばれ、記号では「r」で表されます。
値の範囲は−1から+1までです。+1に近いほど「一方が増えるともう一方も増える」正の相関が強く、−1に近いほど「一方が増えるともう一方は減る」負の相関が強いことを意味します。0に近い場合は、2つのデータに直線的な関連性がほとんどないと判断できます。
相関係数の目安一覧
| 相関係数の絶対値 | 相関の強さ | 具体的なイメージ |
|---|---|---|
| 0.7〜1.0 | 強い相関 | 気温とアイスクリーム売上 |
| 0.4〜0.7 | 中程度の相関 | 広告費と問い合わせ数 |
| 0.2〜0.4 | 弱い相関 | 睡眠時間とテスト成績 |
| 0.0〜0.2 | ほぼ無相関 | 靴のサイズと年収 |
この目安はあくまで一般的な基準です。分野や目的によって判断基準が変わる点には注意してください。
相関係数が役立つビジネスシーン
相関係数は以下のようなシーンで活用されています。
- 売上と広告費の関連性を数値で把握する
- 顧客満足度とリピート率の関係を検証する
- 製品の品質指標と不良率の相関を分析する
- 従業員のトレーニング時間と生産性の関係を評価する
- 気象データと来店者数のパターンを見つける
このように、ビジネスにおけるデータドリブンな意思決定の基盤として、相関係数は非常に重宝されます。
【方法1】CORREL関数で相関係数を出す方法(最も簡単)
Excelで相関係数を出す最も簡単な方法が、CORREL関数を使う方法です。たった1つの関数を入力するだけで計算が完了します。
CORREL関数の基本構文
CORREL関数の書き方は以下のとおりです。
=CORREL(配列1, 配列2)
- 配列1:1つ目のデータ範囲(例:気温のデータ列)
- 配列2:2つ目のデータ範囲(例:売上のデータ列)
2つの引数にそれぞれのデータ範囲を指定するだけで、相関係数が自動計算されます。
具体的な手順(ステップバイステップ)
ここでは「月別の気温」と「アイスクリームの売上個数」の相関係数を求める例で説明します。
ステップ1:データを用意する
まず、Excelのシートに以下のようにデータを入力します。
| セル | 内容 | 入力例 |
|---|---|---|
| A1 | 見出し | 月 |
| B1 | 見出し | 気温(℃) |
| C1 | 見出し | 売上個数 |
| A2〜A13 | 月名 | 1月〜12月 |
| B2〜B13 | 気温データ | 5, 6, 10, 15, 20, 25, 30, 31, 26, 18, 12, 7 |
| C2〜C13 | 売上データ | 120, 135, 200, 310, 480, 620, 830, 850, 590, 350, 190, 140 |
ステップ2:関数を入力する
結果を表示したいセル(例:E2)を選択し、以下の数式を入力します。
=CORREL(B2:B13, C2:C13)
ステップ3:Enterキーを押す
Enterを押すと、セルE2に相関係数が表示されます。上記のサンプルデータの場合、約0.988という結果になります。
この値は+1に非常に近いため、「気温が上がるとアイスクリームの売上も大きく増える」という強い正の相関があることがわかります。
CORREL関数を使う際のポイント
- 2つの配列のデータ数は必ず同じにしてください。異なるとエラーになります。
- 空白セルや文字列が含まれるセルは自動的に無視されます。
- データ数が少なすぎると信頼性が下がるため、最低でも10個以上のデータを用意しましょう。
- 類似の関数にPEARSON関数がありますが、結果はCORREL関数と同じです。
PEARSON関数との違い
Excelには「=PEARSON(配列1, 配列2)」という関数もあります。実はCORREL関数とPEARSON関数は計算結果が完全に同じです。どちらを使っても問題ありません。ただし、一般的にはCORREL関数のほうが広く知られているため、共同作業を行う際にはCORREL関数を使うのがおすすめです。
【方法2】データ分析ツール(分析ツールパック)で相関行列を作成する方法
3つ以上の変数の相関をまとめて調べたい場合は、Excelのデータ分析ツール(分析ツールパック)が便利です。複数の変数間の相関係数を一覧表(相関行列)として一括出力できます。
分析ツールパックの有効化手順
データ分析ツールはExcelに標準搭載されていますが、初期状態では無効になっています。以下の手順で有効化しましょう。
- Excelの上部メニューから「ファイル」をクリックします。
- 「オプション」を選択します。
- 左メニューの「アドイン」をクリックします。
- 下部にある「管理」が「Excelアドイン」になっていることを確認し、「設定」をクリックします。
- 表示されたリストから「分析ツールパック」にチェックを入れ、「OK」を押します。
これで「データ」タブの右端に「データ分析」ボタンが表示されます。
相関分析の実行手順
ここでは「気温」「湿度」「アイスクリーム売上」の3変数の相関行列を作成する例で解説します。
ステップ1:データを準備する
| A列 | B列 | C列 |
|---|---|---|
| 気温(℃) | 湿度(%) | 売上個数 |
| 5 | 45 | 120 |
| 6 | 48 | 135 |
| 10 | 52 | 200 |
| 15 | 58 | 310 |
| 20 | 62 | 480 |
| 25 | 70 | 620 |
| 30 | 75 | 830 |
| 31 | 78 | 850 |
| 26 | 68 | 590 |
| 18 | 55 | 350 |
| 12 | 50 | 190 |
| 7 | 46 | 140 |
ステップ2:データ分析を起動する
- 「データ」タブを開き、「データ分析」をクリックします。
- 分析ツール一覧から「相関」を選択し、「OK」を押します。
ステップ3:設定を入力する
- 入力範囲:見出しを含むデータ全体(A1:C13)を選択します。
- データ方向:「列」を選択します。
- 先頭行をラベルとして使用にチェックを入れます。
- 出力先:結果を表示したいセルを指定します(例:E1)。
- 「OK」をクリックします。
ステップ4:結果を確認する
指定した出力先に相関行列が表示されます。以下のような結果になります。
| 気温 | 湿度 | 売上個数 | |
|---|---|---|---|
| 気温 | 1 | ||
| 湿度 | 0.986 | 1 | |
| 売上個数 | 0.988 | 0.974 | 1 |
この結果から、気温と売上個数の相関(0.988)が最も強く、湿度と売上個数(0.974)も強い正の相関があることが一目でわかります。
データ分析ツールのメリットとデメリット
| 項目 | メリット | デメリット |
|---|---|---|
| 変数の数 | 3つ以上の変数を一括で分析可能 | 変数が多すぎると表が大きくなり見づらい |
| 操作性 | GUIで直感的に操作できる | 事前にアドインの有効化が必要 |
| 更新性 | − | データ更新時に再実行が必要(自動更新されない) |
データが頻繁に更新される場合は、CORREL関数を使う方法のほうが便利です。一方で、多くの変数を一度に比較したい場合はデータ分析ツールが圧倒的に効率的です。
【方法3】散布図を作成して視覚的に相関を確認する方法
数値だけでなく、視覚的にデータの関係性を把握することも非常に重要です。散布図を作成し、近似曲線とR²値を表示すれば、相関の強さと方向を直感的に理解できます。
散布図の作成手順
- 相関を調べたい2列のデータを選択します(例:B1:C13)。
- 「挿入」タブの「グラフ」グループから「散布図」を選択します。
- 散布図のスタイルは「散布図(マーカーのみ)」を選びます。
- グラフが作成されたら、データ点(マーカー)をクリックして選択します。
- 右クリックで「近似曲線の追加」を選択します。
- 近似曲線のオプションで「線形近似」を選び、「グラフにR-2乗値を表示する」にチェックを入れます。
- 「閉じる」をクリックします。
R²値(決定係数)の読み取り方
散布図上に表示されるR²値は相関係数rを2乗した値です。これを「決定係数」と呼びます。
例えば、相関係数が0.988の場合、R²値は0.988² ≒ 0.976となります。この値は「気温の変動によって売上個数の変動の約97.6%が説明できる」という意味です。
| R²値 | 解釈 |
|---|---|
| 0.8以上 | 非常に高い説明力がある |
| 0.5〜0.8 | 中程度の説明力がある |
| 0.5未満 | 説明力が低い(他の要因が大きい) |
なお、R²値から相関係数を逆算したい場合は、R²値の平方根を取ればOKです。ただし正負の判断は散布図の傾きで確認してください。
散布図を使うべきタイミング
- 上司やクライアントへのプレゼンテーション資料を作る場合
- 外れ値(異常値)の存在を視覚的に確認したい場合
- データの分布パターンが直線的かどうか判断したい場合
- 非線形の関係が疑われる場合のスクリーニング
散布図は、数値だけでは見落としがちな外れ値やデータの偏りを発見するのに非常に効果的です。CORREL関数と散布図をセットで使うことを強くおすすめします。
相関係数の結果を正しく解釈する方法と注意点
Excelで相関係数を計算できるようになったら、次に重要なのは結果の正しい解釈です。数値を誤って読み取ると、間違った結論を導いてしまう危険があります。
注意点1:相関関係は因果関係ではない
これは統計分析における最も重要な原則です。相関係数が高いからといって、「AがBの原因である」とは限りません。
例えば、「アイスクリームの売上」と「水難事故の件数」には正の相関があります。しかしアイスクリームが水難事故を引き起こしているわけではありません。どちらも「気温の上昇」という第三の要因によって同時に増加しているだけです。
この現象を「疑似相関(見せかけの相関)」と呼びます。相関係数の結果を報告する際は、必ず因果関係との区別を明確にしましょう。
注意点2:外れ値の影響に気をつける
相関係数は外れ値(他のデータから大きく離れた値)に非常に敏感です。たった1つの外れ値が存在するだけで、相関係数が大きく変動することがあります。
対策として以下の方法を実践してください。
- 散布図を作成して外れ値の有無を目視で確認する
- 外れ値を除いた場合の相関係数も併せて計算する
- 外れ値の原因を調査し、入力ミスなら修正、実際のデータなら注記を添える
注意点3:非線形の関係には対応できない
Excelの相関係数(ピアソンの相関係数)は直線的な関係しか測定できません。U字型やS字型などの非線形な関係がある場合、相関係数が0に近くなることがあります。
例えば「ストレスレベルとパフォーマンス」の関係は、逆U字型(ヤーキーズ・ドッドソンの法則)であることが知られています。このような場合、ピアソンの相関係数だけでは関係性を正しく捉えられません。
非線形の関係が疑われる場合は、スピアマンの順位相関係数を使う方法があります。Excelの標準関数にはありませんが、RANK関数とCORREL関数を組み合わせることで計算可能です。
注意点4:サンプルサイズに注意する
データの数(サンプルサイズ)が少ないと、相関係数の信頼性が低くなります。一般的な目安は以下のとおりです。
| サンプルサイズ | 信頼性の評価 |
|---|---|
| 30個以上 | 統計的に十分信頼できる |
| 10〜29個 | 参考値として活用可能 |
| 10個未満 | 結論を出すには不十分 |
可能であれば30個以上のデータを用意してから相関分析を行いましょう。
注意点5:相関係数の有意性検定を行う
計算した相関係数が「統計的に意味のある値」かどうかを判断するためには、有意性検定(t検定)を行う必要があります。
t値の計算式は以下のとおりです。
t = r × √(n−2) ÷ √(1−r²)
ここで、rは相関係数、nはデータ数です。求めたt値とt分布表を比較し、有意水準(通常5%または1%)で判定します。
ExcelではT.DIST.2T関数を使ってp値を直接計算できます。p値が0.05未満であれば「統計的に有意な相関がある」と判断するのが一般的です。
実務で使える!相関係数の活用事例5選
ここからは、ビジネスの現場で実際に相関係数を活用する具体的な事例を紹介します。自分の業務に当てはめて参考にしてください。
事例1:広告費と売上の関係を検証する
月別の広告費と売上データの相関係数を求めることで、広告投資の効果を数値で評価できます。相関係数が0.7以上であれば広告費の増加が売上に貢献している可能性が高く、予算配分の判断材料になります。
ただし、広告効果にはタイムラグがある場合もあります。当月の広告費と翌月の売上でも相関を計算し、比較してみましょう。
事例2:顧客満足度とNPSの関連を分析する
アンケート調査で取得した顧客満足度スコアとNPS(ネットプロモータースコア)の相関を分析すれば、どの満足度要素がNPSに最も影響するかを特定できます。相関が最も強い要素に注力することで、効率的にNPSを改善できます。
事例3:採用テストの得点と入社後の業績を評価する
採用時の適性テスト得点と入社1年後の業績評価の相関係数を求めることで、テストの予測妥当性を検証できます。相関が低い場合はテスト内容の見直しが必要かもしれません。
事例4:気象データと来店客数の関係を把握する
小売業や飲食業では、天候が来店客数に大きく影響します。気温・降水量・日照時間と来店客数の相関を調べることで、天候に応じた人員配置や仕入れ量の最適化が可能になります。
事例5:製造工程における品質パラメータの分析
製造業では、温度・圧力・速度などの工程パラメータと製品の品質指標(不良率など)の相関を分析します。相関が強いパラメータを重点的に管理することで、品質改善のコストを最小化できます。
Excelで相関係数を出す際のよくあるエラーと対処法
Excelで相関係数を計算する際、エラーが発生することがあります。ここでは代表的なエラーとその解決方法を紹介します。
#DIV/0!エラー
このエラーは、データが1つしかない場合や、すべてのデータが同じ値の場合に発生します。相関係数を計算するには最低2つ以上の異なる値が必要です。データの内容を確認してください。
#N/Aエラー
2つの配列のデータ数が一致しない場合に表示されます。配列1と配列2のセル範囲の行数が同じかどうか確認してください。
#VALUE!エラー
データ範囲にテキスト文字列が含まれている場合に発生することがあります。数値以外のセルがないか確認し、該当のセルを修正または削除してください。
結果が0になる場合
エラーではありませんが、相関係数が0またはほぼ0になる場合があります。これは「相関がない」ことを意味しますが、以下の可能性もあるため注意が必要です。
- 非線形の関係が存在している
- 外れ値がデータ全体の傾向を打ち消している
- サンプルサイズが小さすぎる
必ず散布図でデータの分布パターンを視覚的に確認しましょう。
スピアマンの順位相関係数をExcelで計算する方法(応用編)
前述のとおり、ピアソンの相関係数は直線的な関係のみを測定します。順序データや非線形の関係を扱う場合は、スピアマンの順位相関係数が有効です。
計算手順
- 各変数のデータに対してRANK.AVG関数で順位を付けます。
- 順位データに対してCORREL関数を適用します。
具体的な数式例(データがA2:A13とB2:B13にある場合)を示します。
ステップ1:C2セルに「=RANK.AVG(A2,$A$2:$A$13,1)」と入力し、C13までコピーします。
ステップ2:D2セルに「=RANK.AVG(B2,$B$2:$B$13,1)」と入力し、D13までコピーします。
ステップ3:E2セルに「=CORREL(C2:C13,D2:D13)」と入力します。
これでスピアマンの順位相関係数が算出されます。順位データを使うため外れ値の影響を受けにくく、より頑健な結果が得られます。
まとめ:Excelでの相関係数の出し方を押さえてデータ分析力を高めよう
この記事では、Excelでの相関係数の出し方を3つの方法に分けて詳しく解説しました。最後に要点を整理します。
- CORREL関数は最も簡単で、2つの変数の相関係数を瞬時に計算できる
- データ分析ツールは3つ以上の変数を一括で分析でき、相関行列を作成できる
- 散布図は視覚的にデータの関係性を把握でき、外れ値の発見にも役立つ
- 相関係数の値は−1〜+1の範囲で、絶対値が1に近いほど相関が強い
- 相関関係と因果関係は別物であり、結果の解釈には注意が必要
- 外れ値・サンプルサイズ・非線形性に注意して分析を行うことが重要
- 有意性検定を行い、統計的に信頼できる結果かどうかを確認する
- ビジネスシーンでは売上分析・品質管理・人事評価など幅広く活用できる
相関係数はデータ分析の基礎中の基礎です。Excelでの計算方法をマスターすることで、日々の業務におけるデータ活用の幅が大きく広がります。まずはCORREL関数から試してみて、慣れてきたらデータ分析ツールや散布図も組み合わせて活用してみてください。
よくある質問(FAQ)
ExcelのCORREL関数とPEARSON関数の違いは何ですか?
CORREL関数とPEARSON関数はどちらもピアソンの積率相関係数を計算する関数で、計算結果は完全に同じです。どちらを使っても問題ありませんが、一般的にはCORREL関数のほうが広く知られているため、共同作業では CORREL関数の使用がおすすめです。
相関係数がマイナスの値になった場合、どう解釈すればいいですか?
相関係数がマイナス(負の値)の場合は「負の相関」があることを意味します。つまり、一方の変数が増加するともう一方が減少する関係です。例えば、気温が下がると暖房器具の売上が増えるような関係が該当します。絶対値が1に近いほど負の相関が強いことを示します。
Excelのデータ分析ツールが見つからない場合はどうすればいいですか?
データ分析ツールは初期状態では無効になっています。「ファイル」→「オプション」→「アドイン」→「管理:Excelアドイン」→「設定」の順に進み、「分析ツールパック」にチェックを入れて「OK」をクリックしてください。これで「データ」タブに「データ分析」ボタンが表示されます。
相関係数を求めるのに最低何個のデータが必要ですか?
計算上は2個以上のデータがあれば相関係数を求めることは可能です。しかし、統計的に信頼できる結果を得るには最低でも10個以上、できれば30個以上のデータを用意することが推奨されます。サンプルサイズが小さいと偶然の結果に左右されやすくなります。
Excelで相関係数を求める際、データに空白セルがあっても大丈夫ですか?
CORREL関数では、空白セルや文字列を含むセルは自動的に計算から除外されます。ただし、一方の配列にのみ空白がある場合、対応するペアのデータも除外されるため、計算に使われるデータ数が減少します。正確な結果を得るためには、事前に空白セルを確認し、必要に応じてデータを補完することをおすすめします。
相関係数が0.5だった場合、この値は高いと言えますか?
相関係数0.5は「中程度の相関」に分類されます。一般的に0.7以上が強い相関、0.4〜0.7が中程度の相関、0.2〜0.4が弱い相関とされます。ただし、分野によって判断基準は異なります。社会科学の分野では0.5でも十分に意味のある値とされることが多い一方、自然科学では0.7以上を求められることが一般的です。
Excelでスピアマンの順位相関係数を計算することはできますか?
Excel に専用の関数はありませんが、RANK.AVG関数とCORREL関数を組み合わせることで計算可能です。まず各データにRANK.AVG関数で順位を付け、その順位データに対してCORREL関数を適用します。スピアマンの相関係数は外れ値の影響を受けにくく、順序データや非線形の関係を分析する際に有効です。

コメント