PythonとNumpyを使って相関行列や相関回帰分析を実装する

スポンサーリンク

今回は、Pythonで相関行列の出現と動作に焦点を当て、詳しく説明します。

スポンサーリンク

相関回帰分析とは?

データサイエンスや機械学習の分野では、変数の分析や特徴量の選択が必要な場面によく出くわします。

このような時に、相関回帰分析が役に立ちます。

相関回帰分析によって、プログラマーは連続した独立変数と連続した従属変数の関係を分析することができます

つまり、回帰分析では、データセットの独立変数と独立変数および応答(従属)変数の間の類似性と関係性を評価するのです。

相関回帰分析は,データ集合の変数間の関係を表現するために相関行列を使用する.

相関行列は、プログラマーがデータ変数間の関係を分析するのに役立つ行列構造です。

これは、0と1の範囲の相関値を表します。

正の値は良好な相関を、負の値は低い相関を表し、0に相当する値は特定の変数セット間の依存関係がないことを表します。

回帰分析および相関マトリックスから、次のような観察ができます。

  • データセットの独立変数間の依存性を理解します。
  • データセットの重要かつ非冗長な変数を選択するのに役立ちます。
  • 数値/連続変数にのみ適用される。

Pythonでの相関行列の実装に焦点を当てます。

Pythonで相関行列を作成する

まず、この例で使用されているデータセットを調査することから始めましょう。

下記のように、このデータセットには4つの独立した連続変数が含まれています。

  • temp
  • atemp
  • hum
  • 風速
import os
import pandas as pd
import numpy as np
import seaborn as sn
 
# Loading the dataset
BIKE = pd.read_csv("day.csv")
 
# Numeric columns of the dataset
numeric_col = ['temp','atemp','hum','windspeed']
 
# Correlation Matrix formation
corr_matrix = BIKE.loc[:,numeric_col].corr()
print(corr_matrix)
 
#Using heatmap to visualize the correlation matrix
sn.heatmap(corr_matrix, annot=True)

ここで、cnt は応答変数です。

次に、corr()関数を用いて、以下のように数値列の相関行列を作成します。

Correlation Matrix Dataset
Correlation Matrix Dataset

さらに、行列を可視化するためにSeaborn Heatmapsを使用しました。

出力は以下の通りです。

Correlation Matrix
Correlation Matrix

上記の行列から、以下の観察が得られます。

  • 変数 ‘temp’ と ‘atemp’ は、相関値0.99で、高度に相関しています。
  • したがって、我々は、2つのデータ変数のいずれかを削除することができます。
Correlation Matrix HEATMAP
Correlation Matrix-HEATMAP

まとめ

ここまでで、このトピックは終了です。

何か疑問があれば、お気軽にコメントください。

タイトルとURLをコピーしました