今回は、Pythonで相関行列の出現と動作に焦点を当て、詳しく説明します。
相関回帰分析とは?
データサイエンスや機械学習の分野では、変数の分析や特徴量の選択が必要な場面によく出くわします。
このような時に、相関回帰分析が役に立ちます。
相関回帰分析によって、プログラマーは連続した独立変数と連続した従属変数の関係を分析することができます。
つまり、回帰分析では、データセットの独立変数と独立変数および応答(従属)変数の間の類似性と関係性を評価するのです。
相関回帰分析は,データ集合の変数間の関係を表現するために相関行列を使用する.
相関行列は、プログラマーがデータ変数間の関係を分析するのに役立つ行列構造です。
これは、0と1の範囲の相関値を表します。
正の値は良好な相関を、負の値は低い相関を表し、0に相当する値は特定の変数セット間の依存関係がないことを表します。
回帰分析および相関マトリックスから、次のような観察ができます。
- データセットの独立変数間の依存性を理解します。
- データセットの重要かつ非冗長な変数を選択するのに役立ちます。
- 数値/連続変数にのみ適用される。
Pythonでの相関行列の実装に焦点を当てます。
この記事もチェック:PythonのNumpyを使って相関回帰分析を実装する方法
Pythonで相関行列を作成する
まず、この例で使用されているデータセットを調査することから始めましょう。
下記のように、このデータセットには4つの独立した連続変数が含まれています。
- temp
- atemp
- hum
- 風速
import os
import pandas as pd
import numpy as np
import seaborn as sn
# Loading the dataset BIKE = pd.read_csv( "day.csv" )
# Numeric columns of the dataset numeric_col = [ 'temp' , 'atemp' , 'hum' , 'windspeed' ]
# Correlation Matrix formation corr_matrix = BIKE.loc[:,numeric_col].corr()
print (corr_matrix)
#Using heatmap to visualize the correlation matrix sn.heatmap(corr_matrix, annot = True )
|
ここで、cnt は応答変数です。
次に、corr()関数
を用いて、以下のように数値列の相関行列を作成します。
さらに、行列を可視化するためにSeaborn Heatmapsを使用しました。
出力は以下の通りです。
上記の行列から、以下の観察が得られます。
- 変数 ‘temp’ と ‘atemp’ は、相関値0.99で、高度に相関しています。
- したがって、我々は、2つのデータ変数のいずれかを削除することができます。
まとめ
ここまでで、このトピックは終了です。
何か疑問があれば、お気軽にコメントください。