データ解析のためのPandasの便利な数学のメソッドを紹介していく

スポンサーリンク

読者の今回は、データ解析のためのPython Pandasの数学関数に焦点を当て、詳しく解説します。


スポンサーリンク

データ解析におけるPandasの数学関数の役割

統計やデータ解析の領域では、基本的なタスクは、データを分析し、そこからより良いモデルを構築するための観察結果を導き出すことです。

そのためには、データから意味のある情報を引き出すためのデータ解析のプロセスに役立つ関数を探索することが必要です。

PythonのPandasモジュールには、データを分析するための様々な関数が含まれています。

データの分析とは、生のデータソースから意味のある情報を引き出すことです。

この情報によって、私たちはデータの分布や構造について知ることができます。

この記事では、以下の関数を紹介します。

  • Pandas.DataFrame.mean()関数
  • Pandas.DataFrame.sum()関数
  • Pandas.DataFrame.median()関数
    Pandas.DataFrame.median() 関数 * Pandas.min() and max() 関数
  • Pandas.DataFrame.value_counts()関数
  • Pandas.DataFrame.describe()関数

それでは、次節でそれぞれを見ていきましょう

今回は、Bike Rental Predictionのデータセットを利用しました。


1. Pandasのmean()関数

平均は、統計的な値として、一つの値を通してデータの分布全体を表します。

dataframe.mean() 関数を使うと、1つの列、または複数の列、つまりデータセット全体の平均値を取得することができます

例えば、以下の様になります。

この例では、データセット全体に対して mean() 関数を適用しています。

BIKE.mean()

を出力します。

その結果、データセットの全列の平均値は次のように表されます。

instant        366.000000
season           2.496580
yr               0.500684
mnth             6.519836
holiday          0.028728
weekday          2.997264
workingday       0.683995
weathersit       1.395349
temp             0.495385
atemp            0.474354
hum              0.627894
windspeed        0.190486
casual         848.176471
registered    3656.172367
cnt           4504.348837
dtype: float64

2. Pandasのsum()関数

mean() 関数とは別に、Pandas sum() 関数を利用することで、より大きなスケールで列の値の合計を得ることができます。

これにより、定量的な観点でデータをより広く見ることができます。

例えば、以下の様になります。

ここでは、データセット全体に sum() 関数を適用して、データセットの各列の総和を計算しました。

BIKE.sum()

結果は以下の通りです。

instant                                                  267546
dteday        2011-01-012011-01-022011-01-032011-01-042011-0...
season                                                     1825
yr                                                          366
mnth                                                       4766
holiday                                                      21
weekday                                                    2191
workingday                                                  500
weathersit                                                 1020
temp                                                    362.126
atemp                                                   346.753
hum                                                     458.991
windspeed                                               139.245
casual                                                   620017
registered                                              2672662
cnt                                                     3292679
dtype: object

3. Pandas の median() 関数

median() 関数を使うと、データの集合の 50 パーセンタイル値または中心値を得ることができます。

例えば、以下の様になります。

ここでは、データセットのすべての列に対して median() 関数を適用しています。

BIKE.median()

出力。

データセットの各列の中央値を見ることができます。

instant        366.000000
season           3.000000
yr               1.000000
mnth             7.000000
holiday          0.000000
weekday          3.000000
workingday       1.000000
weathersit       1.000000
temp             0.498333
atemp            0.486733
hum              0.626667
windspeed        0.180975
casual         713.000000
registered    3662.000000
cnt           4548.000000

4. Pandasのmin()とmax()関数

min() と max() 関数を使うと、データセットの各カラムやデータフレームの単一カラムの最小値と最大値を取得することができます

例えば、以下の様になります。

ここでは、データセットの各列の最大値を取得するためにmax()関数を適用しています。

BIKE.max()

出力。

instant              731
dteday        2012-12-31
season                 4
yr                     1
mnth                  12
holiday                1
weekday                6
workingday             1
weathersit             3
temp            0.861667
atemp           0.840896
hum               0.9725
windspeed       0.507463
casual              3410
registered          6946
cnt                 8714
dtype: object

5. Pandasのvalue_counts()関数

value_counts() 関数を使用すると、変数に存在するすべてのカテゴリまたはグループのカウントを取得できます。

これは、カテゴリ変数で有益です。

例えば、以下の様になります。

BIKE.season.value_counts()

ここでは、season変数にvalue_counts()関数を適用しました。

下記で見られるように、我々は、個別のカテゴリとして変数に存在するすべてのグループのカウントを取得します。

結果は以下の通りです。

3    188
2    184
1    181
4    178

6. Pandasのdescribe()関数

describe()関数を使うと、以下のような統計情報を一度に取得することができます

  • 各カラムのデータ数
  • 平均値
  • 標準偏差
  • 最小値
  • 最大値
    25%値[第1四分位値] * 50%すなわち中央値
  • 50%すなわち中央値
  • 75% 値 [第 3 四分位値].

例えば、以下の様になります。

BIKE.describe()

結果は以下の通りです。

Pandas Describe Dataframe
Pandas Describe Dataframe

まとめ

ここまでで、このトピックは終了です。

何か疑問があれば、お気軽にコメントください。

Pythonプログラミングに関連するこのような記事のために、私たちにご期待ください。

タイトルとURLをコピーしました