読者の今回は、データ解析のためのPython Pandasの数学関数に焦点を当て、詳しく解説します。
データ解析におけるPandasの数学関数の役割
統計やデータ解析の領域では、基本的なタスクは、データを分析し、そこからより良いモデルを構築するための観察結果を導き出すことです。
そのためには、データから意味のある情報を引き出すためのデータ解析のプロセスに役立つ関数を探索することが必要です。
PythonのPandasモジュールには、データを分析するための様々な関数が含まれています。
データの分析とは、生のデータソースから意味のある情報を引き出すことです。
この情報によって、私たちはデータの分布や構造について知ることができます。
この記事では、以下の関数を紹介します。
- Pandas.DataFrame.mean()関数
- Pandas.DataFrame.sum()関数
- Pandas.DataFrame.median()関数
Pandas.DataFrame.median() 関数 * Pandas.min() and max() 関数 - Pandas.DataFrame.value_counts()関数
- Pandas.DataFrame.describe()関数
それでは、次節でそれぞれを見ていきましょう
今回は、Bike Rental Predictionのデータセットを利用しました。
この記事もチェック:Pandas DataFrameの単一カラムの名前を変更する
1. Pandasのmean()関数
平均は、統計的な値として、一つの値を通してデータの分布全体を表します。
dataframe.mean() 関数を使うと、1つの列、または複数の列、つまりデータセット全体の平均値を取得することができます。
例えば、以下の様になります。
この例では、データセット全体に対して mean() 関数を適用しています。
BIKE.mean() |
を出力します。
その結果、データセットの全列の平均値は次のように表されます。
instant 366.000000
season 2.496580
yr 0.500684
mnth 6.519836
holiday 0.028728
weekday 2.997264
workingday 0.683995
weathersit 1.395349
temp 0.495385
atemp 0.474354
hum 0.627894
windspeed 0.190486
casual 848.176471
registered 3656.172367
cnt 4504.348837
dtype: float64 |
2. Pandasのsum()関数
mean() 関数とは別に、Pandas sum() 関数を利用することで、より大きなスケールで列の値の合計を得ることができます。
これにより、定量的な観点でデータをより広く見ることができます。
例えば、以下の様になります。
ここでは、データセット全体に sum() 関数を適用して、データセットの各列の総和を計算しました。
BIKE. sum ()
|
結果は以下の通りです。
instant 267546
dteday 2011 - 01 - 012011 - 01 - 022011 - 01 - 032011 - 01 - 042011 - 0. ..
season 1825
yr 366
mnth 4766
holiday 21
weekday 2191
workingday 500
weathersit 1020
temp 362.126
atemp 346.753
hum 458.991
windspeed 139.245
casual 620017
registered 2672662
cnt 3292679
dtype: object
|
この記事もチェック:Pandasのmelt()とpivot()関数を使ってデータの整形をする方法
3. Pandas の median() 関数
median() 関数を使うと、データの集合の 50 パーセンタイル値または中心値を得ることができます。
例えば、以下の様になります。
ここでは、データセットのすべての列に対して median() 関数を適用しています。
BIKE.median() |
出力。
データセットの各列の中央値を見ることができます。
instant 366.000000
season 3.000000
yr 1.000000
mnth 7.000000
holiday 0.000000
weekday 3.000000
workingday 1.000000
weathersit 1.000000
temp 0.498333
atemp 0.486733
hum 0.626667
windspeed 0.180975
casual 713.000000
registered 3662.000000
cnt 4548.000000
|
この記事もチェック:PythonとPandasで大規模データセットを扱うコツ4つ
4. Pandasのmin()とmax()関数
min() と max() 関数を使うと、データセットの各カラムやデータフレームの単一カラムの最小値と最大値を取得することができます。
例えば、以下の様になります。
ここでは、データセットの各列の最大値を取得するためにmax()関数を適用しています。
BIKE. max ()
|
出力。
instant 731
dteday 2012 - 12 - 31
season 4
yr 1
mnth 12
holiday 1
weekday 6
workingday 1
weathersit 3
temp 0.861667
atemp 0.840896
hum 0.9725
windspeed 0.507463
casual 3410
registered 6946
cnt 8714
dtype: object
|
この記事もチェック:Pandasのデータフレームに行を追加する5つの簡単な方法
5. Pandasのvalue_counts()関数
value_counts() 関数を使用すると、変数に存在するすべてのカテゴリまたはグループのカウントを取得できます。
これは、カテゴリ変数で有益です。
例えば、以下の様になります。
BIKE.season.value_counts() |
ここでは、season変数にvalue_counts()関数を適用しました。
下記で見られるように、我々は、個別のカテゴリとして変数に存在するすべてのグループのカウントを取得します。
結果は以下の通りです。
3 188
2 184
1 181
4 178
|
6. Pandasのdescribe()関数
describe()関数を使うと、以下のような統計情報を一度に取得することができます。
- 各カラムのデータ数
- 平均値
- 標準偏差
- 最小値
- 最大値
25%値[第1四分位値] * 50%すなわち中央値 - 50%すなわち中央値
- 75% 値 [第 3 四分位値].
例えば、以下の様になります。
BIKE.describe() |
結果は以下の通りです。
まとめ
ここまでで、このトピックは終了です。
何か疑問があれば、お気軽にコメントください。
Pythonプログラミングに関連するこのような記事のために、私たちにご期待ください。