Pythonのstatisticsモジュールで便利なメソッドを7つ紹介する

スポンサーリンク

読者の今回は、Python statisticsモジュールの7つのIMP関数に焦点を当て、詳しく説明します。

では、さっそく始めましょう。

スポンサーリンク

Python統計モジュール

Pythonはデータを扱うために多くのモジュールを提供しています。

数学的モデリングや統計的データ解析に関して言えば、Pythonは数値データ値を密接に扱うためのstatisticsモジュールを提供してくれます。

このモジュールを使えば、数値データを簡単に扱うことができ、データ値から統計的な予測を一度に行うことができます。

ここでは、Pythonのstatisticsモジュールが提供する関数のうち、最も主要なものに焦点を当てます。

  • mean()関数
  • median()関数
  • median_high()関数
  • median_inthe_low()関数
  • stdev()関数
    _sum() 関数
    _counts()関数

それでは、1つずつ見ていきましょう。

1. mean()関数

平均値は、データを一目で理解するために最もよく使われる統計指標の一つです。

平均値は、データ全体の推定値を一度に表すものです。

統計学.mean()`関数を使うと、数値データの集合から平均値を得ることができます。

構文は以下の通り。

statistics.mean(data

2. median() 関数

平均値とは別に、データ全体の真ん中の部分を表す値が必要な場面によく出くわします。

統計.median()`関数を使うと、データ値の中央値を計算することができます

構文は以下の様な感じです。

statistics.median(data)

3. median_high()関数

statisticsモジュールの median_high() 関数は、引数として渡されたデータ値から、より高い中央値を得ることができるようにするものです。

中央値の高さは、データの値が離散的である場合に特に有用です。

構文は以下の様な感じです。

statistics.median_high(data)

4. statistics.median_low()関数

median_low()`関数は、データ値の集合から中央値の最も小さい値を取り出すために使うことができる。

これは、データが離散的で、補間点ではなく正確なデータ点が必要な場合に有用です。

構文は以下の様な感じです。

statistics.median_low(data)

5. 5. statistics.median_grouped()関数

median_grouped()`関数は、グループ化されたデータの中央値を返しますが、ある条件を満たす必要があります。

つまり、補間によって50パーセンタイルの中央値を計算します。

6. 統計学の _sum() 関数

引数として渡されたデータポイントの累積を行う場合、㊙_sum()関数の出番です。

sum()`関数を使うと、渡されたすべてのデータ点のカウントとともに、すべてのデータ値の合計を得ることができます。

構文は以下の様な感じです。

_sum(data)

7. 関数

関数 _counts() を使用すると、値の集合から各データ点の出現頻度を得ることができます。

つまり、1つ1つのデータ点の出現頻度をカウントし、データ値に対してのカウントを返します。

統計モジュールの実装

統計モジュールの関数をPythonで実装してみましょう。

import statistics
data = [10,203,20,30,40,50,60,70,80,100]
res = statistics.mean(data)
print("Mean: ",res)
res = statistics.median(data)
print("Median: ", res)
res = statistics.median_grouped(data)
print("50% value: ",res)
res = statistics.median_high(data)
print("Median High value: ",res)
res = statistics.median_low(data)
print("Median Low value: ", res)
res = statistics.stdev(data)
print("Standard Deviation: ",res)
res = statistics._sum(data)
print("Sum: ",res)
res = statistics._counts(data)
print("Count: ",res)

出力してみましょう。

Mean:  66.3
Median:  55.0
50% value:  59.5
Median High value:  60
Median Low value:  50
Standard Deviation:  55.429735301150004
Sum:  (<class 'int'>, Fraction(663, 1), 10)
Count:  [(10, 1), (203, 1), (20, 1), (30, 1), (40, 1), (50, 1), (60, 1), (70, 1), (80, 1), (100, 1)]   

まとめ

ここまでで、このトピックは終了です。

何か疑問があれば、お気軽にコメントください。

Pythonプログラミングに関連するこのような記事のために、私たちと一緒にご期待ください。

タイトルとURLをコピーしました