この記事では、プログラミング言語Pythonを使用して四分位偏差を計算する方法を紹介します。
分散の絶対的な尺度は、四分位偏差と呼ばれます。
これは、上位四分位と下位四分位の差を半分で割ることによって計算されます。
こちらもお読みください。
四分位偏差値入門
四分位偏差値は、分散の絶対的な尺度であり、分散とは、分布の値が平均値からどの程度変化するかを示すものです。
データ中に極端に高いまたは低い数値が1つだけ存在する場合でも、分散を表す指標としての範囲の有用性は低下します。
四分位偏差を計算するためには、データを4分割し、それぞれ25%の値を含むようにする必要があります。
データの四分位偏差は、上位(75%)と下位(25%)の四分位の差の半分を取ることで算出されます。
Quartile Deviation を Python で実装する
四分位偏差値とは何か、理解していただけたでしょうか。
それでは、Pythonを使ってデータセットの四分位偏差を求める方法を見ていきましょう。
Pythonで計算するために、まずデータセットを作成し、そのデータから四分位1、四分位2、四分位3を特定し、四分位3と四分位1の差の半分の積を返すのに便利な関数を開発します。
以下のコードを見てください。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
import numpy as np
data = list ( range ( 20 , 100 , 5 ))
print ( "Initial Data : " , data)
Q1 = np.quantile(data, 0.25 )
Q2 = np.quantile(data, 0.50 )
Q3 = np.quantile(data, 0.75 )
print ( "Quartile 1 : " , Q1)
print ( "Quartile 2 : " , Q2)
print ( "Quartile 3 : " , Q3)
def QuartileDeviation(a, b):
return (a - b) / 2
print ( "Computed Result : " ,QuartileDeviation(Q3, Q1))
|
コードの出力
上記のコードは、以下のような出力となります。
Initial Data : [ 20 , 25 , 30 , 35 , 40 , 45 , 50 , 55 , 60 , 65 , 70 , 75 , 80 , 85 , 90 , 95 ]
Quartile 1 : 38.75
Quartile 2 : 57.5
Quartile 3 : 76.25
Computed Result : 18.75
|
Pythonプログラミング言語によるデータセットの四分位偏差の計算に関するこのチュートリアルを楽しんでいただけたら幸いです。
このようなチュートリアルをもっと読んで、学ぶことを止めないでください。
- Numpy vstack()メソッド – 完全な概要
- Pandas DataFrameをNumpy Arrayに変換する【ステップバイステップ】 3.
- NumPyの3つの簡単なソートテクニック
- 5 知っておきたいNumPyのデータ分布