Pythonによるデータ分析について詳しく説明します。
Pythonを使いこなせれば、データの解析はとても簡単です。
そのために多くのパッケージが用意されています。
この記事では、データ分析に役立つさまざまなPythonパッケージ、ツール、メソッドについて見ていきます。
まず、Excelシートからオンラインデータベースまで、さまざまな形式のデータファイルをPythonのソースコードにインポートする方法から始め、それらのデータをさまざまな種類のグラフに実装する方法について見ていきます。
Pythonでデータ解析に取り組む
データを読み込む前に、まずはpythonで様々な種類のファイルを読み込むためのノウハウを把握し、先に進みます。
Pythonでローカルデータセットを読み込む
この例では、プログラムはPythonスクリプトが実行されるのと同じディレクトリから.csvファイルをロードします。
import pandas as pd
df = pd.read_csv( 'health_index.csv' )
|
PythonでURLからデータセットを読み込む
以下のコードから明らかなように、’pd.read’ 構文は与えられたURLを通して簡単に .csv ファイルをロードすることができます。
import pandas as pd
df = pd.read_csv( 'http://winterolympicsmedals.com/medals.csv' )
print (df)
|
import pandas as pd
df = pd.read_excel( 'data.xlsx' , engine = 'openpyxl' )
|
PythonでExcelのデータを読み込む
pd.read_excel’ 構文は、以前に使用した ‘pd.read’ 構文に似ており、Python プログラムにExcelシートをロードするために使用されます。
Pythonコードが実行されるのと同じディレクトリにあるExcelシート(‘data.xlsx’を使用し、Python用のExcelインタプリタである’openpyxl’エンジンを使用しました。
# import statements import plotly.express as fpx
import pandas as pd
# loading health_index file fdf = pd.read_csv( 'health_index.csv' )
preg_stats = fdf[ 'Pregnancies' ]
age_stats = fdf[ 'Age' ]
fig = fpx.pie(fdf,
values = preg_stats,
names = age_stats,
title = 'Survey Results'
)
fig.update_traces( textposition = 'inside' ,
textinfo = 'percent+label'
)
fig.update_layout( title_font_size = 42 ,
)
fig.show() |
How to Analyze Data in Python Using Different Charts?
数字の概念が生まれて以来、人間は数字を数えやすくするために様々な方法を生み出してきました。
しかし、グラフやチャートほど数字を理解しやすくしたものはありません。
データ分析においても、読み込んだデータファイルを使ってグラフや図を作成するのに役立つpythonモジュールを見ていきます。
こちらもお読みください。
1. 円グラフ
円グラフは、2つの異なるデータセットを360度グラフ化し、一緒に表示して合流を表示するものです。
以下のコードでは、プログラムは2つの値のセット – ‘年齢’、’妊娠’-で円グラフをプロットします。
コードは以下の通りです。
# import statements import matplotlib.pyplot as plt
import pandas as pd
# loading 10 rows of the file fdf = pd.read_csv( "health_index.csv" , nrows = 10 )
#Sorting the two columns in ascending order fdf.sort_values([ "Age" , "Pregnancies" ],
axis = 0 ,
inplace = True )
preg_stats = fdf[ 'Pregnancies' ]
age_stats = fdf[ 'Age' ]
plt.plot(age_stats,preg_stats) plt.show() |
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use( 'seaborn' )
data = pd.read_csv( 'clothing_data.csv' , nrows = 1000 )
cid = data[ 'Clothing ID' ]
age = data[ 'Age' ]
rating = data[ 'Rating' ]
plt.scatter(age, rating, cmap = 'summer' ,
edgecolor = 'black' , linewidth = 1 , alpha = 0.75 )
cbar = plt.colorbar()
cbar.set_label( 'Age/Rating Ratio' )
plt.xscale( 'log' )
plt.yscale( 'log' )
plt.title( 'Age vs Rating' )
plt.xlabel( 'Age ->' )
plt.ylabel( 'Rating ->' )
plt.tight_layout() plt.show() |
2. 折れ線グラフ
折れ線グラフは、2つの値の組の関係を理解するために描かれる。
以下のコードでは、プログラムが折れ線グラフを描画し、出力を表示します。
コード
import matplotlib.pyplot as plt
import pandas as pd
data = pd.read_csv( 'clothing_data.csv' , nrows = 1000 )
age = data[ 'Age' ]
plt.hist(age) plt.show() |
こちらもご覧ください。
3. 散布図
matplotlib の Scatter 関数は、2 次元平面上に値を分布させ、そのグラフを可視化するものです。
この表現は、値の集合に対する密度やランダムな分布のような特性を分析するのに適しています。
また、複数の変数に対する表現も可能です。
この例では、消費者記録データベースを使用して結果を集計し、散布図を作成します。
以下のコードは、そのデータベースから2つの変数の集合の散布図を可視化します。
コード
4.ヒストグラム
ヒストグラムは、頻度の分布をグラフ化したもので、隣接する棒グラフで表示されます。
ヒストグラム関数 ヒストグラムは頻度の分散をグラフ化したもので、隣接する棒グラフで表示されます。
コード
5. 棒グラフ
2組の変数を水平方向と垂直方向に長方形で表したもの。
コード
import matplotlib.pyplot as plt
import pandas as pd
data = pd.read_csv('clothing_data.csv', nrows=1000)
cid = data['Clothing ID']
age = data['Age']
plt.barh(age, cid)
plt.show()
結論
データ解析の基本を理解し、データベースをpythonコードにインポートし、matplotlibを使って望ましいグラフを作成できるようになったことと思います。
我々は、.csv や .xlxs のようなデータファイルタイプをどのようにインポートできるかを学びました。
また、ヒストグラム、棒グラフ、散布図など、さまざまな matplotlib グラフの可視化方法についても学びました。
もっと詳しく知りたい方は、参考文献のセクションをご覧ください。
参考文献
使用するデータベース ここをクリック