PythonのPlotlyライブラリを使って散布図やヒストグラム等の様々なグラフを描く方法

2023.01.18 2022.07.22

Python の Plotly ライブラリ は、データの可視化を目的としています。

インタラクティブで高品質なグラフをオンラインで作成するのに役立ち、オフラインでも保存することができます。

この記事もチェック：PythonのPlotlyライブラリを使ってデータを地図上に表示させる方法

PythonにおけるPlotlyの必要性
Python Plotly を始めるにあたって
1. Installation
Pythonの基本的なグラフ Plotly
サイエンティフィックチャート
1. 1. カウンタープロット
2. 2. Plotlyにおけるヒートマップ
財務プロット
1. 1. 時系列チャート
2. 2. ファネルチャート
まとめ

PythonにおけるPlotlyの必要性

Plotlyは統計解析やデータの可視化などの分野で有用です。

分析結果や予測結果をPlotlyを使うことで鮮やかな形で表現することができます。

Python Plotly を始めるにあたって

Plotlyライブラリを利用するために、まず pip コマンドを使用してインストールする必要があります。

Installation

Fake Tags
Fake tag

—Fake tag

Pythonの基本的なグラフ Plotly

PythonのPlotlyライブラリが提供する機能に飛び込んでみましょう。

このセクションでは、データの可視化の目的を果たすための基本的なプロット技法のいくつかをカバーします。

この記事もチェック：Pythonで使えるおススメのグラフ(プロット)ライブラリ4選

1. 散布図

その名の通り、データを散らばった形で表現します。

グラフへの入力として渡すランダムな値を生成するためにNumPyを使用しています。

例えば、以下の様になります。

pip install plotly==4.5.0

plotly.graph は JSON オブジェクト を含み、それは dict のような構造をしています。

このオブジェクトのいくつかのキーワードの値を更新することで、様々な種類のグラフをプロットすることができます。

上記のスニペットでは、plotly.graphのJSONオブジェクトはGと表現されています。

さらに、データの入力とプロットのために、NumPyを使用してランダムな値を生成しています。

オブジェクト.Scatter()`は、次元の値を提供するため、つまりトレースを作成するために使用され、グラフに追加したいと思う他の属性を設定するために便利です。

x と y パラメータには、x 軸と y 軸にプロットされる値が格納されます。

パラメータ mode は散布図の表現方法を決定します。

以下のいずれかの値を指定することができます。

線
マーカ
ライン+マーカー
ライン+マーカー+テキスト
なし

lines` は描画モードとして、線によって値をプロットします。

マーカー`は、分離されていないデータを点としてマークすることで値をプロットします。

plotly.offline はプログラマーがオフラインで値をプロットして保存できるようにします。

引数として、オフラインでプロットされたデータを表示する.htmlページであるファイル名を受け取ることができます。

結果は以下の通りです。

import plotly

import plotly.graph_objs as G
 
import numpy
 
num = 15

x = numpy.random.randn(num)

y = numpy.random.randn(num)
 
# Create a trace

follow = G.Scatter(

    x = random_x,

    y = random_y,

    mode = 'markers'
)

output = [follow]
 
plotly.offline.plot(output, filename='basic-scatter.html')

この記事もチェック：Pythonのfakerモジュールの使い方|偽のデータを作ってテキストに保存する方法

2. 線分-散布図

このタイプのプロットでは、データを表現するために、線と散布法の組み合わせが使われる。

import plotly

import plotly.graph_objs as G
 
import numpy as p
 
N = 20

x = p.linspace(0, 1, N)

one_y=p.random.randn(N)+10

two_y=p.random.randn(N)

three_y=p.random.randn(N)-10
 
# Create traces

plot0 = G.Scatter(

    x = x,

    y = one_y,

    mode = 'markers'
)
 
plot1 = G.Scatter(

    x = x,

    y = two_y,

    mode = 'lines+markers'

)
 
plot2 = G.Scatter(

    x = x,

    y = three_y,

    mode = 'lines'
)
 
output = [plot0, plot1, plot2]

plotly.offline.plot(output, filename='line-scatter.html')

上記のコードでは、x次元に等間隔な値を生成するために numpy.linespace() 関数を使用しています。

さらに、numpy.random()関数を使用して、y軸を通して3つの異なるトレースに対してランダムな値を生成しています。

上述したように、描画方法の種類を表すパラメータ mode に異なる値を渡しています。

line+markers`は値を表現し、線とマーカードットの組み合わせでプロットします。

出力は以下の通りです。

import plotly.graph_objects as G
 
img = G.Figure(data=G.Scatter(

    x=[10, 20, 30, 40],

    y=[5, 10, 15, 20],

    mode='markers',

    marker=dict(size=[10,20,30,40],

                color=[1, 2, 3, 4])
))
 
img.show()

この記事もチェック：Pythonのrandom_wordモジュールを使ってランダムに単語を出力する方法

3. バブル散布図

import plotly.graph_objects as G

import numpy
 
a = numpy.random.randn(100) - 10

b = numpy.random.randn(100) + 10
 
output = G.Figure()

output.add_trace(G.Box(y=a))

output.add_trace(G.Box(y=b))
 
output.show()

markerは、データを表現するためのシンボルを設定する dict です。

size は描画シンボルに寸法を渡すために使用し、 color はそれらの描画シンボルに色を付けるための値を設定するために使用します。

plotly.Figure() 関数は基本的にデータと描画レイアウトの値を持ち、この両方の値を組み合わせて図を作成します。

データとレイアウトの値はグラフオブジェクトまたはディクショナリで表現されます。

plotly.show() 関数は、図とそのレイアウトデザインをプロットするために使用されます。

結果は以下の通りです。

import plotly.graph_objects as G
 
import numpy as N
 
x = N.random.randn(100)
 
output = G.Figure(data=[G.Histogram(x=x)])
output.show()

統計スタイルチャート

この種のグラフは、データをより簡略化して表示するのに役立ちます。

1. ボックスプロット

import plotly.figure_factory as ff

import numpy as N
 
x = N.random.randn(500)

data = [x]

label = ['DISTPLOT'] 
 
output = ff.create_distplot(data, label)
output.show()

plotly.add_trace() 関数は、x と y の次元にトレースを追加してグラフを更新するために使用されます。

トレースするグラフオブジェクト（G.Scatter、G.Boxなど）をパラメータとして受け取ります。

例えば、 G.Scatter, G.Box などです。

plotly.graph.object.Box() は基本的に、トレースの値を特定の次元に設定します。

出力は以下の通りです。

import plotly.graph_objects as G

from plotly.subplots import make_subplots
 
z =   [[2, 4, 7, 12, 13, 14, 15, 16],

       [3, 1, 6, 11, 12, 13, 16, 17],

       [4, 2, 7, 7, 11, 14, 17, 18],

       [5, 3, 8, 8, 13, 15, 18, 19],

       [7, 4, 10, 9, 16, 18, 20, 19],

       [9, 10, 5, 27, 23, 21, 21, 21],

       [11, 14, 17, 26, 25, 24, 23, 22]]
 
out = make_subplots(rows=1, cols=1)
 
out.add_trace(G.Contour(z=z))
 
out.show()

2. ヒストグラム

import plotly.graph_objects as G
 
out = G.Figure(data=G.Heatmap(

                    z=[[10, 20, 30],

                      [20, 30, 40],

                      [40, 50, 60]]))
out.show()

ヒストグラムを作成するには，plotly.graph.object.Histogram()を用います．

出力は以下の通りです．

import plotly.express as px

import pandas as pd
 
df = pd.read_csv('C:UsersHPDesktopoutput11.csv')
 
fig = px.line(df, x='Marks', y='Sr no')
fig.show()

3. DistPlots

Distplot は分布していないデータをプロットするのに役立ち、折れ線グラフを通して値を観察することができる。

import plotly.express as px

sr = [1,2,3,4,5,6]

marks = [20, 10, 50, 30, 100, 75]
 
fig = px.line(x=marks, y=sr)
fig.show()

PythonのAPIには、データを簡単にプロットするためのモジュール figure factory が含まれています。

figure_factory.distplot()は、データをヒストグラムや正規曲線などの組み合わせで表現するようにプロットします。

label パラメータは、グラフにテキストラベルを設定するために使用されます。

結果は、以下の通りです。

import plotly.express as p

data = dict(

    num=[25, 50, 75, 100],

    work=["Requirement Analysis", "Design", "Modelling and Construction", "Testing and Deployment"])

out = p.funnel(data, x='num', y='work')
out.show()

サイエンティフィックチャート

科学的な数値やデータを広い視野で分析するのに役立つグラフです。

1. カウンタープロット

カウンタープロットは、基本的に膨大な量のデータをまとめて科学的に分析する際に使用される。

import plotly.graph_objects as G

import numpy as N
 
n = 100
 
figure = G.Figure(data=[G.Mesh3d(x=(55*N.random.randn(n)),

                   y=(50*N.random.randn(n)),

                   z=(25*N.random.randn(n)),

                   opacity=0.8,

                   color='rgba(244,22,100,0.6)'

                  )])
 
figure.show()