PythonのPlotlyライブラリを使って散布図やヒストグラム等の様々なグラフを描く方法

スポンサーリンク

Python の Plotly ライブラリ は、データの可視化を目的としています。

インタラクティブで高品質なグラフをオンラインで作成するのに役立ち、オフラインでも保存することができます。

スポンサーリンク

PythonにおけるPlotlyの必要性

Plotlyは統計解析やデータの可視化などの分野で有用です。

分析結果や予測結果をPlotlyを使うことで鮮やかな形で表現することができます。

Python Plotly を始めるにあたって

Plotlyライブラリを利用するために、まず pip コマンドを使用してインストールする必要があります。

Installation

Fake Tags
Fake tag

—Fake tag

Pythonの基本的なグラフ Plotly

PythonのPlotlyライブラリが提供する機能に飛び込んでみましょう。

このセクションでは、データの可視化の目的を果たすための基本的なプロット技法のいくつかをカバーします。

1. 散布図

その名の通り、データを散らばった形で表現します。

グラフへの入力として渡すランダムな値を生成するためにNumPyを使用しています。

例えば、以下の様になります。

pip install plotly==4.5.0

plotly.graphJSON オブジェクト を含み、それは dict のような構造をしています。

このオブジェクトのいくつかのキーワードの値を更新することで、様々な種類のグラフをプロットすることができます。

上記のスニペットでは、plotly.graphのJSONオブジェクトはGと表現されています。

さらに、データの入力とプロットのために、NumPyを使用してランダムな値を生成しています。

オブジェクト.Scatter()`は、次元の値を提供するため、つまりトレースを作成するために使用され、グラフに追加したいと思う他の属性を設定するために便利です。

x と y パラメータには、x 軸と y 軸にプロットされる値が格納されます。

パラメータ mode は散布図の表現方法を決定します。

以下のいずれかの値を指定することができます。

  • マーカ
  • ライン+マーカー
  • ライン+マーカー+テキスト
  • なし

lines` は描画モードとして、線によって値をプロットします。

マーカー`は、分離されていないデータを点としてマークすることで値をプロットします。

plotly.offline はプログラマーがオフラインで値をプロットして保存できるようにします。

引数として、オフラインでプロットされたデータを表示する.htmlページであるファイル名を受け取ることができます。

結果は以下の通りです。

import plotly
import plotly.graph_objs as G
 
 
import numpy
 
num = 15
x = numpy.random.randn(num)
y = numpy.random.randn(num)
 
# Create a trace
follow = G.Scatter(
    x = random_x,
    y = random_y,
    mode = 'markers'
)
output = [follow]
 
 
plotly.offline.plot(output, filename='basic-scatter.html')

2. 線分-散布図

このタイプのプロットでは、データを表現するために、線と散布法の組み合わせが使われる。

import plotly
import plotly.graph_objs as G
 
 
import numpy as p
 
N = 20
x = p.linspace(0, 1, N)
one_y=p.random.randn(N)+10
two_y=p.random.randn(N)
three_y=p.random.randn(N)-10
 
# Create traces
plot0 = G.Scatter(
    x = x,
    y = one_y,
    mode = 'markers'
)
 
plot1 = G.Scatter(
    x = x,
    y = two_y,
    mode = 'lines+markers'
     
)
 
plot2 = G.Scatter(
    x = x,
    y = three_y,
    mode = 'lines'
)
 
output = [plot0, plot1, plot2]
plotly.offline.plot(output, filename='line-scatter.html')

上記のコードでは、x次元に等間隔な値を生成するために numpy.linespace() 関数を使用しています。

さらに、numpy.random()関数を使用して、y軸を通して3つの異なるトレースに対してランダムな値を生成しています。

上述したように、描画方法の種類を表すパラメータ mode に異なる値を渡しています。

line+markers`は値を表現し、線とマーカードットの組み合わせでプロットします。

出力は以下の通りです。

import plotly.graph_objects as G
 
img = G.Figure(data=G.Scatter(
    x=[10, 20, 30, 40],
    y=[5, 10, 15, 20],
    mode='markers',
    marker=dict(size=[10,20,30,40],
                color=[1, 2, 3, 4])
))
 
img.show()

3. バブル散布図

import plotly.graph_objects as G
import numpy
 
a = numpy.random.randn(100) - 10
b = numpy.random.randn(100) + 10
 
output = G.Figure()
output.add_trace(G.Box(y=a))
output.add_trace(G.Box(y=b))
 
output.show()

markerは、データを表現するためのシンボルを設定する dict です。

size は描画シンボルに寸法を渡すために使用し、 color はそれらの描画シンボルに色を付けるための値を設定するために使用します。

plotly.Figure() 関数は基本的にデータと描画レイアウトの値を持ち、この両方の値を組み合わせて図を作成します。

データとレイアウトの値はグラフオブジェクトまたはディクショナリで表現されます。

plotly.show() 関数は、図とそのレイアウトデザインをプロットするために使用されます。

結果は以下の通りです。

import plotly.graph_objects as G
 
import numpy as N
 
x = N.random.randn(100)
 
output = G.Figure(data=[G.Histogram(x=x)])
output.show()

統計スタイルチャート

この種のグラフは、データをより簡略化して表示するのに役立ちます。

1. ボックスプロット

import plotly.figure_factory as ff
import numpy as N
 
 
x = N.random.randn(500)
data = [x]
label = ['DISTPLOT']
 
output = ff.create_distplot(data, label)
output.show()

plotly.add_trace() 関数は、x と y の次元にトレースを追加してグラフを更新するために使用されます。

トレースするグラフオブジェクト(G.ScatterG.Boxなど)をパラメータとして受け取ります。

例えば、 G.Scatter, G.Box などです。

plotly.graph.object.Box() は基本的に、トレースの値を特定の次元に設定します。

出力は以下の通りです。

import plotly.graph_objects as G
from plotly.subplots import make_subplots
 
 
z =   [[2, 4, 7, 12, 13, 14, 15, 16],
       [3, 1, 6, 11, 12, 13, 16, 17],
       [4, 2, 7, 7, 11, 14, 17, 18],
       [5, 3, 8, 8, 13, 15, 18, 19],
       [7, 4, 10, 9, 16, 18, 20, 19],
       [9, 10, 5, 27, 23, 21, 21, 21],
       [11, 14, 17, 26, 25, 24, 23, 22]]
 
out = make_subplots(rows=1, cols=1)
 
out.add_trace(G.Contour(z=z))
 
out.show()

2. ヒストグラム

import plotly.graph_objects as G
 
out = G.Figure(data=G.Heatmap(
                    z=[[10, 20, 30],
                      [20, 30, 40],
                      [40, 50, 60]]))
out.show()

ヒストグラムを作成するには,plotly.graph.object.Histogram()を用います.

出力は以下の通りです.

import plotly.express as px
import pandas as pd
 
df = pd.read_csv('C:UsersHPDesktopoutput11.csv')
 
fig = px.line(df, x='Marks', y='Sr no')
fig.show()

3. DistPlots

Distplot は分布していないデータをプロットするのに役立ち、折れ線グラフを通して値を観察することができる。

import plotly.express as px
sr = [1,2,3,4,5,6]
marks = [20, 10, 50, 30, 100, 75]
 
fig = px.line(x=marks, y=sr)
fig.show()

PythonのAPIには、データを簡単にプロットするためのモジュール figure factory が含まれています。

figure_factory.distplot()は、データをヒストグラムや正規曲線などの組み合わせで表現するようにプロットします。

label パラメータは、グラフにテキストラベルを設定するために使用されます。

結果は、以下の通りです。

import plotly.express as p
data = dict(
    num=[25, 50, 75, 100],
    work=["Requirement Analysis", "Design", "Modelling and Construction", "Testing and Deployment"])
out = p.funnel(data, x='num', y='work')
out.show()

サイエンティフィックチャート

科学的な数値やデータを広い視野で分析するのに役立つグラフです。

1. カウンタープロット

カウンタープロットは、基本的に膨大な量のデータをまとめて科学的に分析する際に使用される。

import plotly.graph_objects as G
import numpy as N
 
 
n = 100
 
figure = G.Figure(data=[G.Mesh3d(x=(55*N.random.randn(n)),
                   y=(50*N.random.randn(n)),
                   z=(25*N.random.randn(n)),
                   opacity=0.8,
                   color='rgba(244,22,100,0.6)'
                  )])
 
 
 
figure.show()


plotly.subplots モジュールは、 make_subplots() 関数を使用して、データの多数のサブプロットを作成することができます。

また、 plotly.graph.objects.Contour() は、与えられた入力配列から等高線を作成するために使用されます。

結果は以下の通りです。

Installation Of Plotly
Installation Of Plotly

2. Plotlyにおけるヒートマップ

ヒートマッププロットでは、入力に渡された各値はピクセルとして表現されます。

同じように、ヒートマップも科学的な数値や研究の分析を強化するために使用することができます。

Scatter Plotly
Scatter Plotly

plotly.graph.obejct.Heatmap()` 関数は、基本的に入力データの各値をヒートマップピクセルとして表現します。

結果を出力すると、以下の様になります。

Line Scatter Plot
Line Scatter Plot

財務プロット

これらは、リアルタイムの分析をより良い方法で形成し、描写するための最も複雑なチャートの1つと考えることができます。

1. 時系列チャート

以下のコードでは、PandasモジュールでCSVファイルを読み込み、時系列グラフをプロットしています。

Bubble Scatter Plot
Bubble Scatter Plot

使用したファイルは、シリアル番号(SR No)とマークの2列からなる単純なファイルです。

どの軸がどの列のデータを使っているかで、自動的にプロットされます。

2列のデータのCSVファイルであれば、同じように試すことができます。

Box Plot
Box Plot

結果は以下の通りです。

Histogram
Histogram

また、以下のように2つのリストの形式でデータを提供することもできます。

折れ線グラフがどのように形成されるかを示すために、いくつかのランダムな値を提供しています。

DistPlot
DistPlot

結果は以下の通りです。

Counter Plots
Counter Plots

全体的に高品質で簡素化されたグラフを提供するために、 plotly.express パッケージ が使用されています。

plotly.express.line() 関数は、与えられた値とラベルにしたがって x と y の次元に線を描くために使われます。


2. ファネルチャート

ファネルチャートは、ビジネス開発プロセスに類似したステージの異なるフォームでデータを表現することができる。

Heatmaps
Heatmaps

express.funnel() 関数は、入力データフレームの各行をファネルのステージとして表現します。

ここでは、入力された数字と作業をファネル構造の形で表現しています。

出力は以下の通りです。

Csv File
Csv File Snapshot

上記のように、チャートは開発のステージとそれに関連する値を描いています。


3D チャート

Time Series
Time Series

plotly.graph.object.Mesh3d() は、データを頂点 x, y, z を持つ3次元の描画構造として表現します。

結果は、以下の通りです。

Graph Plotly
Plotly Graph

まとめ

以上、PythonのPlotlyライブラリが提供する機能を理解しました。


タイトルとURLをコピーしました