Pandas:図示#

in English or the language of your choice.

説明#

import numpy as np
import pandas as pd
import japanize_matplotlib

# 警告メッセージを非表示
import warnings
warnings.filterwarnings("ignore")

プロット用のパッケージMatplotlibを紹介したが,実はPandasDataFrameSeriesにはメソッドplot()が備えられており,それを使えば基本的なプロットをより簡単なコードで実現できる。裏で動いているのはMatplotlibであり,より複雑な図を作成する場合は、Matplotlibのコードを直接書くことが必要になるだろうが,手っ取り早くプロットしたい場合には重宝する手法である。詳細は参考サイト(英語)を参考にして欲しいが,ここでは基本的な使い方を紹介する。

次のdfを使って説明する。

dic = {'X':[10, 20, 30],
       'Y':[5.0, 30.0, 15.0],
       'Z':[3.0, 2.0, 5.0]}
df = pd.DataFrame(dic)
df
X Y Z
0 10 5.0 3.0
1 20 30.0 2.0
2 30 15.0 5.0

プロット方法#

DataFrame#

プロット方法は簡単で,次の基本構文となる。

df.plot(x="列ラベル", y="列ラベル")
  • x:横軸に使う列ラベル(文字列)

  • y:縦軸に使う列ラベル(文字列、複数の場合はリスト)

df.plot(x='X', y='Y')
<Axes: xlabel='X'>
_images/69aadce7b6529bb3d9d1af82237b9eddbe0574f7017074aa5c53d4a96a52965e.png
  • 凡例は自動的に表示され,列ラベルが使われる。次の引数を追加すると凡例は非表示になる。

legend=False
  • 図の上に文字が表示されるが,表示したくない場合は最後に;を加えるか次の行にpassと書くと良いだろう。

縦軸に複数の変数を表示したい場合は,次のようにリストとして指定する。

df.plot(x="列ラベル", y=["列ラベル1", "列ラベル2"])
df.plot(x='X', y=['Y', 'Z'])
<Axes: xlabel='X'>
_images/83b3d9a4889219dbeb6bacda4577d63a06978dc1c5e50ac34e798ebfe5858d00.png

上の例では引数xyを指定したが,xを指定しない場合はどうなるか試してみよう。

df.plot(y='Y')
pass
_images/fe7245d14d379049216ac50d99ca906b344c8ddaaa69612755736dfb443002a6.png

縦軸はYだが,横軸には行インデックスが使われることになる。この場合,行インデックスがfloatとして表示されている。

では、引数なしで実行するとどうなるだろう。

df.plot()
pass
_images/b8dae91e8d71e6b8c6b76aa5dc1630cba7ed95263c6a53f0432b66b41b8eefae.png

縦軸には全ての列が使われ、横軸には行インデックスが使われている。

Series#

次に,Seriesを考えてみよう。まず,2つのSeriesを作成しよう。

sy = df['Y']
sy
0     5.0
1    30.0
2    15.0
Name: Y, dtype: float64
sz = df['Z']
sz
0    3.0
1    2.0
2    5.0
Name: Z, dtype: float64

両方ともdfの行インデックスが引き継がれている。

Seriesにもメソッド.plot()が実装されているが次の点を覚えておこう。

  • 列が1つしかないため,引数xyを指定する必要はない。

syをプロットしてみよう。

sy.plot()
pass
_images/40f03fc982a17c803f4525dd9a01b87ad1987f35b46d7f221cb36339576f6136.png

横軸には行インデックスがfloatとして使われており,Seriesの場合,凡例は自動的には表示されない。 次の引数を使うと凡例を表示することができる。

legend=True

更に,次の点でDataFrameを使う場合と異なる。syszを続けて書いて実行してみよう。

sy.plot(legend=True)
sz.plot(legend=True)
pass
_images/3ec678a3c73bd9b635920e297ec9bdfd1e86964e509de8600be8b241574a349c.png

Seriesの場合,連続してコードを書くと一つの図に表示することができる。この特徴は,次に説明する「飾り付け」を各データ毎別々に設定する際に便利な機能と感じる人もいるだろう。

引数とメソッド#

基本的な引数#

plot()には様々な引数があり図に「飾り付け」をすることができる。詳しくはこのリンクを参照することにして,ここでは基本的な引数だけを紹介する。

  • style:線のスタイル(複数ある場合はリストにして列の順番で指定する;----.:

  • linewidth or lw:線の幅

  • color:色(リストにして列の順番で指定する; 参照サイト

    • rは赤

    • kは黒

    • gはグリーン

  • marker:観測値のマーカー(o.>^などがある; 参照サイト

  • markersize:マーカーの大きさ

  • fontsize:横軸・縦軸の数字のフォントサイズの設定

  • figsize:図の大きさ

    • figsize=(キャンバスの横幅、キャンバスの縦の長さ)

  • legend:凡例の表示を指定

    • DataFrameの場合はデフォルトはTrue

    • Seriesの場合はデフォルトはFalse

    • 複数の図を表示する際は下で説明する「軸」のメソッドとして指定することもできる。

  • label:凡例の表現を指定

  • grid:グリッド表示(ブール型;デフォルトはFalse)

    • 複数の図を表示する際は,この引数は使わずに下で説明する「軸」のメソッドとして指定する。

  • ax:プロットする「軸」を指定する。

    • 1つの「軸」に複数の図を表示する際に使う(後で使い方を説明する)。

df.plot( # 引数 x, y は省略
        style=[':','--','-'],
        linewidth=2,
        color=['r','k','g'],
        marker='o',
        markersize=10,
        fontsize=15,
        figsize=(8, 4),   # 8は横軸、4は縦軸のサイズ
        legend=False,
        grid=True,
        )
pass
_images/8dd52978a36a5bef1cb040c7921562f45672c5691077affe1080a51de6109b70.png

タイトルとラベルのサイズの調整#

タイトルのフォント・サイズの指定,横軸と縦軸のラベルとフォント・サイズの指定をおこなう場合は、plot()の引数ではなく下で説明する方法でおこなう。この方法を理解するために、Pandas(実はMatplotlib)が表示する図はFig. 4で示している階層的な構造となることをイメージして欲しい。ここで重要なのは「キャンバス」と「軸」の違いである。

_images/figure_axes_pandas.png

Fig. 4 「キャンバス」と「軸」の関係#

  1. 「キャンバス」とは実際に表示される領域であり,実際には表示されない「透明のキャンバス」である。

    • figurefigなどの変数名や引数名があれば、「キャンバス」を指していると理解すれば良いだろう。

  2. 「軸」とは1つの図を表示する「キャンバス」上の区域である。

    • axaxesなどの変数名があれば、「軸」を表していると理解すれば良いだろう。

    • 「キャンバス」上に複数の図を表示する場合は複数の「軸」が必要となる。

    • 「軸」に図のタイトルや縦軸・横軸のラベルなどを追加することになる。

「軸」の中にメソッド.plot()を使いグラフを表示することになる。

従って,概ね次のように理解して良いだろう。

  • 上で説明した「基本的な引数」は上の図のピンクのエリア内での変更となる。

    • figsizeは「キャンバス」の大きさを指定する引数だが,メソッドplot()は自動で「キャンバス」を作成するためplot()内で変更できるようになっている。

  • タイトルや縦・横軸ラベルは「軸」のメソッドを使い変更する。

では実際に手順を説明する。

  • df.plot()は自動で「キャンバス」と「軸」を作成すると同時に「軸」を返す。それを変数(例えば,ax)に割り当てる。

  • axのメソッドを使って以下を設定する。

    • タイトル:.set_title()

    • 横軸ラベル:.set_xlabel()

    • 縦軸ラベル:.set_ylabel()

実際にそれらの引数を使ってプロットしてみよう。

ax = df.plot( # 引数 x, y は省略
             grid=True,
             style=[':','--','-'],
             marker='o',
             fontsize=15,
             )
ax.set_title('A Large Title', size= 30)     # タイトルの設定
ax.set_xlabel('Horizontal Axis', size=20)   # 横軸ラベルの設定
ax.set_ylabel('Vertical Axis', size=20)     # 縦軸ラベルの設定
pass
_images/08d4cfbf39f5f49530849f5626917b885af9d7bd84716a07a59ca6308a39101d.png

「軸」を指定してプロットする場合#

上で「軸」のメソッドとしてタイトルなどを追加できることを説明したが,plot()の引数として「軸」を指定して図を追加することができる。次のコードを考えてみよう。

ax_ = df.plot(x='X', y='Y')     #1
df.plot(x='X', y='Z', ax=ax_)   #2
pass
_images/83b3d9a4889219dbeb6bacda4577d63a06978dc1c5e50ac34e798ebfe5858d00.png
  • #1の右辺では「キャンバス」と「軸」が自動生成され,その内「軸」のみが返され変数ax_に割り当てられている。

  • #2plot()の引数axは「軸」を指定する引数であり,それにax_を設定している。即ち,Zを「軸」ax_にプロットすることを指定している。このコードには2つの利点がある。

    1. XYと異なる「飾り付け」をZに簡単に施すことができる。

    2. 2行目にdf0ではなく別のDataFrameを使うことも可能となる。

もちろん,タイトルや軸ラベルのメソッドをつけ加えることも可能である。

ax_ = df.plot(x='X', y='Y',
              marker='o', markersize=10, label='Yのデータ')
df.plot(x='X', y='Z', ax=ax_,
        marker='^', markersize=15, label='Zのデータ')
ax_.set_title('This is a title', size=20)
ax_.set_xlabel('Horizontal axis', size=15)
ax_.set_ylabel('Vertical axis', size=15)
ax_.grid()
pass
_images/1f4361bd7375af24b6b02e138471e1c3ea8cfc74fd489871d5c1a0563e68a9de.png

また上のコードの最後に次の行を付け加えている。

  • ax_.grid():グリッド線を表示するメソッド。

    • 1つの「軸」にplotを複数回適用する場合,個々のplotの引数grid=Trueを使わずにax_.grid()を指定すると分かりやすいですコードになる。

図を並べる#

図を縦に並べるにはsubplots=Trueを指定する。

df.plot(x='X', subplots=True)
pass
_images/883b22d09977f44691e2167d6a0202b07f05d7ed97bcfa5de36d1d21ee2e27b6.png

図を横に並べるにはlayout=(1,2)を付け加える。layoutは図の配置を行列のように考えて指定し、1は行の数であり、2は列の数。

layout(行の数、列の数)
df.plot(x='X', subplots=True, layout=(1,2), figsize=(8,3))
pass
_images/21a4bfc1b2b03db3571d416856a5062224a23c92a075837d186b729999fd368d.png

図を並べる際も引数xを省略すると,横軸には行インデックスが使われることになる。

2軸グラフ#

左縦軸をYに,右縦軸をZに使うとしよう。その場合,引数secondary_yZを設定する。

df.plot(x='X', secondary_y='Z')
pass
_images/3e5a06eec0716eaf60eeac7d8b9df6723a1e38d20c1a0f9ba92e09e6b7359060.png

別々の飾り付けをする場合は次のようにすると良いだろう。

ax_ = df.plot(x='X', y='Y')
df.plot(x='X', y='Z',
        ax=ax_,            #1
        secondary_y=True,  #2
        marker='^',        #3
        markersize=10,     #4
        linestyle=':',     #5
        )
pass
_images/9e29c83868c211f7b16268ce382ff427a7f55a46933eb2b01d32c96c30709472.png

上のコードとの主な違い:

  • #1ax=ax_:「軸」ax_Zをプロットする。

  • #2secondary_y=TrueZを右軸に使うことを指定する。

  • #3#5Zの飾り付け

日本語#

2つ方法を紹介するが、japanize_matplotlibを使う方法がより簡単であろう。

japanize_matplotlib#

使い方は到って簡単で、Pandasと同様にインポートするだけである。

import japanize_matplotlib
ax = df.plot( # 引数 x, y は省略
            grid=True,
            style=[':','--','-'],
            marker='o',
            fontsize=15,
            )
ax.set_title('縦横タイトル', size= 30)
ax.set_xlabel('横軸', size=20)
ax.set_ylabel('縦軸', size=20)
pass
_images/b221965d1b9d28961558508e20305aeeed661fd87bb0b85440f6f6adb1380ae0.png

フォントを指定する#

2つの方法:

  1. フォントはインストールせず、PC内にあるフォントを指定する。

  2. フォントをインストールする方法

方法1の場合、以下で説明に使う変数jfontにフォントを指定する。 * Macの場合、例えばAppleGothic * Windowsの場合、例えばYu Gothic * この方法では一部の日本語が文字化けする場合がある。

方法2の場合:

  • このサイトから次の内の1つをダウンロードする。

  • このサイトに従ってインストールする。

  • 次の両方もしくは1つがPCにインストールされる

    • IPAexMincho(IPAex明朝)

    • IPAexGothic(IPAexゴシック)

上の例を使い、設定方法の例を示す。

jfont = 'IPAexGothic'    #1

ax = df.plot( # 引数 x, y は省略
             grid=True,
             style=[':','--','-'],
             marker='o',
             fontsize=15,
             )
ax.set_title('縦横タイトル', size= 30, fontname=jfont)   #2
ax.set_xlabel('横軸', size=20, fontname=jfont)          #3
ax.set_ylabel('縦軸', size=20, fontname=jfont)          #4
ax.legend(prop={'family':jfont, 'size':17})            #5
pass
_images/9189d16529165fae15705137bdd72299c12e7966ca05862c0b5898d68eb92533.png
  • #1: 使用するフォントをjfontに割り当てる。

  • #2: 引数fontnamejfontを指定する。タイトルのフォントが変更される。

  • #3: 引数fontnamejfontを指定する。横軸名のフォントが変更される。

  • #4: 引数fontnamejfontを指定する。縦軸名のフォントが変更される。

  • #5legendは他と設定方法が異なる。

    • propはフォントのプロパティを設定する引数であり、辞書で指定する。

    • キーfamilyに値jfontを指定する。凡例のフォントが変更される。

    • キーsizeに数値を設定してフォントの大きさが変更される。

この例では個別にフォントを設定したが、一括で全てのフォントを変更する方法もあるが説明は割愛する。

マクロ経済学の例#

投資関数#

実質利子率rによって投資がどのように変化するかを考えてみよう。まず投資関数を次のように仮定する。

def investment(r):
    return 100/(1+r)**50
  • 100:実質利子率が0の場合の投資

実質利子率は次のarrayで与えられるとする。

r_arr = np.arange(0.01,0.11,0.01)
r_arr
array([0.01, 0.02, 0.03, 0.04, 0.05, 0.06, 0.07, 0.08, 0.09, 0.1 ])

次に関数investmentr_arrを使い投資のarrayを作成しよう。

inv_arr = investment(r_arr)
inv_arr
array([60.80388247, 37.15278821, 22.81070798, 14.07126153,  8.7203727 ,
        5.42883618,  3.39477594,  2.13212286,  1.34485389,  0.85185513])

これらのデータを使いDataFrameを作成する。

df_inv = pd.DataFrame({'investment':inv_arr,
                       'interest_rate':r_arr})

最初の5行を表示する。

df_inv.head()
investment interest_rate
0 60.803882 0.01
1 37.152788 0.02
2 22.810708 0.03
3 14.071262 0.04
4 8.720373 0.05

ではプロットしてみよう。

df_inv.plot(x='interest_rate', y='investment')
pass
_images/cc2f903fd3375dc67805334c70367a01950289f0171a4d0fec92e353e047bf83.png

将来価値#

x万円を実質年率r%の利息を得る金融商品に投資し,t年間の将来価値(期首の値)をリストで示す関数は以下で与えられた。

def calculate_futre_value(x, r, t):
    
    value_list = [x]           # 初期値が入ったリスト
    
    for year in range(1,t+1):  # 1からtまでの期間
        x = x*(1+r)            # 来期のxの値の計算
        value_list.append(x)   # リストに追加
    
    return value_list          # リストを返す

これを使い,

  • x=100

  • t=30

の下で実質利子率が次のリストで与えられる値を取る場合の将来価値を図示する。

r_list = [0.01, 0.03, 0.06]   # 実質利子率のリスト
dic = {}                      # 空の辞書

for r in r_list:
    dic['r='+str(r)] = calculate_futre_value(100, r, 30)  # 辞書に追加

df_future = pd.DataFrame(dic) # DataFrameの作成

dic['r='+str(r)]の説明:

  • str(r)r_listの要素のダミーであるrは浮動小数点型なので関数str()を使って文字列型に変換する。

  • 'r='+str(r):文字列型のr=と文字列型のstr(r)+で結合する。

  • dic['r='+str(r)]:辞書dicにキー・値のペアを作成する。

    • キー:'r='+str(r)

    • 値:calculate_futre_value(100, r, 30)の返り値

最初の5行を表示する。

df_future.head()
r=0.01 r=0.03 r=0.06
0 100.000000 100.000000 100.000000
1 101.000000 103.000000 106.000000
2 102.010000 106.090000 112.360000
3 103.030100 109.272700 119.101600
4 104.060401 112.550881 126.247696

最後の5行を表示する。

df_future.tail()
r=0.01 r=0.03 r=0.06
26 129.525631 215.659127 454.938296
27 130.820888 222.128901 482.234594
28 132.129097 228.792768 511.168670
29 133.450388 235.656551 541.838790
30 134.784892 242.726247 574.349117
df_future.plot()
pass
_images/192fa14e483b5cfbaa83f3eacf3a3f752760c5f740e07e30f27fe49a8db56c60.png

その他のプロット#

種類#

2つの書き方が準備されている。

  1. 書き方1:

    .plot.xxxx()
    

    ここでxxxxは、プロットの種類を表す。

  2. 書き方2:

    .plot.(kind='xxxx')
    

    ここでkindはプロットの種類を指定する引数であり,'xxxx'は文字列。

この2つの方法は同じプロットを表示することなる。 まず,各プロットについての箇条書きでまとめた後,実際にデータを使いプロットについて説明することにする。

  • ライン・プロット

    • 上で説明した直線・曲線のプロット。

    • 書き方1:.plot.line()

    • 書き方2:.plot()であり,引数kind='line'ははデフォルトの値。

    • プロットの例

  • 散布図(DataFrameのみ)

  • ヒストグラム(連続変数に使う)

    • 書き方1:.plot.hist()

    • 書き方2:.plot(kind='hist')

    • histはHISTogramのHIST

    • プロットの例

  • カーネル密度推定プロット

    • 書き方1:.plot.kde()もしくは.plot.density()

    • 書き方2:.plot(kind='kde')もしくは.plot(kind='density')

    • kdeはKernel Density EstimateのKDE

    • プロットの例

  • 縦向きの棒グラフ(カテゴリーなどの離散変数に使う)

  • 横向き棒グラフ(カテゴリーなどの離散変数に使う)

    • 書き方1:.plot.barh()

    • 書き方2:.plot(kind='barh')

    • barhhはHorizontalのH

    • プロットの例

  • ボックスプロット

  • エリア・プロット

  • パイチャート

  • 六角形プロット(DataFrameのみ)

上で説明したライン・プロットの引数は他のプロットと共通のものが多いが,それぞれ独自の引数もある。

以下では散布図,ヒストグラム,カーネル密度推定プロット,棒グラフについて説明する。 加えて,縦線と横線を表示する方法も紹介する。

説明には次のコードで生成するDataFrameを使う。列XYには標準正規分布(平均0,標準偏差1)から生成した100個のランダム変数が含まれている。Zには正規分布(平均2,標準偏差1)から抽出した100個のランダム変数が格納されている。

rng = np.random.default_rng()
df1 = pd.DataFrame({'X':rng.normal(size=100),
                    'Y':rng.normal(size=100),
                    'Z':rng.normal(loc=2, size=100)})

XYは同じ標準正規分布から生成されているが,異なる値から構成されている。

散布図#

散布図をプロットする場合は次の構文となる。

<書き方1>
df1.plot.scatter(x='列ラベル', y='列ラベル')

<書き方2>
df1.plot(x='列ラベル', y='列ラベル', kind='scatter')
  • x:横軸に使う列ラベル(文字列)

  • y:縦軸に使う列ラベル(文字列)

XYを使ってプロットしてみよう。

df1.plot.scatter(x='X', y='Y')
pass
_images/5366e53b06d2924dee2bdd2d3d63edc5933030527d30ecd36654d53d1259554f.png

<基本的な引数>

様々な引数があり図に「飾り付け」をすることができる。詳しくはこのリンクを参照することにして,ここでは基本的な引数だけを紹介する。

  • title:図のタイトル(文字列型で指定)

  • color:色(リストにして列の順番で指定する; 参照サイト

    • rは赤

    • kは黒

    • gはグリーン

  • marker:観測値のマーカー(o.>^などがある; 参照サイト

  • s:マーカーの大きさ(markersizeではない!)

  • fontsize:横軸・縦軸の数字のフォントサイズの設定

  • figsize:図の大きさ

    • figsize=(キャンバスの横幅、キャンバスの縦の長さ)

  • legend:凡例の表示を指定

    • DataFrameの場合はデフォルトはTrue

    • Seriesの場合はデフォルトはFalse

  • label:凡例の表現を指定(Seriesのみ有効)

  • grid:グリッド表示(ブール型;デフォルトはFalse)

  • ax:プロットする「軸」を指定する。

df1.plot.scatter(x='X', y='Y',
                 title='タイトルです',
                 color='red',
                 marker='^',
                 s=100,
                 fontsize=20,
                 figsize=(8,4),
                 # legend=False,
                 label='Yの判例',
                 grid=True
                )
pass
_images/b1a8dc31079282db5b900aeafa97af571ccdd82f26624269c9dcb7011fe258d4.png

この図ではタイトルと横軸・縦軸ラベルの大きさが調整できていないが,上で説明したタイトルとラベルのサイズの調整のコードと共通なので,そちらを参照しよう。

またライン・プロットと同じように引数axを使うことにより,複数の散布図を重ねてプロットできる。次のコードはXY,そしてXZの散布図を同じ「軸」に表示している。

ax_ = df1.plot.scatter(x='X', y='Y', label='Yのデータ')
df1.plot.scatter(x='X', y='Z',
         color='red', marker='^', label='Zのデータ', ax=ax_)
pass
_images/021ca830f5ba8715d9ad6c492a0f87170cf59ea0c16f4083085eba1c75932b46.png

ヒストグラム#

ヒストグラムは次の構文となる。

<書き方1>
df1.plot.hist(y='列ラベル')

<書き方2>
df1.plot(y='列ラベル', kind='hist')
  • y:縦軸に使う列ラベル(文字列、複数指定する場合はリスト)

  • 横軸は自動で設定されるためxは指定する必要はない

df1.plot.hist(y='Y')
pass
_images/ea42185a9e477080a9760dae9b557e5561f60734d7404a4d45de89f695f1b03b.png

<基本的な引数>

様々な引数があり図に「飾り付け」をすることができる。詳しくはこのリンクを参照することにして,ここでは基本的な引数だけを紹介する。

  • title:図のタイトル(文字列型で指定)

  • bins:柱の数

  • color:色(リストにして列の順番で指定する; 参照サイト

    • rは赤

    • kは黒

    • gはグリーン

  • edgecolor又はec:柱の境界線の色

  • alpha:透明度(0から1.0; デフォルトは1

  • density:縦軸を相対度数にする(デフォルトはFalse

    • 全ての柱の面積の合計が1になるように縦軸が調整される。1つの柱の高さが1よりも大きくなる場合もある。

  • fontsize:横軸・縦軸の数字のフォントサイズの設定

  • figsize:図の大きさ

    • figsize=(キャンバスの横幅、キャンバスの縦の長さ)

  • legend:凡例の表示を指定

    • DataFrameの場合はデフォルトはTrue

    • Seriesの場合はデフォルトはFalse

  • label:凡例の表現を指定(Seriesのみ有効)

  • grid:グリッド表示(ブール型;デフォルトはFalse)

  • subplots:複数の図をプロットする(詳細はライン・プロットを参照)

  • ax:プロットする「軸」を指定する。

引数を指定してXのヒストグラムをプロットしてみよう。

df1.plot.hist(y='Y',
              bins=20,
              title='タイトルです',
              color='red',
              ec='white',
              alpha=0.5,
              density=True,
              fontsize=20,
              figsize=(8,4),
              legend=True,
              label='Xの凡例',
              grid=True
             )
pass
_images/f4cf7341108a42777ac292dbd08195153e4541a357e98ea5024e5a9ef1b5467c.png

この図ではタイトルと横軸・縦軸ラベルの大きさが調整できていないが,上で説明したタイトルとラベルのサイズの調整のコードと共通なのでそちらを参照しよう。

次に複数のデータを重ねてプロットする場合を考えよう。ここで役に立つ引数がalphaである。

df1.plot.hist(y=['Y','Z'],
              bins=30,
              color=['r','k'],
              edgecolor='k',
              alpha=0.4)
pass
_images/c07ab7ce5199e31680bfeb977bd7e0e3e12969577c36c1d42a804296a2159044.png

濃い部分が重なっている部分となる。また柱を積み上げて表示するにはstacked=True(デフォルトはFalse)を使う。

df1.plot.hist(y=['Y','Z'],
              bins=30,
              color=['r','k'],
              edgecolor='white',
              stacked=True)
pass
_images/20b2b33440013aee6f24ab171a43d8480bce586f69efcab1b6f71272a3eac4ff.png

赤の上に黒が積み上げられている。

カーネル密度推定プロット#

ヒストグラムは縦軸に度数,横軸に階級を取ったグラフだが,関連する手法にカーネル密度推定と呼ばれるものがある。考え方は簡単で,上のようなヒストグラムのデータに基づき面積が1になるようにスムーズな分布を推定する手法である。ヒストグラムとカーネル密度関数を重ねてプロットすることもできる。

次の構文となる。

<書き方1>
df1.plot.kde(y='列ラベル')

<書き方2>
df1.plot(y='列ラベル', kind='kde')
  • y:縦軸に使う列ラベル(文字列、複数指定する場合はリスト)

  • 横軸は自動で設定されるためxは指定する必要はない

この場合,df1にある全ての列がヒストグラムとして重ねて表示される。特定の列だけを使う場合は列を選択してplot()を使う。

df1.plot.kde(y=['X','Z'])
pass
_images/fd1dbf657c6be4c8f1b65dfb48dd7f9633c6b6f5c335bde04160cbcf05c80467.png

<基本的な引数>

様々な引数があり図に「飾り付け」をすることができる。詳しくはこのリンクを参照することにして,ここでは基本的な引数だけを紹介する。

  • title:図のタイトル(文字列型で指定)

  • linestyle又はstyle:線のスタイル(リストにして列の順番で指定する;----.:

  • linewidth or lw:線の幅

  • color:色(リストにして列の順番で指定する; 参照サイト

    • rは赤

    • kは黒

    • gはグリーン

  • alpha:透明度(0から1.0; デフォルトは1

  • fontsize:横軸・縦軸の数字のフォントサイズの設定

  • figsize:図の大きさ

    • figsize=(キャンバスの横幅、キャンバスの縦の長さ)

  • legend:凡例の表示を指定

    • DataFrameの場合はデフォルトはTrue

    • Seriesの場合はデフォルトはFalse

  • label:凡例の表現を指定(Seriesのみ有効)

  • grid:グリッド表示(ブール型;デフォルトはFalse)

  • ax:プロットする「軸」を指定する。

引数を指定してXをプロットしてみる。

df1.plot.kde(y='X',
             title='タイトルです',
             linewidth=5,
             linestyle='-.',
             color='red',
             alpha=0.5,
             fontsize=20,
             figsize=(8,4),
             legend=True,
             label='Xの凡例',
             grid=True
            )
pass
_images/effd3ab4f9b0e79084508c289d43b9a4117c91af03da353b5d93d912fcd4d5b2.png

この図ではタイトルと横軸・縦軸ラベルの大きさが調整できていないが,上で説明したタイトルとラベルのサイズの調整のコードと共通なのでそちらを参照しよう。

次にヒストグラムとカーネル密度推定プロットを重ねて図示してみる。ここで重要な点がヒストグラムに引数density=Trueを設定することである。これがないと縦軸の単位が異なり上手く表示できない。

ax_ = df1.plot.hist(y='X',
                    label='Xのヒストグラム',
                    density=True)
df1.plot.kde(y='X',
             label='XのKDE',
             ax=ax_)
ax_.legend()
pass
_images/bcb2594731617781ea830bb34a0bea8c25314e9401ef89698bd4fbae2960b83e.png

縦線・横線#

図に縦線や横線を追加したい場合がある。その場合は,タイトルとラベルのサイズの調整にあるように「軸」に追加していく事になる。次のような書き方となる。

  • 縦線の場合

    ax_.axvline(<横軸の値>)
    

    ここで`axvline`の`ax`はAXis,`v`はVertical,`line`はLINEのことを表している。
  • 横線の場合

    ax_.axhline(<縦軸の値>)
    

    ここで`axhline`の`ax`はAXis,`h`はHorizontal,`line`はLINEのことを表している。

ここでax_.plot()で返された「軸」のことである。

Yのヒストグラムを使ってプロットしてみよう。

ax_ = df1.plot.hist(y='Y', alpha=0.1)
ax_.axvline(0)
ax_.axhline(10)
pass
_images/894a0df0062c47bef442184cf5ee947ad67b1b7fa686ce8ce95bc5fc136d6d0a.png

<基本的な引数>

様々な引数があり図に「飾り付け」をすることができる。詳しくはこのリンクこのリンクを参照することにして,ここでは基本的な引数だけを紹介する。

  • yminaxvlineの縦軸における最小値(0~1の値; デフォルト0

  • ymaxaxvlineの縦軸における最大値(0~1の値; デフォルト1

  • xminaxhlineの横軸における最小値(0~1の値; デフォルト0

  • xmaxaxhlineの横軸における最大値(0~1の値; デフォルト1

  • linestyle:線のスタイル(リストにして列の順番で指定する;- -- -. :

  • linewidth or lw:線の幅

  • color:色(リストにして列の順番で指定する; 参照サイト

    • rは赤

    • kは黒

    • gはグリーン

  • alpha:透明度(0から1.0; デフォルトは1

引数を指定してプロットしてみる。

ax_ = df1.plot.hist(y='Y', alpha=0.1)
ax_.axvline(0,
            ymin=0.3,
            ymax=0.95,
            linestyle=':',
            linewidth=5,
            color='g',
            alpha=0.8)
ax_.axhline(10,
            xmin=0.05,
            xmax=0.7,
            linestyle='-.',
            linewidth=3,
            color='k',
            alpha=0.5)
pass
_images/34a3a381d21c5a46c554752e08f1c246b06592e324eb9e97647418cffebae518.png

最後に上のヒストグラムとカーネル密度推定プロットに縦線を加えてみよう。

ax_ = df1.plot.hist(y='X',
                    label='Xのヒストグラム',
                    density=True)
df1.plot.kde(y='X',
             label='XのKDE',
             ax=ax_)
ax_.legend()
ax_.axvline(0, color='red')
pass
_images/9a08af37391ab8b9e2705681672858b9cbca0da35b03cae0b83414806ae194dc.png

棒グラフ#

まず次のコードでデータを準備しよう。

df2 = pd.DataFrame({'country':['A','B','C'],
                    'gdp':[100,90,110],
                    'con':[50,60,55],
                    'inv':[15,10,20],
                    'gov':[10,5,30],
                    'netex':[25,15,5]})

3国のGDPとその構成要素からなるDataFrameである。

  • country:国

  • gdp:GDP

  • con:消費

  • inv:投資

  • gov:政府支出

  • netex:純輸出

このDataFrameを使って棒グラフの作成方法を説明するが,次の構文となる。

<書き方1>
df2.plot.bar(x='列ラベル', y='列ラベル')

<書き方2>
df2.plot(x='列ラベル', y='列ラベル', kind='bar')
  • x:横軸に使う列ラベル(文字列)

  • y:縦軸に使う列ラベル(文字列、複数の場合はリスト)

まずA国のgdpの棒グラフを表示してみよう。

df2.plot.bar(x='country', y='gdp')
pass
_images/ac1b7bbb35ac738ca0f4754645becb330de317b02b0d13768ce4bf275e217af8.png

複数の棒(データ)を並べたい場合もあるだろう。その場合は引数yにリストを指定すれば表示できる。

df2.plot.bar(x='country', y=['gdp','con'])
pass
_images/c89e5fb73105dc7f8abf17ce1be4547d278e35dd6e4659ce72299d39178d9cfd.png

<基本的な引数>

詳しい引数についての説明はこのリンクを参照することにして,ここでは基本的な引数だけを紹介する。

  • color:色(リストにして列の順番で指定する; 参照サイト

    • r又はred:赤

    • k又はblack:黒

    • g又はgreen:グリーン

  • stacked:(ブール型;デフォルトはFalse)

    • 複数データを使う場合に棒を積み上げるかどうかを指定

  • fontsize:横軸・縦軸の数字のフォントサイズの設定

  • figsize:図の大きさ

    • figsize=(キャンバスの横幅、キャンバスの縦の長さ)

  • legend:凡例の表示を指定

    • DataFrameの場合はデフォルトはTrue

  • label:凡例の表現を指定

  • grid:グリッド表示(ブール型;デフォルトはFalse)

  • rot(rotationの略):横軸の変数の表示の角度(デフォルトは90

  • subplots:複数の図をプロットする(詳細はライン・プロットを参照)

  • ax:プロットする「軸」を指定する。

これらの引数を使いプロットしてみよう。

df2.plot.bar(x='country', y=['con','inv','gov','netex'],
             color=['red','black','green','orange'],
             stacked=True,
             fontsize=20,
             figsize=(8,4),
             # legend=False,       
             label=['消費','投資','政府支出','純輸出'],
             grid=True,
             rot=0
            )
pass
_images/ad07efb4f7a0d23769e293f0f11162bc0c3ff02d97a73a5cfc0c61cebb800a59.png

次に,ライン・プロットを追加する例を考えてみよう。df2には列gdpがあり,それを表すライン・プロットを重ねることにしよう。

ax_ = df2.plot.bar(x='country', y=['con','inv','gov','netex'],
                   stacked=True,
                   fontsize=15,
                   label=['消費','投資','政府支出','純輸出'],
                   rot=0)

df2.plot(x='country', y='gdp',
         color='black',
         marker='o',
         legend=True,
         label='国内総生産',
         ax=ax_)

ax_.set_title('3カ国のGDPと構成要素', size=20)
ax_.set_xlabel('国', size=15)
ax_.set_ylabel('単位:億米ドル', size=15)
pass
_images/e8601f7b61d2498d2ab17859358172521632c8ee7402909eac35664d28a29563.png

棒の高さとGDPのマーカーの高さは同じであることがわかる。