(chap:pandas)=
# `Pandas`：データ分析

<div name="html-admonition" style="font-size: 0.8em">
<input type="button" onclick="location.href='https://translate.google.com/translate?hl=&sl=ja&tl=en&u='+window.location;" value="Google translation" style="color:#ffffff;background-color:#008080; height:25px" onmouseover="this.style.background='#99ccff'" onmouseout="this.style.background='#008080'"/> in English or the language of your choice.
</div><br>

In [None]:
import pandas as pd
import py4macro

# 警告メッセージを非表示
import warnings
warnings.filterwarnings("ignore")

## 説明

`Pandas`はデータを扱う上で欠かせないパッケージであり，エクセルをイメージすれば良いだろう。`Pandas`にはエクセルのスプレッド・シートに対応する`DataFrame`（データ・フレーム）と`Series`（シリーズ）呼ばれるオブジェクトがあり，それらを駆使してデータ分析をおこなう。

`DataFrame`は次の表の様になっている。まず、用語の整理をしよう。

|   | X  | Y    | Z   |
|---|----|------|-----|
| 0 | 10 |  5.0 | 3.0 |
| 1 | 20 | 30.0 | 2.0 |
| 2 | 30 | 15.0 | 5.0 |

* **列**とは縦に表示されたデータの集まりであり、`X`の列には`10`、`20`、`30`がある。`Y`と`Z`も同様にそれぞれの値から構成される列となる。
* **行**とは横に表示されたデータの集まりであり、`0`の行には`10`、`5.0`、`3.0`がある。`1`と`2`も同様にそれぞれの値から構成される行となる。

行と列には、その位置を示す番号とラベルがある。このサイトでは次の呼称とする。
* 位置を示す番号を**インデックス**もしくは**インデックス番号**と呼ぶ。
    * 上の例では、左端の`0`は`0`番目の行インデックス、`1`は`1`番目の行インデックス、`2`は`2`番目の行インデックスを示す。
    * 上の例では、一番上の`X`には`0`の列インデックスが付与されており、`Y`には`1`の列インデックスが付与されており、`Z`には`2`の列インデックスが付与されている。
* 位置を**ラベル**で表すこともできる。
    * 上の例では、行ラベルは設定されていない。
    * 上の例では、一番上の`X`，`Y`，`Z`が列ラベルとなる。

上の例のように、`DataFrame`は１つ以上の行と列から構成されている。一方、`Series`には１つの列（もしくは行と考えることもできる）のみしかない点が大きな違いである。

これらの特徴により複雑なデータの扱いが簡単になる。例えば，`NumPy`を使うと目的のデータにアクセスしたい場合、行番号と列番号を把握する必要がある。一方、`Pandas`では行と列にラベルを使うことにより（例えば，行`Japan`の列`gdp`のようにデータを特定することが可能となる），データの操作が非常に簡単になる。また，`Pandas`は`NumPy`に基づいているため，ベクトル演算の機能が使える。

ここで説明できない他の使い方については[このサイト](https://github.com/ysdyt/pandas_tutorial)と[このサイト](https://note.nkmk.me/python-pandas-post-summary/)が参考になるだろう。

`Pandas`は通常`pd`という名前で読み込む。
```
import pandas as pd
```

## データの読み込みとデータのチェック

(sec:3-data)=
## データの読み込みとデータのチェック

様々なデータを読み込むことが可能だが，ここでは`read_csv()`関数を使って`.csv`ファイルを読み込むことにする。（`csv`はcomma separated valuesの略称であり、.csvファイルについては[この検索結果](https://www.google.com/search?q=csv%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%E3%81%A8%E3%81%AF)を参照）ここで使う`data1.csv`は[ここをクリック](https://raw.githubusercontent.com/Py4Basics/py4basics.github.io/source/data/data1.csv)をマウスの右クリックすることによりダウンロードすることもできる。

In [None]:
# データの読み込み
df = pd.read_csv('./data/data1.csv')

`df`全体を表示させる。

In [None]:
df

数値はPenn World Tableと呼ばれるデータセットに基づき作成している。
* `country`：国名
* `gdp`：国内総生産（Gross Domestic Product, current PPPs; in billions 2011US\$）
* `con`：消費（consumption, current PPPs; in billions 2011US\$）
* `inv`：投資（investment, current PPPs; in billions 2011US\$）
* `pop`：人口（population, in millions）
* `continent`：大陸（continent）

行はインデックス（番号）になっており，そのまま使っても全く問題ない。ここでは列`country`を行ラベルに設定して`Pandas`の使い方について説明することにする。

* `set_index()`：引数の列を行ラベルにするメソッド（行ラベルは文字列とすること）

In [None]:
df = df.set_index('country')
df

````{tip}
* `df.set_index('country')`は直接`df`に影響を与えない。単に，書き換えるとどうなるかを表示しているだけとなる。ここでは`df`に再度割り当てることにより`df`自体を上書きしている。
* 出力にある`NaN`（Not a Number）は欠損値を示す。
* 行ラベルに`country`という列ラベルが残るが，それを消すにはメソッド`.rename_axis('')`を使うと良いだろう。ここで`''`は空の文字列である。`.rename_axis(None)`でも同じ結果となる。もしくは次のコードでも良い。
```
df.index.name = '' 
```
````

行数が多い場合（例えば，10000）、全てを表示してもあまり意味がない。そこでよく使う`df`のメソッドに、最初や最後の数行だけを表示するメソッド`.head()`と`.tail()`を紹介する。

`df`の最初の５行を表示させる。

In [None]:
df.head()

引数に`2`を指定すると最初の`2`行のみ表示される。

In [None]:
df.head(2)

最後の`5`行を表示させる。引数に整数を入れて表示行数を指定することも可能。

In [None]:
df.tail()

次に`df`の情報の特徴を確認するメソッド`.info()`を使ってみよう。

In [None]:
df.info()

**説明**：
* `<class 'pandas.core.frame.DataFrame'>`
    * `class`とはデータ型と同じ意味である。
    * `pandas.core.frame.DataFrame`がデータ型名でありクラス名でもある。
    * 例えば、`type(1)`を実行すると`int`（整数型）というデータ型が表示するが，これはクラス名でもある。`print(type(1))`を実行すると`<class 'int'>`と表示され、クラス名も`int`であることが分かる。
* `Index: 10 entries, Chine to UK`
    * 行のインデックスの情報
    * `Chine`から`UK`までの`10`個のデータ
* `Data columns (total 5 columns):`
    * 列の数（5つ）
* `gdp  10 non-null int64`
    * 列インデックスは`0`
    * `10`の非欠損値のデータ（`non-null`とは非欠損値を意味）があり，欠損値なし（行数が`10`であり、`10`の非欠損値であるため，即ち，欠損値数は`11-11=0`）
    * データ型は`int64`
* `con  9 non-null float64`
    * 列インデックスは`1`
    * 9の非欠損値データがあり，欠損値数は`1＝10-9`
    * データ型は`float64`
* `inv  8 non-null float64`
    * 列インデックスは`2`
    * `8`の非欠損値データがあり，欠損値数は`2＝10-8`
    * データ型は`float64`
* `pop  10 non-null int64`
    * 列インデックスは`3`
    * `10`の非欠損値データがあり，欠損値数なし`0＝10-10`
    * データ型は`int64`
* `continent   10 non-null object`
    * 列インデックスは`4`
    * `10`の非欠損値データがあり，欠損値数なし`0＝10-10`
    * データ型は`object`（文字列などのデータ型）
    * （注意）整数型や浮動小数点型に文字列が混ざっている場合にも列のデータ型は`object`になる
* `dtypes: float64(2), int64(2), object(1)`
    * `df`の列にどのようなのデータ型があるかを示す
    * `float64`と`int64`が2列つずつ，文字列は１列
* `memory usage: 480.0+ bytes`
    * メモリー使用量は約`480.0`バイト

データを読み込んだら必ず`info()`を使って欠損値の数や列のデータ型を確認するようにしよう。

また，データの統計的な特徴は次の`.describe()`メソッドでチェックできる。

In [None]:
df.describe()

* `count`：観測値の数
* `mean`：平均
* `std`：標準偏差
* `min`：最小値
* `max`：最大値
* `25%`：第１四分位数
* `50%`：第２四分位数（中央値）
* `75%`：第３四分位数
* `max`：最大値


次のデータ属性`.shape`を使って`df`の行と列の長さを確認することができる。返値はタプルで，`(行の数，列の数)`と解釈する。

In [None]:
df.shape

返値はタプルなので，行数は以下で取得できる。

In [None]:
df.shape[0]

`len()`関数を使って行数を示すこともできる。

In [None]:
len(df)

## `DataFrame`の構成要素

`DataFrame`には様々な属性があるが、次の３点について説明する。

* データ：`df.to_numpy()`もしくは`df.values`で抽出できる。
* 列ラベル：`df.columns`で抽出できる。
* 行ラベル：`df.index`で抽出できる。

まずデータ自体を抽出してみよう。

In [None]:
df.to_numpy()

In [None]:
type(df.to_numpy())

これで分かることは，メインのデータの部分は`NumPy`の`ndarray`（`n`次元`array`）であることだ。即ち，`Pandas`は`NumPy`に基づいて構築されており，データ値の計算などは`array`が裏で動いているということである。`Pandas`は行と列のラベルを追加し，より直感的に使えるように拡張しているのである。

次に列ラベルを取り出してみる。

In [None]:
df.columns

`dtype='object'`から列ラベルに使われているデータ型（`dtype`）はオブジェクト型（`object`）だとわかる。

* 上でも簡単に説明したが、オブジェクト型とは文字型を含む「その他」のデータ型と理解すれば良いだろう。
* `df.columns`の戻り値にある`dtype='object'`と`df.to_numpy()`の戻り値にある`dtype=object`は同じ意味。

列ラベル自体のデータ型（もしくは、クラス名）は次のコードで調べることができる。

In [None]:
type(df.columns)

`dir()`もしくは`py4macro.see()`で調べると多くのメソッドや属性が確認できるが，その中に`.tolist()`が含まれており，これを使うことにより列ラベルをリストに変換することができる。

In [None]:
df_columns = df.columns.tolist()
df_columns

行ラベルについても同じことができる。

In [None]:
df.index

行ラベルの各要素のデータ型`object`は文字列を意味している。列`country`を行ラベルに指定したが，行ラベル名を削除したので`name=''`となっている。行ラベル自体（もしくは全体）のデータ型（クラス名）は

In [None]:
type(df.index)

であり，ラベルをリストとして抽出することもできる。

In [None]:
df_index = df.index.tolist()
df_index

## 要素の抽出

### 説明

`NumPy`の`array`の場合，`[,]`を使い要素を抽出した。`Pandas`の場合，様々な抽出方法があるが，覚えやすく少しでも間違いの可能性を減らすために，そして可読性向上のために`array`に対応する以下の２つの方法を使うことにする。

* ラベルを使う方法：`.loc[,]`
* インデックスを使う方法：`.iloc[,]`（これは`array`の`[ ]`と同じと考えて良い）

１つ目の`loc`はラベルのlocationと覚えよう。２つ目はの`iloc`の`i`はインデックス（index）の`i`であり，index locationという意味である。使い方は`array`の場合と基本的に同じである。

* `,`の左は行，右は列を表す。
* 行または列を連続して選択する（slicing）場合は`:`を使う。（`start:end`）
    * `:`の左右を省略する場合は，「全て」という意味になる。
    * `:`の左を省略すると「最初から」という意味になる。
    * `:`の右を省略すると「最後まで」という意味になる。
    * `.loc[,]`の場合，`end`を含む。（要注意！）
    * `.iloc[,]`の場合，`end`は含まず，その１つ前のインデックスまでが含まれる。
* `,`の右に書く`:`は省略可能であるが省略しないことを推奨する。

「特例」として`.loc[,]`と`.iloc[,]`以外に
* ラベルと`[]`だけを使い**列**を選択する方法

も説明する。

```{warning}
* `.loc[,]`の場合，`end`を含む。（要注意！）
* `.iloc[,]`の場合，`end`は含まず，その１つ前のインデックスまでが含まれる。
```

### `.loc[,]`（ラベル使用）

**１つの行を`Series`として抽出**

In [None]:
df.loc['Japan',:]

**１つの行を`DataFrame`として抽出**

In [None]:
df.loc[['Japan'],:]

`Series`と`DataFrame`を比べると、表示が異なることが分かると思う。コードには次の違いがある。
* `DataFrame`で抽出する場合、`:`の左側に`[]`を使う。
* `Series`で抽出する場合、`:`の左側に`[]`を使わない。

**複数行を抽出**

In [None]:
df.loc[['Japan', 'UK'],:]

上のコードでは、`:`の左側にリストが使われている。次のコードでも同じ結果となる。

In [None]:
rows = ['Japan', 'UK']  #1

df.loc[rows,:]          #2

`#1`の`rows`はリストであり、`#2`の`:`の左側にリストが使われていることが分かる。

**複数行を連続抽出（slicing）**

In [None]:
df.loc['France':'Japan',:]

スライシングの場合、`:`の左右に`[]`は使わない。

**１つの列を`Series`として抽出**

In [None]:
df.loc[:,'gdp']

`Series`で抽出するので、`:`の右に`[]`は使わない。

**１つの列を`DataFrame`として抽出**

In [None]:
df.loc[:,['gdp']]

`DataFrame`として抽出するために、`:`の右に`[]`を使っている。

**複数列を抽出**

In [None]:
df.loc[:,['gdp','pop']]

次のようにしても同じ結果となる。

In [None]:
cols = ['gdp','pop']

df.loc[:,cols]

**複数列を連続抽出（slicing）**

In [None]:
df.loc[:,'con':'pop']

### `.iloc[]`（位置番号を使用）

(sec:3-iloc)=
### `.iloc[]`（位置番号を使用）

**１つの行を`Series`として抽出**

In [None]:
df.iloc[5,:]

**１つの行を`DataFrame`として抽出**

In [None]:
df.iloc[[5],:]

**複数行を抽出**

In [None]:
df.iloc[[1,5],:]

**複数行を連続抽出（slicing）**

In [None]:
df.iloc[1:6,:]

**１つの列を`Series`として抽出**

In [None]:
df.iloc[:,1]

**１つの列を`DataFrame`として抽出**

In [None]:
df.iloc[:,[1]]

**複数列を選択**

In [None]:
df.iloc[:,[1,3]]

次のコードでも同じ結果となる。

In [None]:
cols = [1, 3]

df.iloc[:,cols]

**複数列を連続抽出（slicing）**

In [None]:
df.iloc[:,1:3]

### `[]`で列の選択（ラベル使用）

**１つの列を`Series`として抽出**

In [None]:
df['gdp']

**１つの列を`DataFrame`として抽出**

In [None]:
df[['gdp']]

上の２つのコードの違いに注意しよう。
* `DataFrame`で抽出する場合、角括弧が二重になっている。即ち、`[[]]`
* `Series`で抽出する場合、角括弧が二重になっていない。即ち、`[]`

次の様に考えよう。`[]`を使って列を抽出する場合、
* `[]`の中にラベル名をそのまま書くと`Series`として抽出される。
* `[]`の中にラベル名を**リスト**として書くと`DataFrame`として抽出される。

**複数列を選択**

In [None]:
df[['gdp','pop']]

## ある条件の下で行の抽出

### １つの条件の場合

#### 例１：GDPが1200未満の行の抽出

まず条件を作る。

In [None]:
df['gdp'] < 1200

この条件では，GDPが100未満の行は`True`，以上の行は`False`となる。この条件を`cond`というの変数に割り当てる。`()`を省いても良いが，ある方が分かりやすいだろう。

In [None]:
cond = (df['gdp'] < 1200)

`cond`を`.loc[,]`の引数とすることにより，`True`の行だけを抽出できる。（注意：`cond`を使って**行**を抽出しようとしているので`,`の左側に書く。）

In [None]:
df.loc[cond,:]

この条件の下で`inv`だけを抽出したい場合

* `df.loc[cond,'inv']`

とする。

```{warning}
以下のように抽出を連続ですることも可能だが，避けるように！
* `df.loc[cond,:]['inv']`
* `df.loc[cond,:].loc[:,'inv']`
```

#### 例２：`continent`が`Asia`の行を抽出

In [None]:
cond = (df.loc[:,'continent'] == 'Asia')

df.loc[cond,:]

### 複数条件の場合

#### 例３

以下の条件の**両方**が満たされる場合：

* `gdp`が`5000`以上
* `inv`が`2000`以下

それぞれの条件を作成する。

In [None]:
df

In [None]:
cond1 = (df['gdp'] >= 5000)
cond2 = (df['inv'] <= 2000)

２つの条件が同時に満たされる条件を作成する。

In [None]:
cond = (cond1 & cond2)

＜注意＞
* `&`を使っている。理由は，`cond1`と`cond2`のそれぞれの行の要素を比較して真偽値から構成される`Series`を返すためである。従って，一つの値をもう一つの値と比べて真偽値を計算する`and`を使うとエラーが発生する。
* `DataFrame`や`Series`で`&`を使う場合は，比較コードを`()`の中に入れることを推奨する。`&`は優先されて計算されるためである。（上の例では問題は発生しなし。）

`cond`を引数に使い行を抽出する。

In [None]:
df.loc[cond, :]

#### 例４

以下の条件の**どちらか**が満たされる場合：
* `gdp`は`5000`以上
* `con`は`2000`以下

In [None]:
cond1 = (df['gdp'] >= 5000)
cond2 = (df['con'] <= 2000)
cond = (cond1 | cond2)

df.loc[cond, :]

＜注意＞
* `|`を使っている。理由は，`cond1`と`cond2`のそれぞれの行の要素を比較して真偽値から構成される`Series`を返すためである。従って，一つの値をもう一つの値と比べて真偽値を計算する`or`を使うとエラーが発生する。
* `DataFrame`や`Series`で`|`を使う場合は，比較コードを`()`の中に入れることを推奨する。`|`は優先されて計算されるためである。（上の例では問題は発生しなし。）

＜コメント＞
* 上の例では，`&`が`and`，`|`が`or`の役割を果たしている。同様に`~`が`not`（真偽値の反転）の代わりに使われる。
* `DataFrame`や`Series`で`~`を使う場合は，コードを`()`の中に入れることを推奨する。`~`は優先されて計算されるためである。

#### 例５

以下の条件の**どちらか**が満たされ
* `gdp`は`5000`以上
* `con`は`2000`以下

かつ以下の条件も**同時に**満たされる場合：
* `continent`が`Asia`と等しい

In [None]:
cond1 = (df['gdp'] >= 5000)
cond2 = (df['con'] <= 2000)
cond3 = (df['continent'] == 'Asia')
cond = ((cond1 | cond2) & cond3)

df.loc[cond, :]

### `query()`

`query()`というメソッドを使うと、文字列を使い行の抽出コードを書くことができる。これにより直感的なコード書くことが可能となる。

#### 例１の場合：

In [None]:
df.query('gdp < 1200')

#### 例２の場合

In [None]:
df.query('continent == "Asia"')

#### 例３の場合

In [None]:
df.query('(gdp >= 5000) & (inv <= 2000)')

#### 例４の場合

In [None]:
df.query('(gdp >= 5000) | (con <= 2000)')

#### 例５の場合

In [None]:
df.query('(gdp >= 5000 | con <= 2000) & (continent == "Asia")')

````{tip}
`df`にない変数で条件を設定する場合`@`が必要になる。例えば，変数`z`という変数があるとしよう。

```python
z = 100
```

変数`z`の値に基づいて行の抽出をする場合は次のようにする。

```python
df.query('gdp < @z')
```

{glue:}`glue0_txt`
````

In [None]:
from myst_nb import glue
z = 1200
glue0 = df.query('gdp < @z')
glue("glue0_txt", glue0)

```{warning}
数字で始まる列ラベルに`.query()`を使うとエラーが発生するため，列ラベルを変更する必要がある。列ラベルを変更できない場合は異なる方法を使うように。
```

## 列と行の追加と削除

### 列の追加 `[ ]`

`[]`に列ラベルを使って列を抽出することができるが，`[]`は列の追加にも使えるので，ここではその使い方を説明する。まず，全ての行が`1.0`となる列を作成するとしよう。その場合，以下のようにする。

In [None]:
df['Intercept'] = 1.0

In [None]:
df.head(2)

次の例では既存の列から新たな列を作成する。まず１人当たりGDPの計算を計算し，それを変数`gdp_pc`に割り当てる。

In [None]:
gdp_pc = df['gdp'] / df['pop']

gdp_pc.head()

これは`Series`であり，`gdp_pc`として`df`に追加する。

In [None]:
df['gdp_pc'] = gdp_pc

In [None]:
df.head(2)

### 列の追加 `.loc[,]`

`.loc[]`は行と列の抽出に使ったが，追加にも使える。`[]`と同じと考えれば良いだろう。次の例では`pop`を2倍した列を追加している。

In [None]:
df.loc[:,'2pop'] = 2 * df['pop']

In [None]:
df.head(3)

### 列の削除 `del`

In [None]:
del df['2pop']

ここで`del`はdeleteの略。

In [None]:
df.head(2)

列`2pop`が削除されている。

### 列の削除 `drop()`

`DataFrame`には`.drop()`というメソッドが用意されているので，それを使うことも可能である。

下のコードの説明：
* 引数
    * 第１引数（位置引数）：削除する列ラベルのリスト（一つの列のみを指定する場合はリストではなく、そのまま列ラベルを書いても可）
    * 第２引数（キーワード引数）：`axis=columns`もしくは`axis=1`（`1`は列を表しし、`0`は行を表す）
* `df.drop()`はコピーを作るだけなので，元の`df`を上書きしたい場合は次のどちらかが必要となる。
    * `df`に再割り当てする。
    * オプション`inplace=True`（デフォルトは`False`）を追加する。

In [None]:
df = df.drop(['Intercept','gdp_pc'], axis='columns')

# df.drop('Intercept', axis='columns', inplace=True)

In [None]:
df.head(2)

### 行の追加 `.loc[,]`

`.loc[,]`はh行と列の抽出，そして列の追加に使ったが，行の追加にも使える。

In [None]:
df.loc['US',:] = [20566, 14462, 4557, 329, 'North America']

In [None]:
df.tail(3)

上の例では，最初の4つの要素は整数として入力されたが，`df`の中では浮動小数点に変換されている。

### 行の削除 `drop()`

`.drop()`は列を削除する際に紹介したが、行の削除にも使えるメソッドである。

* 引数
    * 第１引数（位置引数）：削除する行ラベルのリスト（一つの行のみを指定する場合はリストではなく、そのまま行ラベルを書いても可）
    * 第２引数（キーワード引数）：`axis=rows`もしくは`axis=0`（`1`は列を表しし、`0`は行を表す）
* `df.drop()`はコピーを作るだけなので，元の`df`を上書きしたい場合は次のどちらかが必要となる。
    * `df`に再割り当てする。
    * オプション`inplace=True`（デフォルトは`False`）を追加する。

In [None]:
df = df.drop('US', axis='rows')

# df.drop('US', axis=0, inplace=True)

In [None]:
df.tail()

`US`の行が削除されている。

## 欠損値の扱い

`Pandas`では欠損値は`NaN`（Not a Number）や`<NA>`（Not Availabel）と表示されるが，`null`と呼んだりもする。

### 欠損値の確認

欠損値があるかどうかの確認は，`df.info()`でもできるが，以下のメソッドを組み合わせることでも可能である。

* `isna()`：（is it na?の略）それぞれの要素について`NaN`の場合`True`を，そうでない場合は`False`を返す。（`DataFrame`の全ての要素が`True/False`となる。）
* `sum()`：`df`の上から下に**行**（rows）を縦断して，それぞれの列の中にある`True`数える。
    * デフォルトで引数`axis='rows'`が指定されている。
    * 引数値`rows`は複数！（`0`でも可）
* `sum(axis='columns')`：`df`の左から右に**列**（columns）を横断して，それぞれの行の中にある`True`を数える。
    * 引数値`columns`は複数！（`1`でも可）
    
（注意）`sum()`の`axis`は「行を縦断」か「列を横断」かを指定する。

In [None]:
df.isna().sum()

`inv`と`con`に`NaN`があることがわかる。`axis='columns'`を設定すると`NaN`がある行を確認できる。

In [None]:
df.isna().sum(axis='columns')

---
`NaN`がある行だけを抽出したい場合がある。その場合はメソッド`any()`が役に立つ。

* `any()`：`df`の上から下に行（`rows`）を縦断して，それぞれの列の中で一つ以上`True`がある場合には`True`を，一つもない場合は`False`を返す。
    * デフォルトで引数`axis='rows'`が指定されている。
    * 引数値`rows`は複数！（`0`でも可）
* `any(axis='columns')`：dfの左から右に列（`columns`）を横断して，それぞれの行の中で一つ以上`True`がある場合には`True`を，一つもない場合は`False`を返す。
    * 引数値`columns`は複数！（1でも可）

（注意）`any()`の`axis`は「行を縦断」か「列を横断」かを指定する。

In [None]:
cond = df.isna().any(axis='columns')
df.loc[cond,:]

これで`NaN`がある行だけを抽出できた。

### 欠損値がある行の削除

欠損値がある全ての行を削除する。

In [None]:
df.dropna()

`Taiwan`と`UK`が削除されている。

このメソッドは，欠損値を削除するとどうなるかを示すだけであり`df`自体は影響は受けない。`df`自体から`NaN`がある行を削除する場合は`inplace=True`のオプション（デフォルトでは`False`になっている）を加えて
```
df.dropna(inplace=True)
```
とするか，削除後の`df`を`df`自体に再割り当てする。
```
df = df.dropna()
```

また，ある列で`NaN`がある行のみを削除する場合は，引数`subset`を使う。
次のコードでは、`con`に`NaN`がある行のみを削除している。

In [None]:
df.dropna(subset=['con'])

（注意）オプション`subset=`には削除する列が１つであっても、`[]`を使いリストとして指定する。

## 並び替え

行の並び替えにはメソッド`.sort_values()`を使う。引数に列ラベルを指定することにより、その列を基準に行を昇順に並び替える。

`df`を`gdp`の昇順に並び替えてみよう。

In [None]:
df.sort_values('gdp').head()

降順にする場合は、引数`ascending=False`を付け加える（デフォルトでは`ascending=True`となっている）。

In [None]:
df.sort_values('gdp', ascending=False).head()

複数の列を基準に並び替えする場合は、引数`ascending=`に真偽値をリストとして指定する。

In [None]:
df.sort_values(['continent','gdp'], ascending=[True,False])

ここでは`continent`に従って先に並び替えられ，その後に`gdp`に従って並び替えられている。`ascending`は昇順（`True`）か降順（`False`）かを指定する引数であり，`['continent','gdp']`と`ascending=['True','False']`の順番が対応している。

## 行番号を振り直す

[](sec:3-data)においてデータを読み込んだ後，直ぐに`.set_index('year')`を使い，列`year`を行ラベルに設定した。もちろん，必ずしもそうする必要はなく，行番号（`0`，`1`，`2`，...）のままで作業をおこなっても全く問題ない。また行ラベルを設定した後に，行インデックスに戻したい場合もあるだろう。その場合には，メソッド`.reset_index()`を使うと，行のインデックスを0,1,2,..と振り直すことができる。`df`を使うと次のようになる。

In [None]:
df.reset_index()

行ラベルがなくなり、元の行ラベル名は削除していたので、列ラベルないまま新たな列として追加されている。列ラベルを追加したい場合は、以下で説明するが、次のようにすれば良い。
```
df = df.rename({'':'country'}, axis='columns')
```
ここで`''`は空の文字列を示す。一方で、元の行ラベルを列として追加したくない場合もある。その場合、`reset_index()`に引数`drop=True`を加えると良い。

In [None]:
df.reset_index(drop=True).head()

`.reset_index()`は、変更した場合にどのように見えるかを表示しているだけなので、`df`自体を変更する場合は`df`に再割り当てする必要がある。

## 列のラベルの変更

列ラベルを変更する場合は、メソッド`.rename()`を使うと良いだろう。引数は次の形で設定する。

$$\text{.rename}\left(\text{columns=}辞書\right)$$

ここで「辞書」は次のルールで指定する。
* `key`:元のラベル
* `value`：新しいラベル

次のコードでは，`df`の`pop`を`pop_new`に，`id`を`continent_new`に変更している。

In [None]:
df.rename(columns={'pop':'pop_new','continent':'continent_new'}).head()

ただし，再割り当てしないと`df`は変更されないので注意しよう。即ち，上のコードでは`df`の行ラベルは変更されていない。

`.rename()`以外にも次のように変更することも可能である。

In [None]:
df.columns = ['gdp','inv','con','pop_new','continent_new']

このコードは
> 右辺の文字列のリストを`df.columns`に割り当てる

と読むことができる。このコードにより割り当てが完了し，`df`は変更されることになる。`df`を表示してみよう。

In [None]:
df.head(2)

この方法が簡単そうだが、全ての列ラベルをリストとして準備する必要がある点である。列の数が多いと面倒なので，そういう場合は`.rename()`の方が使いやすいだろう。元の列ラベルに戻しておこう。

In [None]:
df = df.rename({'pop_new':'pop', 'continent_new':'continent'}, axis='columns')

## 便利な使うメソッド

列`id`には文字列があり，行のデータをカテゴリー別に分けていると考えることができる。メソッド`.unique()`を使うと，選択した列に重複したデータがある場合，ユニークなものだけを抽出できる。

In [None]:
df['continent'].unique()

まな類似するメソッドに`.nunique()`があり，カテゴリー数を返す。

In [None]:
df['continent'].nunique()

関連するメソッドに`.value_counts()`がある。これを使うとカテゴリーの内訳を確認するすることができる。各カテゴリーに対応する行数（度数）を表示するには

In [None]:
df.loc[:,'continent'].value_counts()

とする。引数`normalize=True`を追加すると，相対度数として表示できる。

In [None]:
df.loc[:,'continent'].value_counts(normalize=True)

`df`のように行数が少ない`DataFrame`の場合，これらのメソッドの有用性を見出すことは難しいが，何千行あるデータを扱っていると想像してみよう。そのような大きなデータを扱う場合は非常に重宝するメソッドだろう。

## 統計関連のメソッド

### 時系列データ

統計関連のメソッドを幾つか紹介するために日本の時系列データからなる`.csv`ファイルを読み込むことにする。`data2.csv`は[ここをクリック](https://raw.githubusercontent.com/Py4Basics/py4basics.github.io/source/data/data2.csv)をマウスの右クリックすることによりダウンロードすることもできる。

In [None]:
jp = pd.read_csv('./data/data2.csv')
jp

数値は日本の四半期データを年平均（単位：`10`億円）にしている。
* `year`：年
* `gdp`：国内総生産（Gross Domestic Product）
* `con`：消費（consumption）
* `inv`：投資（investment）
* `gov`：政府支出（government expenditure）
* `net_ex`：純輸出（net exports）

列`year`を行ラベルに設定して説明を進めていくことにする。

In [None]:
jp = jp.set_index('year')
jp.head(2)

### メソッド

**＜以下で説明する統計関連のメソッドに関する注意点＞**<br>
* 計算して意味のある列のみを選択すること。`pandas`のバージョンにもよるが、文字列型の列を計算に含めるとエラーが発生する。`jp`は全てが浮動小数点となるため、以下では全ての列について計算を行なう。
* 数値に含まれる欠損値は無視されることになる。

上でも出てきたが`.sum()`は各列の合計を返す（`axis='rows'`がデフォルト）。

In [None]:
jp.sum()

各行の合計を計算したい場合は引数`axis=1`もしくは`axis='columns'`を指定する。ここで`columns`となるのは列を横断すると覚えれば良いだろう。支出要素だけを合計してみよう。

In [None]:
jp.iloc[:,1:].sum(axis='columns')

同じ使い方で次のメソッドが利用できる。
* `.max()`：最大値
* `.min()`：最小値
* `.mean()`：（算術）平均
* `.std()`：標準偏差
    * 引数`ddof=1`はデフォルトで`1`
    * `std()`はデフォルトで不偏標準偏差を計算する
* `.var()`：分散
    * 引数`ddof=1`はデフォルトで`1`
    * `var()`はデフォルトで不偏分散を計算する

次の２つも便利である。計算する際，欠損値は無視され，結果は`DataFrame`として返される。
* `.cov()`：分散共分散行列
    * 引数`ddof=1`はデフォルトで`1`
    * `cov()`はデフォルトで不偏分散・共分散を計算する
* `.corr()`：相関係数

```{warning}
`pandas`と`numpy`では，標準偏差，分散，共分散を計算する際の引数`ddof`のデフォルトの値が異なるので注意が必要！
* `DataFrame`のメソッド
    * `.std()`，`.var()`，`.cov()`の全てで`ddof=1`がデフォルト
* `numpy`の関数
    * `.std()`，`.var()`では`ddof=0`がデフォルト
    * `.cov()`では`ddof=1`がデフォルト

母集団の標準偏差・分散・共分散の不偏推定量を計算するには`ddof=1`が必要！！
```

```{warning}
`DataFrame`のメソッド`.cov()`と`.corr()`は欠損値を自動的に無視する。従って，相関係数の場合，`.corr()`の結果と`.std()`を使う「手計算」の結果を比べる際は欠損値がどのように扱われているかに注意する必要がある。
```

例えば，`.cov()`を計算してみよう。

In [None]:
jp.cov()

対角成分は分散であり，その他は行と列のラベルに対応する共分散となる。`.corr()`も同じ位置関係となる。

In [None]:
jp.corr()

また変数の変化率（成長率）を計算するには`.pct_change()`が便利である（percent changeの略）。$x_t$を変数とすると、次式に従って毎期ごとの変化率を返すことになる。

$$
\text{変化率}_t=\frac{x_{t}-x_{t-1}}{x_{t-1}}
$$

In [None]:
jp.pct_change()

`2011`年が無いため，`2012`年の成長率は欠損値となっている。％表示するのであれば
```
100 * jp.pct_change()
```
とすれば良いだろう。

`.pct_change()`と`.mean()`を続けて書くと簡単に（算術）平均成長率を計算することができる。

In [None]:
jp.pct_change().mean()

## `Series`について

`Series`について簡単に説明する。`Series`はスプレッド・シートから１つの行または列を取り出したようなデータとイメージすれば良いだろう。`Series`には行と列を区別しないが、`Series`のインデックスは`DataFrame`のインデックスと同じと考えて良いだろう。ただし、以下では次の表現を使う。
* インデックスが位置番号（`0`、`1`、`2`）を**インデックス番号**と呼ぶ。
* インデックスがラベルの場合は、単に**ラベル**と呼ぶ。

まず`df`の列`gdp`から`Series`を作ってみよう。

In [None]:
s = df.loc[:,'gdp']
s

````{note}
```
df.loc[:,['gdp']]
```
もしくは
```
df[['gdp']]
```
で列を抽出すると`DataFrame`が返される。また次のように`s`のメソッド`.to_frame()`を使うと`Series`を`DataFrame`に変換できるので、覚えておくと便利かも知れない。
```
s.to_frame()
```
新たに列ラベルを設定する場合は
```
s.to_frame('新たな列ラベル')
```
とする。
````

`df`の行ラベルが整数型であり、それが`s`のインデックスに使われている。
また、`gdp`は`s`の名前（`Name`）として使われている。

### 構成要素

この例を使い`Series`の構成要素について説明する。

* データ：`s.to_numpy()`もしくは`s.values`で抽出可能
* `Series`名：`s.name`で抽出可能
    * `df`の列ラベルから引き継がれているが、空の場合もある。
* インデックス（番号もしくはラベル）：`s.index`で抽出可能
    * 上の例では`df`の行ラベルから引き継がれている
    * インデックス番号であれば、`0`,`1`,`2`,...と表示される。
* インデックス名：`s.index.name`で抽出可能
    * `df`の行ラベル名から引き継がれていが、空の場合もある。

まずデータ自体を抽出する。

In [None]:
s.to_numpy()

In [None]:
type(s.to_numpy())

`Series`名の抽出

In [None]:
s.name

インデックスの抽出

In [None]:
s.index

`dtype='object'`とあるが、ラベルは文字列であることがわかる。

### 要素の抽出

要素の抽出はラベルを使う方法とインデックス番号を使う方法がある。ラベルを使う場合を考えてみよう。`DataFrame`と同様に`.loc[]`を使う事ができる。違いは、`Series`の場合、行と列の区別がないのでラベルだけを指定すれば良い。

In [None]:
s.loc['Japan']

複数の場合はラベルをリストとする。

In [None]:
s.loc[['Japan','Korea','UK']]

ラベルを使う場合，`.loc`を省略することができる。辞書と同じような形となる。

In [None]:
s['Japan']

In [None]:
s[['Japan','Korea','UK']]

次にインデックス番号を使う要素の抽出方法を紹介しよう。`DataFrame`と同様に`.iloc[]`を使う。

In [None]:
s.iloc[5]

複数のインデックスを使うことも可能である。

In [None]:
s.iloc[[1,3,5]]

またスライシングも同様にできる。

In [None]:
s.iloc[5:-2]

```{warning}
Pandasのバージョンによっては`.iloc`を省略して`s[1]`のようにして要素にアクセスできるかも知れないが、バージョンが進むと使えなくなるので注意しよう。
```

### 統計学関連メソッド

`Series`にも`DataFrame`と同じような統計学関連メソッドが実装されているので，`py4macro.see()`で調べてみよう。

In [None]:
py4macro.see(s)

この中に
* `.mean`：平均
* `.std`：標準偏差
* `.var`：分散
* `.sum`：合計

を計算するメソッドが含まれているのが確認できる。

## グループ計算

再度`df`を使って説明する。表示してみよう。

In [None]:
df.head()

`df`のメソッド`.mean()`を使うと列の平均を簡単に計算できることは説明した。`id`以外の列を取り出して計算してみよう。

In [None]:
df.iloc[:,:-1].mean()

一方で，列`continent`には`Asia`と`Europe`があり，`df`を２つのグループに分けることができる。ここで問題になるのは，グループ別に列の平均を計算したい場合である。まず考えられる方法は`Asia`グループだけを抽出して平均を計算し，同じように`Europe`も計算するということだろう。もしグループ数が多い場合は`for`ループが必要になり，より長いコードを書く必要があり面倒に感じることになる。

こういう場合のために，`DataFrame`には簡単にグループ計算を可能にする方法が用意されている。それが`.groupby()`というメソッドである。以下では`.groupby()`の使い方を`df`を使って３つのステップに分けて説明する。

### ステップ１：グループ化する列を指定

最初のステップでは，**グループ化したい列名**を引数として`.groupby()`を実行する。`df`を`continent`でグループ化したいので次のコードとなる。
```
df.groupby('continent')
```

**＜注意＞**<br>
このコードは`DataFrame`を返すわけでは**ない**。返すのはグループ計算用のオブジェクトであり，それを使ってグループ計算をおこなう事になる。

実際にコードを実行し，変数`df_groupby`に割り当てよう。

In [None]:
df_groupby = df.groupby('continent')

`df_groupby`を実行してみよう。

In [None]:
df_groupby

何も返されない。表示されているのは，PCメモリーのある箇所に`DataFrameGroupBy`というオブジェクトが存在すると伝えているだけである。

### ステップ２：グループ計算したい列を指定

次にグループ計算したい列を指定するが，次の様な書き方となる。
```
df_groupby[＜グループ計算したい列ラベル＞]
```
ここで`[]`を使っていることに注意しよう。例として`gdp`をグループ計算するとしよう。

In [None]:
df_groupby['gdp']

ここでも新たなオブジェクト`SeriesGroupBy`のメモリーアドレスが表示されるだけである。どの様に計算するかを指定することにより，計算結果が返されることになる。それが次のステップである。

### ステップ３：計算方法の指定

ステップ１と２がグループ計算の準備段階であり，あとは実際にどのように計算したいかを指定する。例として，平均を考えてみよう。上でも出てきたが，平均はメソッド`.mean()`を使う。

In [None]:
df_groupby['gdp'].mean()

グループ計算結果は`Series`として返されている。`.mean()`以外にも使える関数は準備されいる。`py4macro.see()`を使って属性・メソッドを調べてみよう。

In [None]:
py4macro.see(df_groupby['gdp'])

主なメソッドとして次を挙げることができる（これらの計算で欠損値は無視される）。
* `mean()`：平均
* `median()`：中央値
* `max()`：最大値
* `min()`：最小値
* `std()`：標準偏差
* `var()`：分散
* `sum()`：合計
* `cumsum()`：累積和
* `first()`：最初の値
* `last()`：最後の値
* `count()`：要素数
* などなど

このリストにない計算をしたい場合もあるだろう。その場合は，上のリストにもある`.agg()`（`aggregate()`も同じ）を使い，自作の関数を指定することができる。例えば，平均を計算する自作の関数`my_mean()`を考えてみよう。

In [None]:
def my_mean(x):
    
    return sum(x) / len(x)

ここでの`x`はステップ２で指定する計算する対象の列と考えれば良いだろう。実際に実行してみよう。

In [None]:
df_groupby['gdp'].agg(my_mean)

```{warning}
この場合，`()`がなく，関数名だけを`.agg()`の引数にしている。関数名だけを`.agg`に渡し，`.agg`が渡された関数を実行するというイメージである。`()`を付けると`.agg()`に渡す前に関数を実行することになりエラーとなってしまう。
```

### 次のステップ

#### １行で書く

上の説明では３つのステップに分けたが，もちろん次のように３つのステップを次のように１行で書いても構わないし，むしろその場合が多いだろう。

In [None]:
df.groupby('continent')['gdp'].mean()

このコードは次の様に読むことができる。
> `df`を`id`でグループ分けして，`gdp`の平均を計算する。

#### 複数選択

各ステップでは列や関数を一つだけ選択・設定しているが，それぞれ複数選択することも可能である。
* ステップ１ではグループ化する上で基準となる列を複数選択
* ステップ２では計算対象となる列を複数選択
* ステップ３では`.agg()`の引数に複数の関数を指定

という具合である。ただその場合は，リストとして列や関数名を指定する必要がある。例えば，ステップ２で`gdp`と`inv`を選ぶとしよう。

In [None]:
df.groupby('continent')[['gdp','inv']].mean()

結果は`DataFrame`として返されている。ステップ１もしくは３で複数選択すると`DataFrame`が`MultiIndex`（階層的な行と列）として返されることになるが，その簡単な説明については[Gapminder](https://py4basics.github.io/Gapminder.html)を参照して欲しい。より詳しい説明は他のサイトに譲ることにする。

`df`のような小さな`DataFrame`では`.groupby`の威力はあまりピンとこないかも知れない。しかし大きな`DataFrame`を使うとその恩恵を強く感じることだろう。[Gapminder](https://py4basics.github.io/Gapminder.html)ではマクロ経済データを使い`.groupby()`の使い方の例を示している。興味がある人は是非！