・お題:Tableauという探索的データ解析ツールがあるらしい。PandasのDataFrameを使ってTableuっぽくグラフを描くパッケージでPyGWalkerというやつがあるらしい。Tableauは有料っぽいので、PyGWalkerを使ってみたい。
・PyGWalkerのGitHubは以下。正しいことは以下をご確認いただきたい。
・とりあえず、インストールしてみる。仮想環境中で、pip install pygwalkerするとインストールできる。ちなみに、pandasが入っていることが前提。
・今回はJupyter Labで試してみる。Jupyter Labを立ち上げ、ライブラリをインポートする。
import pandas as pd
import pygwalker as pyg
・お試しデータセットはirisをsklearnから引っ張ってくる。
from sklearn import datasets
iris = datasets.load_iris()
df = pd.DataFrame( iris.data, columns = iris.feature_names )
df["target"] = iris.target_names[iris.target]
df.head()
・PyGWalkerを使うためのコマンドは以下。とてもシンプル。
gwalker = pyg.walk(df)
・これを実行すると、以下の画面が立ち上がる。黒くなっている立方体のようなボタンは、値をそのまま使うか集計して使うか決めるボタンで、デフォルトは黒くなっている(集計して使うことになっている)。
・Columnsは列(横軸)に何を持ってくるか、Rowsは行(縦軸)に何を持ってくるか指定できる。Filtersでフィルターに使う変数を、Colorで色分けに使う変数を、Opacityで透明度に使う変数を、Shapeで形に使う変数を指定できる。
・例えば、横軸にbins、縦軸に個数をとって棒グラフを描けば、ヒストグラムになる。
・例えば、2つの数値データを縦軸と横軸にとり、色と形にカテゴリカル変数を割り振れば、散布図にできる。
・例えば、複数の変数を行と列に指定すれば、それぞれの変数の組み合わせで散布図を描いてくれる。
・グラフの種類にはいろいろあって、例えば箱ひげ図なんかもある。
・使いこなすと便利そう。
おわり。