【Python】DataFrameから条件に合うデータを抜き出したりしたい

・お題：DataFrameを入手した。ここから、気になるデータを抽出したりしたい。

・PandasのDataFrameで特定のデータを抽出したりできるとうれしい。

・データセットを作成する。

import pandas as pd
import numpy as np
import random

df=pd.DataFrame({"Age":[random.randint(20, 60) for n in range(100)],
"Weight":[random.randint(45, 100) for n in range(100)],
"Income":[random.randint(200, 1000) for n in range(100)],
"Sex":[random.choice(["f","m"]) for n in range(100)],
"From":[random.choice(["Tokyo","Osaka","Yokohama","Nagoya","Kobe"]) for n in range(100)]})

・これで、以下のdfができる。

・次に、適当に欠損させる。

df2=df.copy()
mask=np.random.choice([0,1],p=[0.1,0.9],size=df2.shape[0]*df2.shape[1]).reshape(df2.shape[0],df2.shape[1]).astype(bool)
df2=df2.where(mask, np.nan)
df2.info()

で

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Age 84 non-null float64
1 Weight 92 non-null float64
2 Income 88 non-null float64
3 Sex 95 non-null object
4 From 89 non-null object
dtypes: float64(3), object(2)
memory usage: 4.0+ KB

が返ってくる。各列10%程度欠損している。

・特定の条件に合うデータを抽出するには、queryを使う。例えば、df2から、Incomeが500以上のデータをとってくる。

df2.query("Income > 500")