【Python】日付の揺れを統一したい

・お題：PandasのDataframeで日付を含む表を入手したものの、日付の表記が様々ある。統一したい。

・DataFrameを作成する。

import pandas as pd
a1=["2022/1/1","2022/01/01","2022.1.1","2022.01.01","2022-1-1","2022-01-01"]
df1=pd.DataFrame(a1,columns=["a1"])

・4桁年月日になっている。

・pd.to_datetimeを使う。DataFrameを放り込むのは難しく、SeriesならOK見たい。

pd.to_datetime(df1["a1"])

で、以下が返ってくる。

0 2022-01-01
1 2022-01-01
2 2022-01-01
3 2022-01-01
4 2022-01-01
5 2022-01-01
Name: a1, dtype: datetime64[ns]

・df1を統一したいなら、以下のような感じ。

df1["a1"]=pd.to_datetime(df1["a1"])

・一応はこれでうまくいった。だが、実際にデータを眺めてみると、日付の表記にもっとバリエーションがあった。

import pandas as pd
a2=["2022/1/1","2022/01/01","2022.1.1","2022.01.01","2022-1-1","2022-01-01","2022年1月1日","2022年01月01日","２０２２年１月１日","２０２２年０１月０１日","22/1/1","22/01/01","22.1.1","22.01.01","22-1-1","22-01-01","22年1月1日","22年01月01日","２２年１月１日","２２年０１月０１日","20220101","220101"]
df2=pd.DataFrame(a2,columns=["a2"])

・4桁年月日、だけではなく、2桁年月日、全角半角のバリエーションも想定される。

・まず、これを先ほどの関数に入れると、エラーが返ってくる。

ParserError: Unknown string format: 2022年1月1日

・年、月、日がエラーになる。いったんエラーを無視する。

pd.to_datetime(df2["a2"],errors="coerce")

0 2022-01-01
1 2022-01-01
2 2022-01-01
3 2022-01-01
4 2022-01-01
5 2022-01-01
6 NaT
7 NaT
8 NaT
9 NaT
10 2001-01-22
11 2001-01-22
12 2001-01-22
13 2001-01-22
14 2001-01-22
15 2001-01-22
16 NaT
17 NaT
18 NaT
19 NaT
20 2022-01-01
21 2001-01-22
Name: a2, dtype: datetime64[ns]

・先ほどうまくいったものは今回もうまくいった。先ほどエラーになりそうなものは、NaTになった。一見うまくいきそうでうまくいかなかったのが、2桁年月日のパターンで、日付が変わってしまった。これは2桁年月日が年月日の順番で読み込まれていないことが原因ぽい。

pd.to_datetime(df2["a2"],yearfirst=True,errors='coerce')

0 2022-01-01
1 2022-01-01
2 2022-01-01
3 2022-01-01
4 2022-01-01
5 2022-01-01
6 NaT
7 NaT
8 NaT
9 NaT
10 2022-01-01
11 2022-01-01
12 2022-01-01
13 2022-01-01
14 2022-01-01
15 2022-01-01
16 NaT
17 NaT
18 NaT
19 NaT
20 2022-01-01
21 2022-01-01
Name: a2, dtype: datetime64[ns]

・次に、NaTを処理する。

pd.to_datetime(df2["a2"],format="%Y年%m月%d日",errors='coerce')

0 NaT
1 NaT
2 NaT
3 NaT
4 NaT
5 NaT
6 2022-01-01
7 2022-01-01
8 NaT
9 NaT
10 NaT
11 NaT
12 NaT
13 NaT
14 NaT
15 NaT
16 NaT
17 NaT
18 NaT
19 NaT
20 NaT
21 NaT
Name: a2, dtype: datetime64[ns]

・日付が全角になっている場合はうまくいかない。全角を半角に変換したい。以下の記事を参考にさせて頂いた。

qiita.com

・全角英数字を半角にする。

ZenHan=lambda x:x.translate(str.maketrans({chr(0xFF01 + i): chr(0x21 + i) for i in range(94)}))

df2["a2"]=df2["a2"].apply(ZenHan)

・これで、NaTの4桁年月日は解決しそう。まだ2桁年月日は解決していない。2桁年月日を処理したい場合は、以下のようにformatの年のYをyに変える。

pd.to_datetime(df2["a2"],format="%y年%m月%d日",errors='coerce')

・以上を組み合わせて処理してみる。方針としては、①とりあえず半角に変換、②デフォルトのフォーマットで処理できそうなところは処理、③エラーで弾かれた4桁年月日を処理、④さらにエラーで弾かれた2桁年月日を処理、という感じでいってみた。

#全角英数を半角にする。
ZenHan=lambda x:x.translate(str.maketrans({chr(0xFF01 + i): chr(0x21 + i) for i in range(94)}))
df2["a2"]=df2["a2"].apply(ZenHan)

#df3を変換後のDataFrameとして利用
df3=df2.copy()

#デフォルトの処理
df3["a2"]=pd.to_datetime(df2["a2"],yearfirst=True,errors='coerce')

#df3でエラーが出ているところに、df2のフォーマットを指定して処理した結果を挿入×2回
df3["a2"]=df3["a2"].fillna(pd.to_datetime(df2["a2"],format="%Y年%m月%d日", errors="coerce"))
df3["a2"]=df3["a2"].fillna(pd.to_datetime(df2["a2"],format="%y年%m月%d日", errors="coerce"))

#df3をdf2に代入
df2=df3.copy()

・どうやらうまくいったらしい。

おわり。

いろいろ倉庫

KNIME、EXCEL、R、Pythonなどの備忘録

【Python】日付の揺れを統一したい