いろいろ倉庫

KNIME、EXCEL、R、Pythonなどの備忘録

【KNIME】GET RequestでデータをWebから釣ってきたい

・KNIMEには、Webにアクセスし、情報を釣ってくるノードが存在する。

・特定のWebサイトに集中的にアクセスするとサーバに負荷がかかり、いろいろと不味いことになります。

スクレイピングは禁止されている場合もあるので、できるできないはきちんと調べて、やる場合は自己責任で節度を持って試しましょう。

・今回は、化学物質のデータベース(chembl)から情報をとってくる。

・ChEMBL web services APIを参考に、Request URIをTable Creatorに作成した(下図)。

f:id:choron81:20211025000227p:plain

・ブラウザで直接ここにアクセスすると、本来表になっているようなデータのコードが見れる(下図)。注意書きに書いてあるように、形式はXML

f:id:choron81:20211025000422p:plain

・GET Requestというノードは、先のRequest URIを変数として用いることで、ブラウザの代わりにここにアクセスして、コードを引っ張ってきてくれる。複数のリクエストを続けて流すと、サーバに負荷をかけることになるので、Delayを長くとり、サーバに負荷をかけないようにすることをお勧めする。

・GET Requestを実行すると、以下のように情報が得られる(下図)。

f:id:choron81:20211025001013p:plain

・このままだとデータが分かりにくいので、XMLを表形式で表示する必要がある。

 

続く。