・KNIMEには、Webにアクセスし、情報を釣ってくるノードが存在する。
・特定のWebサイトに集中的にアクセスするとサーバに負荷がかかり、いろいろと不味いことになります。
・スクレイピングは禁止されている場合もあるので、できるできないはきちんと調べて、やる場合は自己責任で節度を持って試しましょう。
・今回は、化学物質のデータベース(chembl)から情報をとってくる。
・ChEMBL web services APIを参考に、Request URIをTable Creatorに作成した(下図)。
・ブラウザで直接ここにアクセスすると、本来表になっているようなデータのコードが見れる(下図)。注意書きに書いてあるように、形式はXML。
・GET Requestというノードは、先のRequest URIを変数として用いることで、ブラウザの代わりにここにアクセスして、コードを引っ張ってきてくれる。複数のリクエストを続けて流すと、サーバに負荷をかけることになるので、Delayを長くとり、サーバに負荷をかけないようにすることをお勧めする。
・GET Requestを実行すると、以下のように情報が得られる(下図)。
・このままだとデータが分かりにくいので、XMLを表形式で表示する必要がある。
続く。