【KNIME】sdfファイルから化合物の情報を抜き出したい。

・先日、化合物をKNIMEで扱ってみた。

・化合物の構造ファイルとして、いろいろな記述法があり、中でもSMILESとSDFはよく見かける。

・SMILESの特徴は、1次元の文字列の配列であり、記述自体がシンプルであること。SDFの特徴は、化合物の構造以外の情報も盛り込めることだと思う。

・今回は、SDFから化合物名などを抽出する方法をメモしておく。

・SDFファイルの構成は以下の通り。

f:id:choron81:20220129181336p:plain

・思うに、"M END"までが構造情報で、"><chembl_id>"など"><>"で囲まれたところが項目名、そのあとの行がその内容で、分子同士の区切りが"$$$$"になっているのだろう（あっているかは知らない）。
・このSDFファイルには、構造情報以外に"chembl_id"と"chembl_pref_name"という情報が含まれ、それぞれ"CHEMBL32479"と"BROTIZOLAM"であるらしい。

・これらの情報を抽出するワークフローを組んでみた（下図）。

f:id:choron81:20220129182225p:plain