いろいろ倉庫

KNIME、EXCEL、R、Pythonなどの備忘録

【Python】論文情報を取得したい

・お題:Pythonで環境構築して、Pubmedから論文情報をとってきたい。

 

・まずはAnaconda Promptで環境構築した。すぐに忘れるので、メモしておく。

#python=3.10で環境構築
conda create -n kikitai python=3.10

 

#仮想環境に入る
activate kikitai

 

#ライブラリをインストール
conda install jupyterlab -y
conda install ipykernel -y
conda install pandas -y
pip install openai #OpenAI用パッケージ

pip install gTTS #音声変換用パッケージ

 

#仮想環境のカーネルをJupyterに追加
python -m ipykernel install -–user -–name=kikitai

 

#カーネルリストを確認
jupyter kernelspec list

 

・jupyterlabを立ち上げ、Pubmedから論文情報をとって来る。コードは以下の記事を参考にさせて頂いた。

lifesciencehack-ai.hatenablog.com

 

Pubmedから論文情報を引っ張ってくる前段階として、Pubmed側の規約を見ておく。あんまり負荷の大きい操作はダメ。私の用途は数が限られているし、リクエストをそんなに密に送ることもないが、大規模な操作は気を付ける。

www.ncbi.nlm.nih.gov

 

・実際のコードは参考記事とほぼ同じなので、元記事をご参照いただければと思う。私の場合、time.sleepを1秒に設定して、抜き出す情報はPubmed ID、Title、Pubdate、Abstractだけにした。

・試しに、termをcancerにして走らせてみると、以下のdfが得られた。

 

・次に、このAbstractをChatGPTでまとめて、日本語に翻訳するのだけれど、キリが悪いのでいったん終わる。

 

つづく