・自然言語解析であまり使われない代名詞や冠詞などのことを、stop wordsと呼び、前処理として除かれる場合が多い。こういうことに使われる有名ライブラリといえば、spaCyだと思う。日本語だとGiNZAというライブラリが有名らしい。
Can't find model 'en_core_web_sm'. It doesn't seem to be a Python package or a valid path to a data directory.
ということで、英語用の追加データも入れた(python -m spacy download enをConda promptで動かす)。
from Bio import Entrez
Entrez.email = "abc@def.ghi"#自分の使えるメールアドレスを記載
handle = Entrez.esearch(db="pubmed", term="cancer", retmax="1")
record = Entrez.read(handle)
from Bio import Medline
handle = Entrez.efetch(db="pubmed", id=record["IdList"], rettype="medline",retmode="text")
records = Medline.parse(handle)
records = list(records)
"1. Both PI3K signaling quality (interaction partners, effectors) and quantity (strength, kinetics) differ across contexts, and are under dynamic regulation. 2. Rather than as a simple ON/OFF cellular switch,......
・stop wordsを除く前に、とりあえず文章をスペースで区切って単語のリストにしてみる。
import re
text=re.sub(r"[.,)(}{!?:;]","", text)
"1 Both PI3K signaling quality interaction partners effectors and quantity strength kinetics differ across contexts and are under dynamic regulation 2 Rather than as a simple ON/OFF cellular switch the PI3K signaling pathway should be viewed as a .......
text=text.lower() #小文字に変換
words=text.split() #スペースで分割してリスト化
・次にstop wordsを除去する。spacyからSTOP_WORDSを読み込んでみると、STOP_WORDSが除去する単語の集まり(コレクション)であることが分かる。
from spacy.lang.en.stop_words import STOP_WORDS
・ということは、先ほどのリストの単語をひとつづつ取り出し、このコレクションに含まれていないもののリストを作成すれば、stop wordsを除いたことになる。
words=[w for w in words if w not in STOP_WORDS]
・これで、wordsはstop wordsを除去した単語のリストになった筈。