【R】タンパク質ネットワーク解析をSTRINGdbでやってみたい

・お題：タンパク質間相互作用解析をやると、いろいろなことが分かるらしい。RだとSTRINGdbなどのパッケージを使うとできるらしい。やってみたい。

・例のごとく、チュートリアルをなぞる。今回のチュートリアルは以下。

rpubs.com

・STRINGdbのインストールは割愛。

・GSE9008のデータを使う。どこにDEGのデータがあるのかよく分からなかったので、GEO2Rで自分で算出して、GSE9008.top.table.tsvとしてカレントディレクトリに保存した。

www.ncbi.nlm.nih.gov

・データを読み込む。今回はヒトの肺がん細胞に試験物質を作用させた際のDEGデータ。

> data <- read.delim("GSE9008.top.table.tsv")
> data <- dplyr::rename(data, gene = Gene.symbol)
> data %>% head()

・タンパク質間相互作用ネットワークをダウンロードする。今回はヒトのネットワークをとって来る。

> library(STRINGdb)
> string_db <- STRINGdb$new(version = "11.5",
+ species = 9606,
+ score_threshold = 200,
+ input_directory="")
> class(string_db)
[1] "STRINGdb"
attr(,"package")
[1] "STRINGdb"

・DEGの遺伝子情報とSTRINGのタンパク質情報をくっつける。

> example1_mapped <- string_db$map(data,
+ "gene",
+ removeUnmappedRows = TRUE )
Warning: we couldn't map to STRING 13% of your identifiers

> example1_mapped %>% head()

> example1_mapped %>% dim()
[1] 47613 9

・P.Valueで昇順になっているので、ここから200個の遺伝子を取り出してネットワークを描いてみる。

> hits <- example1_mapped$STRING_id[1:200]
> string_db$plot_network(hits)

・ちっちゃすぎて良く分からない。可視化には他のパッケージを使う方が良いかも…。。次に、特に変化が大きそうな遺伝子を強調するために、P.Valueが0.01以下またはlogFCの絶対値が0.5以上のものをとって来て色情報を与える。

> example1_mapped_sig <- string_db$add_diff_exp_color(subset(example1_mapped, log10(P.Value) >= -log10(0.01) | abs(logFC) >= 0.5),
+ logFcColStr="logFC" )

> example1_mapped_sig$color