・お題:他にも遺伝子発現解析の例があったので、そちらもなぞってみたい。
・次の例は以下。とても詳しく記載してあるので、きちんとしたことは元サイトをご確認いただきたい。
・今回は前回の続きで、DEG解析の結果を図示したり、サンプルごとの遺伝子発現パターンをヒートマップで眺めたあと。
・Broad Institute’s MSigDB c2 collectionから入手できるc2 gene signaturesをcamera法に適用し、どういった遺伝子群が変わりがちか調べてみる。
・camera法は、指定したセット内の遺伝子が、そのセットに含まれない遺伝子と比較して、発現の差ランキングで上位にあるかどうかを評価する手法らしい。分かるような分からないような。。もちろん計算はさっぱり分からない(元論文は以下)。いつか分かる日が来るのだろうか。。
https://academic.oup.com/nar/article/40/17/e133/2411151
・c2 gene signaturesのデータは以下からダウンロードできる。
・MouseのC2をダウンロードしてカレントディレクトリに保存し、ロードしてみた。このやり方であっているのかは分からない。
> load("~/R/mouse_c2_v5p2.rdata")
・次に、インデックスを作成する。
> idx <- ids2indices(Mm.c2,id=rownames(v))
・インデックスがどんなものか見てみると、どの遺伝子がどういった遺伝子群に含まれているのか記してあるものらしい。
・次に、cameraメソッドを実行する。引数の意味は以下を参照。
> cam.BasalvsLP <- camera(v,idx,design,contrast=contr.matrix[,1])
・vは発現量の情報をを含むデータオブジェクト。行に遺伝子情報、列にサンプル情報が含まれる行列を含む。
・designはdesign matrixのこと。どのサンプルがどの実験条件に対応しているのかを表した行列。
・contr.matrixはどの実験条件とどの実験条件を比較するのかを表した行列。今回は[,1]ということなので、1行目であるBasalとLPを比較する。
・これらの情報から出てくるのは以下。PValue(かFDR?)で昇順になっている。どういった遺伝子群がどっち(Up/Down)方向に動いているっぽいのか、が出てくる。
> cam.BasalvsLP %>% head()
・NGenesはその遺伝子群に含まれる遺伝子の総数らしい。
> idx$LIM_MAMMARY_STEM_CELL_UP %>% length()
[1] 736
・LPとMLのDEGも同様に見てみる。
> cam.LPvsML <- camera(v,idx,design,contrast=contr.matrix[,3])
> head(cam.LPvsML,5)
・見づらいが、LIM_MAMMARY_LUMINAL_MATURE_UPとLIM_MAMMARY_LUMINAL_MATURE_DNが上位に来ている。次に、これらの遺伝子群の濃縮のされ方を眺めるべく、バーコードプロットを描いてみる。関数の引数に関しては以下を参照。
・統計データでランク付けする必要があるので、efitのtを与えている。この[,3]は何かというと、LPvsMLのところ、という意味で、これらの比較から算出された統計量を使っているっぽい。今回はLIM_MAMMARY_LUMINAL_MATURE_UPとLIM_MAMMARY_LUMINAL_MATURE_DNを選んでいる。
> barcodeplot(efit$t[,3], index=idx$LIM_MAMMARY_LUMINAL_MATURE_UP,
+ index2=idx$LIM_MAMMARY_LUMINAL_MATURE_DN, main="LPvsML")
・見方があっているのか分からないが、上側のバーコード(LIM_MAMMARY_LUMINAL_MATURE_UP)はDownの方にバーがぎゅっと偏っている。いっぽうで、下側のバーコード(LIM_MAMMARY_LUMINAL_MATURE_DN)はUpの方にバーがぎゅっと偏っているように見える。注目している遺伝子群の変動の様相を把握するものなんだろうなぁと思う。
・プロットの解釈などに関して、自信が持てないが、いろいろやって慣れていくしかないと思っている。
おわり。