米国医学研究者のDr. Pontaです。
今回はRでvisualization方法として最も便利で一般的に使われているggplotの使い方について解説します。
ggplotとは
ggplotは、データ可視化のための強力なパッケージであり、Rプログラミング言語のtidyverseと関連しています。ggplotパッケージは、グラフを構築するための方法を提供し、美しく、情報豊かなグラフを作成するのに役立ちます。
ggplotでは、データセットを指定し、それに対してレイヤーを追加していくことでグラフを構築します。例えば、散布図を作成する場合、データセットを指定し、x軸とy軸に対応する変数を指定します。その後、点や線などのジオメトリを追加して、必要に応じて色や形などの属性を指定します。これにより、データの構造や関係性を視覚的に理解することができます。
このように臨床データやオミクスデータを注目しているグループごと(TNMステージや年齢、遺伝子変異有無など)に図示し、論文として発表するときに非常に重宝します。もはや生命医学研究では必須のデータ解析ツールといっても過言ではないしょう。PythonだとMatplotlibが同じ立ち位置にあります。
以下、実際の臨床データを使用して使い方を解説していきます。
使い方
インストール
RのパッケージレポジトリであるCRANでtidyverseパッケージ群は管理されています。
# CRANからインストールし、読み込み
# ggplotはtidyverseパッケージ群の一部です。TidyverseをR環境に読み込むことで使えるようになります
install.packages("tidyverse")
library(tidyverse)
模擬データの準備
TCGAbiolinksを使用し、ダウンロード保存したTCGAの肺腺癌データセット(TCGA-LUAD)を例に使用します。TCGAデータの取得方法についてはこちらの記事を参照。
# TCGA LUAD Clinicalデータをロードする
load("data/TCGA_LUAD_clinical.RData")
どのようなデータがクリニカル情報として収録されているか、まず確認します。
# colnames()でカラム名を取得
colnames(clinical)
data:image/s3,"s3://crabby-images/778ae/778aebab5de86e72ddfa353cae4c077293b3dc21" alt=""
次にTNM Stage columnにmissing valueがあるので、解析前に除いておきます
# Missing valueを除く
clinical <- clinical %>% filter(is.na(ajcc_pathologic_stage)!=TRUE)
1. 散布図
簡単な散布図を作成
特に変数選択にここでは意味はないのですが、まず年齢とフォローアップ期間をプロットしてみます。x軸に年齢、y軸にフォローアップ期間を指定し、散布図を描きます。 ggplot()で使うデータセット、aes()内で指定したデータセットのどのカラムを軸に使うのかを決めます。 続けて、プロットタイプをgeom_point()とします。これは散布図を作成するときに使うGeomです。ボックスプロットならgeom_box()、ヒストグラムならgeom_histogram()と各プロット用にすべて別々に用意されています。ここでは最も基本の散布図で説明していきます。
以下では入力データオブジェクトとしてclinical、x軸にage_at_index、y軸にdays_to_last_follow_up、プロットタイプとしてgeom_point()をしています。
ggplot(clinical, aes(x = age_at_index, y = days_to_last_follow_up)) + geom_point()
data:image/s3,"s3://crabby-images/77560/77560d8c721802bdf092c64c8a74041bb94a6a4a" alt=""
軸の調整
scale_x_continuous()、scale_y_continuous()で軸名、範囲、区切りを指定します。
ggplot(clinical, aes(x = age_at_index, y = days_to_last_follow_up)) +
geom_point() +
scale_x_continuous(name="Age", limits=c(20,100), breaks=seq(20,100,5))
data:image/s3,"s3://crabby-images/b4e71/b4e71d0e283cd540272d2243dbf04a43dd44b2f8" alt=""
データポイントの色や大きさを変更する
geom_point(col=, size=)でcol、sizeを指定することでできます。
ggplot(clinical, aes(x = age_at_index, y = days_to_last_follow_up)) +
geom_point(col="red", size=3) +
scale_x_continuous(name="Age", limits=c(20,100), breaks=seq(20,100,5))
data:image/s3,"s3://crabby-images/869ad/869ada5c42951de695cfe2663dfb898fd393191e" alt=""
データポイント色を他データ因子で自動的に決める
データポイントの色を、関連する他の因子により決定し、色分けしたいときがあると思います。このようなときには例えば、TNMステージ毎に色分けしたい場合は以下のようにします。
ggplot(clinical, aes(x = age_at_index, y = days_to_last_follow_up)) +
geom_point(aes(col=ajcc_pathologic_stage), size=3) +
scale_x_continuous(name="Age", limits=c(20,100), breaks=seq(20,100,5))
data:image/s3,"s3://crabby-images/531e0/531e0f6aba2c83dbb0878141d3d7150f10a58ac6" alt=""
データポイント色を他データ因子で自動的に決める & 使用カラーパレットを指定
使用されるカラーパレットを指定したいときは、RcolorBrewer()を使います。使えるパレット色は以下のようなものがあります。
library(RColorBrewer)
display.brewer.all()
data:image/s3,"s3://crabby-images/e6157/e6157fd855e24f5c94a1833247f9a7ab99c3e605" alt=""
ここではSet1を使っていきます。
ggplot(clinical, aes(x = age_at_index, y = days_to_last_follow_up)) +
geom_point(aes(col=ajcc_pathologic_stage), size=3) +
scale_x_continuous(name="Age", limits=c(20,100), breaks=seq(20,100,5)) +
scale_colour_brewer(palette = "Set1")
data:image/s3,"s3://crabby-images/64eda/64eda47f0ff646ab39cc27f9ea29bdd6d80252c4" alt=""
特定の変数ごとにプロットを分ける
各因子ごとにプロットを分ける必要がある場合は、facet()関連コードを使用します。いろいろサブタイプがあるのですが、ここではfacet_wrap()を使用します。ちなみにncolでプロットを横にいくつ並べるかを指定できます。
ggplot(clinical, aes(x = age_at_index, y = days_to_last_follow_up)) +
geom_point(aes(col=ajcc_pathologic_stage), size=1) +
scale_x_continuous(name="Age", limits=c(20,100), breaks=seq(20,100,20)) +
facet_wrap(~ ajcc_pathologic_stage, ncol=3)
data:image/s3,"s3://crabby-images/d45d2/d45d2440b72c5e9d9f67447604e4a45b29693f2b" alt=""
タイトルをつける
タイトルをつけるにはggtitle()を使用します。
ggplot(clinical, aes(x = age_at_index, y = days_to_last_follow_up, fill)) +
geom_point(aes(col=ajcc_pathologic_stage), size=3) +
scale_x_continuous(name="Age", limits=c(20,100), breaks=seq(20,100,5)) +
ggtitle("Age vs Followup days")
data:image/s3,"s3://crabby-images/e344f/e344ff020fe2e49b5a95fb2f5dc7a77aa6848932" alt=""
グラフテーマの変更
グラフのバックを白抜きにするとか、軸は太線にしたいとかは大まかにtheme()で対応できます。以下3つ例を示します。
# theme_bw() 下図左
ggplot(clinical, aes(x = age_at_index, y = days_to_last_follow_up, fill)) +
geom_point(aes(col=ajcc_pathologic_stage), size=3) +
scale_x_continuous(name="Age", limits=c(20,100), breaks=seq(20,100,5)) +
ggtitle("Age vs Followup days") +
theme_bw()
# theme_classic() 下図中央
ggplot(clinical, aes(x = age_at_index, y = days_to_last_follow_up, fill)) +
geom_point(aes(col=ajcc_pathologic_stage), size=3) +
scale_x_continuous(name="Age", limits=c(20,100), breaks=seq(20,100,5)) +
ggtitle("Age vs Followup days") +
theme_classic()
# theme_dark() 下図右
ggplot(clinical, aes(x = age_at_index, y = days_to_last_follow_up, fill)) +
geom_point(aes(col=ajcc_pathologic_stage), size=3) +
scale_x_continuous(name="Age", limits=c(20,100), breaks=seq(20,100,5)) +
ggtitle("Age vs Followup days") +
theme_dark()
data:image/s3,"s3://crabby-images/b1b29/b1b29d185d681e8bb152e1edcde4248c64d9aeee" alt=""
data:image/s3,"s3://crabby-images/f5ec7/f5ec7acb50dade0efc6b0a058aeb207ff4a1dcc3" alt=""
data:image/s3,"s3://crabby-images/48d82/48d8262093974ca048192df59d3fff1857adbf89" alt=""
2.棒グラフ
簡単な棒グラフ
棒グラフを描くには、geom_bar()を指定すます。例としてTNMステージごとの患者分布をバーチャートでみてみます。縦軸のカウント数は入力データフレームから自動的に計算されます。
ggplot(clinical, aes(x=ajcc_pathologic_stage)) + geom_bar()
data:image/s3,"s3://crabby-images/50355/503554c3150794599273da29dfef7f7a4728173b" alt=""
棒グラフの色変更
縁取りの色を変えるにはcolor, 塗りつぶし色を変更するにはfillを使います, バーチャートの幅はwidthで変更できます。
ggplot(clinical, aes(x=ajcc_pathologic_stage)) + geom_bar(color="blue", fill="white", width = 0.2)
data:image/s3,"s3://crabby-images/338e6/338e632e37cdd8893a4915d507593bc28f40fac3" alt=""
軸の入れ替え
軸を入れ変えるには二つの方法があります。y軸として最初に指定する方法と一度元の向きで作成してからcoord_flip()で軸を入れ替える方法です。
# y軸として最初に指定する方法
ggplot(clinical, aes(y=ajcc_pathologic_stage)) + geom_bar()
# 一度元の向きで作成してからcoord_flip()で軸を入れ替える方法
ggplot(clinical, aes(x=ajcc_pathologic_stage)) + geom_bar() +
coord_flip()
data:image/s3,"s3://crabby-images/dc53a/dc53ad9455c2ca2075dcda5177a010b49873d3b3" alt=""
棒グラフに他の因子情報を追加
棒グラフに性別やステージ情報を入れ、各グループ因子由来のデータがどのような分布をしているかを明らかにしたい場合、fill=””を使用して、以下のようにできます。3通りの示し方を見てみます。
# 縦にスタック型する場合 下図左
ggplot(clinical, aes(x=ajcc_pathologic_stage, fill=gender)) + geom_bar()
# 横に並べる型 下図中央
ggplot(clinical, aes(x=ajcc_pathologic_stage, fill=gender)) + geom_bar(position=position_dodge())
# 別のグラフとして表示したいとき 下図右
ggplot(clinical, aes(x=ajcc_pathologic_stage, fill=gender)) + geom_bar() + facet_wrap(~gender)
data:image/s3,"s3://crabby-images/bb88b/bb88bbbf437e42b6f28be7e688dd0ab486bb22b0" alt=""
data:image/s3,"s3://crabby-images/fd2da/fd2da03d0fe32d8a57e900e22d8bd45c0419233b" alt=""
data:image/s3,"s3://crabby-images/d80ed/d80edff0bd4e064869e3afd092bb333a4dbce587" alt=""
棒グラフの色をカスタム指定したい場合
色を自分で直接指定したい場合はこの方法でできます。
ggplot(clinical, aes(x=ajcc_pathologic_stage, fill=gender)) + geom_bar(position=position_dodge()) +
scale_fill_manual(values=c('red','blue'))
data:image/s3,"s3://crabby-images/c2591/c2591f954881d35dd8c7fb5c8f8c86edd2944157" alt=""
ボックスプロット
ボックスプロットも棒グラフや散布図と同じように作成できます。以下に二つだけ例を示します。ボックスの枠色はcolor、塗りつぶしはfill、データポイントの同時表示は geom_jitter()でコントロールできます。
# ステージごとの患者年齢分布
ggplot(clinical, aes(x=ajcc_pathologic_stage, y=age_at_index, color=ajcc_pathologic_stage)) + geom_boxplot()
ggplot(clinical, aes(x=ajcc_pathologic_stage, y=age_at_index, color=ajcc_pathologic_stage)) + geom_boxplot()+
geom_jitter(position = position_jitter(0.2))
data:image/s3,"s3://crabby-images/7669f/7669f89523433918e13e9e4ff76e1efe1e3bfca5" alt=""
data:image/s3,"s3://crabby-images/fdc9e/fdc9e037aea30a1f2afab461ea2e76b6c2d73462" alt=""
まとめ
今回はggplotを用いて基本的なplotの作成方法について解説しました。ggplotにはまだまだたくさんの描画機能がありますので、読者のみなさんも実際に体験してみてください。完全無料のggplotに慣れるとGraphad prismやエクセルには戻れなくなります。
今日も最後までお読みいただきありがとうございました。