米国医学研究者のDr. Pontaです。今回はcBioPortalの使い方を簡単に解説します。
cBioPortalとは
cBioPortal は、TCGAなどのがんゲノミクスデータを収録したデータポータルで、ウェブ上で遺伝子変異やRNA発現量、クリニカル情報による群間比較などがクリックするだけで実行できます。解析結果はテキストデータやPDFでダウンロードできるようになっており、とても便利です。また元のデータもまとめてサイト上からダウンロードできるので、カスタム解析にも向いています。さらにWeb APIがR用、 python用に提供されているので、わざわざウェブサイトにアクセスしなくても、Rstudioなどから直接データを入手し、すぐにダウンストリーム解析を開始できるのも魅力です。
読むとできるようになること
- TCGAなどの各種がんコホートの遺伝子変異頻度について説明できる。
- 遺伝子変異有無による遺伝子発現の違いを調べられる。
- 分子サブタイプでどのような遺伝子変異の違いや臨床情報の違いがあるか統計的に説明できる。
使い方
データセット選択
cBioportalにアクセスすると以下の画面が開きます。左側に癌腫、中央にプロジェクトリストがあります。TCGAやTARGETコホートなどの有名なコホートがほぼ網羅されています。
データセット詳細確認
どのようなデータが視覚的解析できるのか、TCGA胃がんコホートを例にみていきます。ターゲットコホート名の横にある円グラフをクリックすると下図になります。収録されているゲノム情報のサマリー(変異やCNV、RNA発現値)や生存日数、遺伝子変異数、コピーナンバー数、TNMステージなどの臨床情報が一画面にまとめられています。全コホート情報は画面上部のリンク(赤矢印)からダウンロードできます。
腫瘍サブタイプや臨床情報の違いによるゲノムプロファイルの違いを調べる
例として胃がんを取り上げます。胃がんのTCGA分子サブタイプは主として4つ(GS、CIN、EVB、MSI)があります。ここではGSタイプとEVBタイプの違いを調べてみます。
以下のように選択し、Compare Groupsをクリックします。
生存解析、臨床病理学的因子に関する統計解析
すると以下の画面が開きます。指定した二群間の生存期間解析や臨床情報/ゲノミクス由来統計量の群間差の結果がみられます。
遺伝子変異頻度解析、ロリポッププロット
特定の遺伝子変異分布について二群間の違いをロリポッププロットでサマライズもできます。
発現差解析、メチル化解析
さらに指定した二群間の発現差解析(mRNA、プロテイン)、メチル化解析結果(ベータ値)がVolcanoプロットとテーブル情報で確認できます。
遺伝子変異とトランスクリプトームの関係を調べる
例としてTCGA胃がんデータのRTK関連遺伝子セットをクエリ遺伝子セットして入力し、調べてみます。この遺伝子セットは自分の興味ある遺伝子名をマニュアルで入力することも可能です。
Oncoprint
サブミットすると以下画面になります。トラックタブ(赤丸)からオンコプリントに追加したい情報を自分で選択しカスタマイズできます。この例ではTMBと性別を追加してあります。編集終わったら、トラックタブの同じ高さにあるダウンロードタブからダウンロードもできます。
Mutual Exclusivity
Mutual Exclusivityでは遺伝子変異の相互排他性を調べられます。Co-occurrenceというのは統計的有意に同一サンプルに同時にその変異がみられたことを示しています。すなわち偶然に変異が同時に存在したのではなく、何らかの臨床的意義や生物学的意義がある可能性があることを示しています。
Plots
プロットタブでは以下のように遺伝子変異、コピー数状態ごとにmRNA発現量がどのようにことなるかを半自動的に検討できます。例としてEGFR遺伝子のゲノム状態とmRNAレベルの発現値をボックスプロットで示しています。高度増幅症例(AMP)ではEGFR発現値が他群と比較し、高いことが明らかです。
Co-expression
Co-expressionタブではターゲット遺伝子とその他すべての遺伝子発現の相関関係を一度に調べられます。高い相関関係を示す遺伝子同士は同じパスウェイ上に位置していたり、似たような機能ドメインを有していたりするので、ターゲット遺伝子の機能解析をする場合に、同時に調べると有効に研究を遂行できることがあります。あくまでもケースバイケースですが。
Comparison/Survival
Comparison/Survivalでは入力した遺伝子に何等かのゲノム変異(SNV、CNVなど)がある群とない群で生存解析やゲノムプロファイル比較、発現差解析が自動的に実施できます。
Download
ダウンロードタブでは入力した遺伝子セットのみのデータセットをダウンロードできます。選択した遺伝子に関連する項目のみである点に注意してください。
Web APIを介したデータダウンロード
R環境、Python環境から直接cBioPortalからデータダウンロードする方法もあります。今回はグラフィカルインターフェースを介した解析に注目しているので、詳細説明は割愛します。
興味のある方は本家サイトのこちらのページに説明がありますので、参照してみて下さい。
まとめ
以上、MSKCCのIT departmentにより構築されたcBioPortalの使用説明でした。非常に多様な機能を持っていながら、解析スピードがかなり速く驚かされます。またかなり頻繁に機能のアップデートが行われているので、これからも注目すべきオンライン解析サイトの一つです。
今回も最後までお読みいただき、ありがとうございました。