RNA-Seq解析のやり方と考え方｜データの見方までわかる初心者向け実践ガイド

RNA-Seqデータ解析を学びたい方へ

このページでは、RNA-Seq解析の基本的な流れ（ステップ）と考え方を、初心者にもわかりやすく解説します。

単に手順をなぞるだけでなく、「なぜその処理が必要なのか」「どこを見てどう判断するのか」といった、データを理解するための視点を重視しています。

RNA-Seq解析は複雑に見えるかもしれませんが、本当の難しさはツールではなく、データの解釈にあります。

RNA-Seq解析を学び始めると、多くの人が最初にぶつかるのが、Rや各種パッケージの扱いです。
コードの記述やエラー対応に時間を取られ、本来向き合うべきデータの解釈や生物学的な意味づけまで手が回らないことは少なくありません。

一方で、GUIベースの自動解析ツールを使えば、手軽に結果を得ることができます。
しかしその反面、前処理や正規化、バッチエフェクトの影響を十分に検証しないまま解析が進み、結果がブラックボックス化してしまうケースもあります。

その結果、誤った結論に気づけず、そのまま解析を進めてしまうリスクもあります。

では、RNA-Seqデータを「理解しながら」解析するには、どのように進めればよいのでしょうか？

________________________________________

AI時代に求められる「考えて進める解析者」へ

Subio Platform は、そのための“見ながら考える解析環境”として設計されています。
データの分布やばらつきを可視化しながら、必要な統計処理を組み合わせることで、各ステップの意味を理解しながら解析を進めることができます。

本チュートリアルでは、RNA-Seq解析の基本フローをステップごとにたどりながら、
「どこを見て、どう判断するか」という解析の思考プロセスを実践的に学びます。

「手順通りに実行する」状態から、
「データを理解し、解析を説明できる」状態へ。

________________________________________

【まず結果を出したい方へ】

このページは、RNA-Seq解析を自分の手で理解しながら進めたい方向けのチュートリアルです。
一方で、目的によってはより効率的な進め方もあります。

▶すぐに自分のデータを解析したい
　→ データ解析サービス：解析結果を、自由に探索・検証できるSSAファイルとして納品します。

▶自分のデータで操作を最短で覚えたい
　→ オンライントレーニング：実データを使って必要な解析フローを集中的に学べます（録画可能）。

▶まずはデモデータで基礎から理解したい
　→ このままチュートリアルへ進んでください。
________________________________________

本チュートリアルの流れ

データ解析の「作業」をこなすのではなく、各ステップでデータがどう変化するかを理解しながら進めていきましょう。

データの準備とインポート
- 1-a. FASTQファイルのインポート（生データからの処理）
  ※もしここで躓くようなら、この工程は誰かに任せて1-bへ進んでください。
- 1-b. 遺伝子レベルの発現量データのインポート（既存データ活用）
Seriesの作成と設定：実験情報の整理
正規化と前処理：データの「歪み」を整える
フィルタリング（Quality Control）：解析に値する遺伝子の抽出
PCA（主成分分析）とクラスタリング：全体像を俯瞰する
発現差のある遺伝子（DEG）の抽出
- 6-a. 視覚化と統計による発現差の探索（Subio Platform）
- 6-b. RNA-Seq発現差解析（edgeR・DESeq2の比較｜ChatGPT＋R）
エンリッチメント解析
ゲノム上の位置特異的な解析とモチーフ検索
おわりに：ツールを使いこなし、「決断」できる解析者へ

________________________________________

１-a．FASTQファイルのインポート

要点：解析の第一歩は、測定した実験データの取り込みです。生データ（FASTQ）から処理する場合（1-a）と、すでに遺伝子ごとの発現量 (gene counts, FPKM, TPMなど) に変換された場合（1-b）に分けて説明します。

FASTQファイルの処理は、多くの初心者が最初につまずきやすく、時間を取られる工程です。
しかし、この工程は研究の核心ではなく、手順に従って進める実行プロセスに近いものです。

コマンドラインを学び、エラーを乗り越えてパイプラインを完了させることには、確かに達成感があります。ですが、これはあくまで準備段階に過ぎません。研究の核心である「データの理解」や「生物学的な洞察」はこの先にあります。

本来最も時間をかけるべきは、その先の解析と解釈です。前段の工程に過度に時間と労力を費やしてしまうと、全体として非効率になりがちです。

この段階で行き詰まっている場合は、この部分を他の研究者やサービス、あるいはAIに任せてしまうのも合理的な選択です。
重要なのは、その先の解析にどのように取り組むかです。（「 RNA-Seq解析の学び方」参照）

一方で、「FASTQファイルを入力してボタンを押すだけ」といったツール（例：Galaxyなど）は、FASTQの処理やGene Countsの取得までであれば有効に活用できます。ただし、その先の解析までこうしたツールに任せてしまうと、プロセスがブラックボックス化しやすくなります。

さらに、RaNA-Seqのように解析まで自動で行うWebツールもありますが、Gene Countsを直接取得できない場合があります。

RNA-Seq解析では、統計解析の前提を保つために、通常はGene Countsが用いられます。特に、edgeR や DESeq2 といった代表的な手法は、Countsデータを前提として設計されています。
そのため、これらの手法を使う可能性がある場合は、Gene Countsを取得できる方法を選ぶのが望ましいと言えます。

一方で、どうしても代替手段がない場合には、TPMなどを用いて解析を進めることも現実的な選択肢です。ただし、その場合は前提が異なることを理解した上で扱う必要があります。

すでにデータをお持ちの場合や、他の方に依頼する場合、ツールを利用する場合など、手段は問いません。Gene Counts（あるいは、必ずしも最適とは言えないRPKM/FPKM、TPM、CPMなど）に変換されたデータをお持ちの場合は、無理にこのステップから始める必要はありません。Section1-bから進めることを推奨します。
________________________________________

本セクション（1-a）では、この前処理をSubio Platform上でどのように完結させるかを具体的に解説します。ただし、これはあくまで準備段階であり、本質的な解析はこの先にあることを意識しながら進めていきましょう。

Subio PlatformにRNA-SeqのFASTQファイルをインポートする際には、fastp、HISAT2、StringTie からなるパイプラインが実行され、遺伝子ごとの発現量（Gene CountsやFPKMなど）が計算されます。
これにより、統計解析に適したCountsデータを含め、解析に必要な形式のデータをそのまま利用することができます。

ワークステーションやUNIXのコマンドライン操作は必要ありません。通常のWindowsまたはMacのコンピューターで実行できます。
コマンドラインに慣れている方にとっても、Subio Platformを使うことで、前処理から発現量の取得までをよりスムーズに進めることができます。これにより、処理の手順に煩わされることなく、データの解釈に集中することができます。

パイプラインを実行する前に、これらのツールをインストールする必要があります。もし難しいようでしたら、FASTQ処理の問題解決サービスをご注文ください。

FASTQファイルは、.gz圧縮形式のままにしておいてください。同じフォルダー内に、途中結果のファイルが大量に生成されますので、ディスクに十分な空きスペースがあること（FASTQファイルの合計サイズの5倍以上）をご確認ください。もし、実行途中にディスクが足りなくなった場合は、途中で止まります。FASTQファイルは、外付けディスクに置いてあっても大丈夫です。

Paired-end サンプルのFASTQファイルをインポートする場合は、ファイル名の付け方のルールに従ってください。また、何らかのトラブルで実行できないときは、トラブルシューティングをお試しください。

RNA-Seq FASTQ ファイルをインポートする。

Download

目次に戻る

________________________________________

１-b．遺伝子レベルの発現量データのインポートと解析の準備

RNA-Seqデータの準備は、一見複雑に見えますが、基本的な流れを押さえればそれほど難しくありません。

このセクションでは、GSE49110のデータを例に、gene countsデータの取得からアノテーションの整備まで、RNA-Seq解析に必要なデータ準備の基本を解説します。この手順は特定のデータに限らず、GEOなどの多くの公開データにそのまま応用できます。

今回はGEOのデータを使用しているため、アノテーション情報はNCBIから取得していますが、多くのRNA-SeqデータではEnsemblの遺伝子IDが使われています。その場合は、Ensembl BioMart (MartView)を使って対応するアノテーションを取得することができます。

手早く始めたい方のために、SSAファイル も用意しています。これを使用すれば、データ準備を省略してすぐに解析を開始できます。さらに、解析の流れ全体を確認しながら、条件の変更や再解析をインタラクティブに行うことが可能です。
※パスウェイデータベースや論文PDFなどの外部リソースについては、著作権の関係によりSSAファイルには含めていません。

動画の中ではPlatformの作成と編集に多くの時間を使っていますが、この作業は一度行えば再利用可能です。次回以降は、同じPlatformを使ってすぐに解析を開始できます。

具体的な操作手順は動画で確認しながら進めてください。

RNA-Seq データ解析チュートリアル (01) - RNA-SeqのCountsデータのインポート

Download

上のムービーは、日本語字幕を表示できます。

【最短で結果を出したい方】
▶ データ解析サービスを見る

【自分で操作できるようになりたい方】
▶ オンライントレーニングを見る

【SSAファイルで解析をすぐに体験（90秒デモ）】
▶動画を見る

目次に戻る

________________________________________

２．Series の作成と設定

要点：統計解析においては、「どのサンプルがどのグループに属するか」という実験デザインの定義がすべての出発点になります。この情報がなければ、データをどのように扱い、比較すべきかを決めることができず、そもそも解析を始めることができません。サンプルの属性情報を整理し、比較の軸を明確にすることで、はじめて意味のある解析環境が構築されます。

Seriesを読み込むと、左側のSeriesパネルにMeasurement ListやDataSetなどのオブジェクトが表示されます。
また、Analysis Browserでは、上段にScatter Plotが、下段にSetup Seriesタブがデフォルトで表示されます。

まずは「Edit Parameters」ボタンをクリックします。

通常は、「Sample Information」から情報をインポートする方法が最も簡単です。
このデータセットでは、4つの条件（controlと3種類のsiRNA処理）があり、それぞれに2つのリプリケートが含まれています。

次に、Setup DataSetタブ に移動し、DataSetの編集・作成を行います。
このステップでは、サンプルをどのようにグループ化し、比較するかを定義します。この設定は、その後の解析結果の解釈に直接影響します。
このチュートリアルでは、2つのDataSetを作成します。

また、Sample Infoタブ では追加情報の記録や、関連ファイルの添付を行うことができます。

RNA-Seq データ解析チュートリアル (02) - Series の作成と設定

Download

上のムービーは、日本語字幕を表示できます。

目次に戻る

________________________________________

３．正規化と前処理

要点：正規化は、総リード数などの違いによって生じる系統誤差を補正する不可欠な工程ですが、盲信は禁物です。（Case Study 379参照）プリセットに頼り切らず、ヒストグラムで補正前・補正後の分布を視覚的に確認し、データの歪みが正しく解消されているかを見極める目を養います。

正規化および前処理は、その設定によって解析結果が大きく左右される重要なステップです。
データの特徴を正しく理解し、それに適した処理を行わなければ、誤った結論につながる可能性があります。

このチュートリアルでは、プリセットの「RNA-Seq (Counts)」というシナリオから出発し、データに合わせて調整していきます。
その過程で、「何を知るためにどこを見るか（操作するか）」、そして「どのように判断するか」という、データの見方を学んでください。

ここで紹介する設定はあくまで一例であり、どのデータにもそのまま適用できるものではありません。実際の解析では、データの特性に応じて調整することが重要です。自信を持てない場合は、データ解析サービスの利用もご検討ください。

特に重要なのが、Low Signal Cutoffの設定です。

この値を高く設定すると、不安定な遺伝子は減りますが、興味深い遺伝子を見逃すリスク（false negative）が高まります。
一方、低く設定すると、不安定な遺伝子は増えますが、見逃しのリスクは低くなります。

つまり、これはfalse positiveとfalse negativeのトレードオフです。

一般に「false positiveを減らすことが重要」と言われますが、それは研究の最終段階の話です。
オミクス解析は多くの場合、発見のために使われるため、この段階ではむしろfalse negativeを増やさないことが重要になります。

特に低発現領域にある興味深い遺伝子を逃したくない場合は、Low Signal Cutoffは低めに設定するとよいでしょう。
一方で、信頼性の高いバイオマーカー候補を絞り込みたい場合は、高めに設定するのが有効です。

次に、Fill Missing Valueの設定です。

この値には、Low Signal Cutoffで設定した閾値よりも、わずかに低い値を入力します。
ただし、ここで入力する値は対数スケールで解釈されるため、例えば「4」と入力すると、実際には2⁴ = 16を意味します。この点には注意してください。

このように、解析の目的に応じて柔軟に設定を調整できることは、Subio Platformを使った解析の大きな強みの一つです。
あえてLow Signal Cutoffを低く設定することも有効ですが、その場合は解析結果の解釈により一層の注意が必要です。
結果を正しく理解するためには、最終的なP値だけでなく、解析全体の流れを把握しておくことが重要です。

関連する内容については、以下もあわせてご覧ください。

RNA-Seq データ解析チュートリアル (03) - 正規化と前処理

Download

上のムービーは、日本語字幕を表示できます。

【最短で結果を出したい方】
▶ データ解析サービスを見る

【自分で操作できるようになりたい方】
▶ オンライントレーニングを見る

目次に戻る

________________________________________

４．フィルタリング(Quality Control)

要点：「Garbage In, Garbage Out」。低発現で信頼性の低い遺伝子や、変化のないノイズを適切に除外することで、真に生物学的な意味を持つシグナルを抽出します。

すべての測定値が解析に適しているわけではありません。
解析の前に、「解析に値するデータ」と「そうでないデータ」を見極め、後者を適切に除外する必要があります。

ここで使用するのが、Basic Plug-inに含まれるFilterツールです。
プラグインをお持ちでない方は、5日間の無料お試しをご利用ください。

フィルタリングの基本的な考え方

フィルタリングは「信頼できる遺伝子を選ぶ」作業ではありません。
「解析に値しない遺伝子を除く」作業です。

この違いは非常に重要です。

前者の考え方では、例えばコントロールでは発現していなかったが、処理によって発現するようになった遺伝子を見逃す可能性があります。
実際にフィルターツールを操作しながら、この違いを確認してみてください。

フィルタリングは2段階で行う

フィルタリングは、通常以下の2段階で行います。

極端に低発現な遺伝子を除外する
発現変動のない遺伝子を除外する

「よくある閾値」は本当に正しいのか？

たとえば、RのDESeq2のチュートリアルでは、次のようなコードをよく目にします。

dds <- dds[rowSums(counts(dds)) >= 10,]

このようなコードを見て、次のように感じたことはないでしょうか。

「どんなデータでも、この閾値で本当に大丈夫なのだろうか？」

そう思いながらも、よく分からないままコピー＆ペーストして使ってしまう——そんな経験はありませんか。

閾値は“ルール”ではない

このような閾値は経験則として広く使われていますが、すべてのデータに適しているわけではありません。

重要なのは、こうした閾値はあくまで汎用的なルールではないという点です。
これは極端に低発現な遺伝子を除外するための簡易的なプリフィルタであり、適切なカットオフはデータの性質や解析の目的によって変わります。

閾値はどう決めるべきか？

答えはシンプルです。
データを実際に見ることです。

分布やプロット、全体のパターンを確認しながら判断する必要があります。

Practical Tip:
TPM/FPKMデータや微量インプットの発現データでは、ノイズ領域とシグナル領域の境界があいまいになることがあり、Ch1 Raw Signalに対する単純な閾値設定が難しい場合があります。
このような場合は、前述のSetup DataSetで定義したSample Groupごとに、CV（変動係数）を用いたフィルタリングが有効です。

Practical Tip:
サンプル数が少ない場合は、解析を進めながら逐次データを確認し、フィルタリングを調整していくのが有効です。一方、サンプル数が多い場合は、ランダムに約100サンプルを抽出して予備解析を行い、適切な閾値を決めたうえで全体に適用するのが現実的です。
データを確認せずにサンプルコードをそのまま使うと、誤解を招いたり、最適でない結果につながる可能性があります。

RNA-Seq データ解析チュートリアル (04) - フィルタリング (Quality Control)

Download

上のムービーは、日本語字幕を表示できます。

【５日間無料トライアルはこちら】
▶ ノイズを除去するフィルタリングを試す

目次に戻る

________________________________________

５．PCAとクラスタリング

要点：数万の遺伝子の変動をそのまま理解することは困難です。そのため、データを「解釈可能な構造」に変換し、サンプル間の関係性や全体像を俯瞰することが重要になります。このステップでは、「このデータで次に何を見るべきか」を判断するための視点を身につけます。

前段までで解析の準備が整いました。ここからは、データから意味を抽出する段階に入ります。
なお、すべての遺伝子を対象とするのではなく、フィルタリングによってQuality Controlを通過した遺伝子群のみを対象としてください。

まずは、発現プロファイルの全体像を俯瞰し、データの構造を把握します。
この目的に最も適しているのが、主成分分析（PCA）です。

PCAの大きな利点は、サンプル間の距離だけでなく、「方向」にも明確な意味があることです。

PCAの読み方

PCAの結果を見る際には、以下の3点が重要です。

1. 距離（Distance）
点と点の距離が近ければ発現プロファイルが類似しており、遠ければ大きく異なります。

2. 方向（Direction）
原点からみて同じ方向に位置するサンプルは、共通の遺伝子群の変動によって動いていることを意味します。
また、原点を挟んで反対方向にある場合は、発現変動が逆方向であることを示します。
原点から遠いほど、その変動の大きさが大きいことも重要なポイントです。

3. 主成分と寄与率（Principal Components）
各軸（主成分）は、それぞれ異なる遺伝子群の変動を代表しています。
寄与率が大きいほど、全体の構造をよく説明していますが、必ずしも生物学的に重要とは限りません。
むしろ、少数の遺伝子の変動が重要な意味を持つ場合には、寄与率の小さい主成分に注目すべきこともあります。

以上を踏まえて、このデータのPCA結果を見てみましょう。

リプリケート間（グループ内）の距離は、siRNA間（グループ間）の距離に比べて明らかに小さく、ばらつきの少ない良質なデータであることが分かります。
また、コントロールと比較すると、各siRNA処理群は同一方向（右下）への共通の変動を示すとともに、siE2は右方向（PC1）、siE3は下方向（PC2）といった、それぞれ固有の変動も持っているように見えます。
さらに、この2次元のPCA図には表示されていませんが、別の主成分（PC3）によってsiE1の特徴も捉えられています。

階層型クラスタリングの読み方

次に、階層型クラスタリングを適用します。

ヒートマップを概観すると、すべてのsiRNAで共通して発現上昇（赤）する遺伝子が比較的多く存在する一方で、発現が低下（青）する遺伝子はsiRNAごとに異なることが分かります。

PCAとクラスタリングを統合して考える

重要なのは、図を作って満足することでも、ただ眺めることでもありません。
こうしたパターンや違いに気づき、「細胞内で何が起きているのか」を考察することが解析の本質です。

また、PCAと階層型クラスタリングは、同じデータ構造を異なる視点から見ているにすぎません。
両者を見比べながら、データの理解を深めていきましょう。

Note:
正規化・前処理のセクションで行ったlog ratio変換では、「何を基準（分母）にしているか」によって、PCAの原点の意味が変わります。
Centeringを使用している場合、原点は各遺伝子の発現パターンの平均値を表します。一方、Ratio to Control Samplesを使用している場合、原点は指定したコントロール群の平均値を表します。
このケースでsiC処理サンプルが原点付近に位置しているのは、このためです。

また、近年はUMAPなどの手法も広く使われていますが、これらは主に「距離」に基づいて構造を可視化する手法です。
一方でPCAは、「方向」にも明確な意味があるため、変動の要因を解釈する上で特に有用です。

RNA-Seq データ解析チュートリアル (05) - PCAとクラスタリング

Download

上のムービーは、日本語字幕を表示できます。

【５日間無料トライアルはこちら】
▶ PCAやクラスタリングでデータの全体像を可視化してみる

目次に戻る

________________________________________

６．発現差のある遺伝子の抽出

要点：単なるP値のカットオフだけでなく、ベン図などを活用して多角的に遺伝子を絞り込みます。「共通して動くもの」と「条件特異的に動くもの」を見分けることで、次に何をどのように確かめるかを考える手がかりを得ます。

6-a. 視覚化による発現差の探索（Subio Platform）

このケースでは、前章のクラスタリングで見た通り、発現が上昇する遺伝子群は3種のsiRNAで共通なのに対し、発現が下降する遺伝子群の共通項はあまりに少ないという偏りがありそうです。Basic Plug-inのツールを使って発現差のある遺伝子を抽出したら、Venn Diagramツールでその重なり方を確認してみましょう。

なぜ発現が下降する遺伝子の共通が少ないのか、なぜ発現が上昇する遺伝子は共通するものが多いのか、といった点に潜む違和感を拾い上げることが重要です。「個別」と「共通」の境界にはどのようなメカニズムがあるのか（異なるインプットから共通のアウトプットが得られるシステムとしての視点）。経時的なデータを取得すれば見えてくるのか。

このように、P値だけを見るのではなく、前セクションのクラスタリングやPCAとあわせて、どのような仮説が立てられるか、そしてそれを検証するためにどのような実験が必要か、こうした問いを立てることこそが解析の本質です。

「p値が小さい＝重要」とは限りません。
むしろ、このような問いを考える際に重要なのは、p値が小さい遺伝子だけに注目しないことです。統計的には有意でないように見える遺伝子であっても、発現パターンやクラスタリングの中で一貫した挙動を示すものは、重要な生物学的示唆を含んでいる可能性があります（ケーススタディNo.199）。

Practical Tip:
このケースとは直接関係しないかもしれませんが、例えばサンプリングした組織に含まれるごく一部の細胞の発現変化を捉えたい場合には、以下のような特徴を組み合わせて評価する工夫が有効なことがあります。

発現量が小さい
ばらつきが小さい
発現変動が小さい

これらの条件を組み合わせることで、通常の解析では見落とされやすいシグナルを拾える可能性があります。

大事なのは、目的とする遺伝子がどのように見えるかを想像し、それを捉えるための工夫をすることです。
こうした力こそが、AI時代に求められる解析者の資質です。

RNA-Seq データ解析チュートリアル (06) - 発現差のある遺伝子の抽出

Download

上のムービーは、日本語字幕を表示できます。

【５日間無料トライアルはこちら】
▶ 発現差解析（DEG）機能を試す

目次に戻る

________________________________________

6-b. RNA-Seq発現差解析：edgeR・DESeq2の比較（ChatGPT＋R）

ここまでで、データの分布や発現パターンを視覚的に把握してきました。

次に、edgeRやDESeq2といった統計的手法を用いて、発現差を数値として評価します。

重要なのは、これらの手法は「答えを出すもの」ではなく、「解釈のための材料を与えるもの」であるという点です。

ChatGPTを活用することで、スクリプト作成やエラー修正に時間を費やすことなく、解析の本質に集中できます。

そして、edgeRとDESeq2の結果を比較することで、手法による違いも確認します。

世の中では「こちらでは有意差があるが、こちらではない」といった議論が見られることもあります。しかし、こうした違いは多くの場合、閾値設定や統計モデルの差に由来するものであり、それ自体が生物学的な意味を直接示すものではありません（ケーススタディNo.355）。

この動画で紹介するように、処理の多くをSubio Platform側で行い、必要な部分だけをRスクリプトで補う構成にすることで、スクリプトは最小限に保たれ、長期的なメンテナンスコストを大幅に抑えることができます。

最後に、スクリプトをテキストファイルとして保存し、添付ファイルとして一緒に保存することができます。解析結果だけでなく、その過程（スクリプト）も保存しておくことで、後から再現・検証・共有が可能になります。これは、解析を一度きりで終わらせず、蓄積し、再利用できる資産へと変えていくための重要なポイントです。

ChatGPTでRスクリプト生成：edgeR & DESeq2によるP値計算（Subio Platformワークフロー）

Download

上のムービーは、日本語字幕を表示できます。

目次に戻る

________________________________________

７．エンリッチメント解析

要点：「数字のリスト」を「生物学的な言葉」に翻訳することで、解析結果を解釈するための手がかりを得ることができます。

統計解析の次のステップは、この結果を生物学的な意味として捉えることです。
Subio PlatformのAdvanced Plug-inに含まれるEnrichment Analysisツールを用いることもできますし、各種の無料ウェブツールを利用することも可能です。これらのツールを用いることで、結果を生物学的な意味として解釈します。

用語が紛らわしいことがありますが、Gene Ontology（GO）解析やパスウェイ解析などと呼ばれるものの多くは、エンリッチメント解析の一種として行われています。
Gene Set Enrichment Analysis（GSEA）、DAVID Functional Annotation、Metascapeなどは、代表的なエンリッチメント解析ツールです。

エンリッチメント解析は、明確な結論を示すものではなく、あくまで解釈のための示唆を与える手法です。過去の文献やデータベースに依存しているため、その結果にはいくつかの限界があります。

研究が多く行われている分野に結果が偏る傾向があります。
ある現象に関連する遺伝子数が少ない場合、それが実際に関与する遺伝子が少ないのか、単に研究が進んでいないためなのかを区別することが難しい場合があります。
特定の組織や細胞で観察された現象が、一般的なものとして表示されることがあります。

エンリッチメント解析の結果を得ることで、解析が完了したように感じてしまうことも少なくありません。
しかし、それは解釈の入り口に過ぎません。

RNA-Seq データ解析チュートリアル (07) - 遺伝子アノテーションと、エンリッチメント解析

Download

上のムービーは、日本語字幕を表示できます。

【５日間無料トライアルはこちら】
▶ 遺伝子リストからGO・Pathwayを見つけてみる

目次に戻る

________________________________________

８．ゲノム上の位置特異的に発現制御されている遺伝子と、モチーフ配列

要点：物理的な位置関係から、新たな制御メカニズムの可能性を探ります。特定のゲノム領域に依存した変動や、転写因子が結合する「モチーフ配列」との関連を調べることで、発現変動の背景にある「要因」を推察する手がかりを得ます。

発現差のある遺伝子を抽出したり、クラスタリングで特定の発現パターンを持つ遺伝子群を特定したら、それらがゲノム上に偏って存在していないかを確認してみるのも一つの手です。

もし特定の領域にある遺伝子群が一斉に発現上昇または下降していれば、その領域のエピジェネティックな状態変化や、染色体の構造変化が発現変動に関与している可能性が考えられます。特に偏りが見られなければ、転写因子による制御の可能性がより高いと推測できるかもしれません。

また、モチーフ配列の検索機能を活用することで、転写開始点（TSS）近傍に特定の配列を持つ遺伝子を特定し、それらの発現パターンを確認することも可能です。こうした位置情報を活用した解析を組み合わせることで、データに対する理解の解像度をさらに高めることが期待できます。ちなみに、モチーフ配列の検索は、 IUPAC nucleotide code に対応しています。

このケースでは、ゲノム上の位置に偏った発現制御はないように見えます。siRNAによって抑制したERR alphaの結合モチーフ配列はWikipediaで見つけることができたので、これを転写開始位置近傍に持つ遺伝子を抽出することができました。これと、3種すべてのsiRNAで発現抑制された遺伝子リストとの重複を調べると、一つの遺伝子に辿り着きました。しかし、上述のとおり、３種すべてで抑制されている必要はないかもしれないですし、発現差解析の閾値がきつすぎだった可能性もあります。これらの条件を緩めることで、ERR alphaが直接制御する遺伝子の候補はもう少し広がるでしょう。

RNA-Seq データ解析チュートリアル (08) - ゲノム上の位置特異的に発現制御されている遺伝子と、モチーフ配列

Download

上のムービーは、日本語字幕を表示できます。

【５日間無料トライアルはこちら】
▶ コンセンサス配列を特定し、TSS近傍に持つ遺伝子を探してみる

目次に戻る

________________________________________

９．おわりに：ツールを使いこなし、「決断」できる解析者へ

チュートリアルはあくまで「手法（Methods）」の紹介に過ぎません。実際の解析現場において、どの閾値が適切か、バッチエフェクトをどう処理すべきかを判断するのは、ツールではなく解析者自身です。客観的な数字を超えた、「主観を伴う意思決定」の重要性を再確認しましょう。

本チュートリアルでは、RNA-Seqデータ解析の標準的な流れを解説してきました。しかし、実際のデータ解析が一本道で進むことはありません。「正解」はデータの特性や研究の目的によって常に変化します。

手法を学び終えたとき、次に来るのが最も本質的なステップです。それは、「主観に基づいた適切な判断を下せる解析者」へと進化することです。

現実の測定データは完璧ではありません。だからこそ、不足している部分は解析者の「主観」で補う必要があります。ただし、その主観はデータと研究目的に基づいた、妥当なものでなければなりません。

それこそが、AI時代においても価値を失わない「生き残れる解析者」の姿ではないでしょうか。

Subio Platformは、あなたが「ツールに使われる作業者」から、「自らの主観で解析を支配し、意思決定を行える研究者」へと進化するための解析基盤です。
ソフトウェアの提供に加え、解析サービスとオンライントレーニングによってそのプロセスを一貫してサポートしています。

次は、あなた自身のデータで、この違いをぜひ体感してみてください。

RNA-Seqデータ解析を学び始めたあなたに、Subioでは目的に応じて二つの進め方をご用意しています。

■ まずは解析結果を得て、検証や解釈から集中的に学びたい方は、データ解析サービスをご利用ください。
→ データ解析サービスの詳細を見る

■ さらに、前処理から解析までの各工程を自分で判断しながら、ご自身で一通りの解析を行えるようになりたい方は、オンライントレーニングをご活用ください。
→ オンライントレーニングの詳細を見る

目次に戻る

サポート Help - ソフトウェアの使い方 RNA-Seq解析のやり方と考え方｜データの見方までわかる初心者向け実践ガイド