Subscribed unsubscribe Subscribe Subscribe

CPSAM.org

computer, programming, statistics and more!

RNA-seq pipeline

リファレンスゲノムをダウンロードする
併せてアノテーションファイルもダウンロードする

wget ftp://ftp.ensembl.org/pub/release-85/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.toplevel.fa.gz
wget ftp://ftp.ensembl.org/pub/release-85/gtf/homo_sapiens/Homo_sapiens.GRCh38.85.gtf.gz

bowtieでindexing

bowtie2-build -r Homo_sapiens.GRCh38.dna.toplevel.fa \
  Homo_sapiens.GRCh38.dna.toplevel

Tophatでgtfファイルもindexingしておく
下記の例だとカレントディレクトリにtranscriptomeというディレクトリが作成され
その中にHomo_sapiens.GRCh38.85_gtfというプレフィクスでいくつかのファイルが作成される

tophat -G Homo_sapiens.GRCh38.85.gtf \
  transcriptome/Homo_sapiens.GRCh38.85_gtf \
  Homo_sapiens.GRCh38.dna.toplevel

サンプルデータをダウンロードする

sra=SRR213838
wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP061/SRP061888/${sra}{1..8}/${sra}{1..8}.sra

sratoolkitを使ってsraファイルを解凍する。 --split-3オプションを使わないと、ペアエンドデータに解凍できないので注意。

fastq-dump --split-3 ${sra}{1..8}.sra

FastQCにかける

fastqc --nogroup ${sra}{1..8}_1.fastq
fastqc --nogroup ${sra}{1..8}_2.fastq

アラインメント

tophat -p 2 \
       -G Homo_sapiens.GRCh38.85.gtf \
       Homo_sapiens.GRCh38.dna.toplevel \
       SRR2138381_1.fastq \
       SRR2138381_2.fastq
Remove all ads