Foi fornecido um protocolo detalhado de métodos de análise de expressão diferencial para sequenciamento de RNA: limma, EdgeR, DESeq2.
O sequenciamento de RNA (RNA-seq) é uma das tecnologias mais utilizadas em transcriptômica, pois pode revelar a relação entre a alteração genética e os processos biológicos complexos e tem grande valor em diagnósticos, prognósticos e terapêuticas de tumores. A análise diferencial dos dados do RNA-seq é crucial para identificar transcrições aberrantes, e limma, EdgeR e DESeq2 são ferramentas eficientes para análise diferencial. No entanto, a análise diferencial do RNA-seq requer certas habilidades com linguagem R e a capacidade de escolher um método adequado, que está faltando no currículo da educação médica.
Aqui, fornecemos o protocolo detalhado para identificar genes expressos diferencialmente (DEGs) entre o cholangiocarcinoma (CHOL) e os tecidos normais através de limma, DESeq2 e EdgeR, respectivamente, e os resultados são mostrados em parcelas vulcânicas e diagramas de Venn. Os três protocolos de limma, DESeq2 e EdgeR são semelhantes, mas têm etapas diferentes entre os processos da análise. Por exemplo, um modelo linear é usado para estatísticas em limma, enquanto a distribuição binomial negativa é usada em edgeR e DESeq2. Além disso, os dados de contagem de RNA-seq normalizados são necessários para EdgeR e limma, mas não é necessário para o DESeq2.
Aqui, fornecemos um protocolo detalhado para três métodos de análise diferencial: limma, EdgeR e DESeq2. Os resultados dos três métodos são parcialmente sobrepostos. Todos os três métodos têm suas próprias vantagens, e a escolha do método depende apenas dos dados.
O RNA-sequenciamento (RNA-seq) é uma das tecnologias mais utilizadas em transcriptômicas com muitas vantagens (por exemplo, reprodutibilidade de dados elevados), e aumentou drasticamente nossa compreensão das funções e dinâmicas dos processos biológicos complexos1,2. A identificação de transcrições aberratas em diferentes contextos biológicos, também conhecidos como genes expressos diferencialmente (DEGs), é um passo fundamental na análise do RNA-seq. O RNA-seq torna possível obter uma compreensão profunda dos mecanismos moleculares relacionados à patogênese e funções biológicas. Portanto, a análise diferencial tem sido considerada valiosa para diagnósticos, prognósticos e terapêuticas de tumores3,4,5. Atualmente, mais pacotes de R/Bioconductor de código aberto foram desenvolvidos para análise de expressão diferencial RNA-seq, particularmente limma, DESeq2 e EdgeR1,6,7. No entanto, a análise diferencial requer certas habilidades com linguagem R e a capacidade de escolher o método adequado, que está faltando no currículo da educação médica.
Neste protocolo, com base nos dados da contagem de RNA-seq de cholangiocarcinoma (CHOL) extraídos do Atlas do Genoma do Câncer (TCGA), três dos métodos mais conhecidos (limma8, EdgeR9 e DESeq210) foram realizados, respectivamente, pelo programa R11 para identificar os DEGs entre CHOL e tecidos normais. Os três protocolos de limma, EdgeR e DESeq2 são semelhantes, mas têm etapas diferentes entre os processos de análise. Por exemplo, os dados de contagem de RNA-seq normalizados são necessários para EdgeR e limma8,9, enquanto o DESeq2 usa suas próprias discrepâncias de biblioteca para corrigir dados em vez de normalização10. Além disso, edgeR é especificamente adequado para dados RNA-seq, enquanto o limma é usado para microarrays e RNA-seq. Um modelo linear é adotado pela limma para avaliar os DEGs12,enquanto as estatísticas em edgeR são baseadas nas distribuições binomiais negativas, incluindo estimativa empírica de Bayes, testes exatos, modelos lineares generalizados e testes de quase-probabilidade9.
Em resumo, fornecemos os protocolos detalhados da análise de expressão diferencial RNA-seq utilizando limma, DESeq2 e EdgeR, respectivamente. Ao se referir a este artigo, os usuários podem facilmente realizar a análise diferencial do RNA-seq e escolher os métodos de análise diferencial adequados para seus dados.
Transcrições abundantes de aberrate em cânceres podem ser facilmente identificadas pela análise diferencial RNA-seq5. No entanto, a aplicação da análise de expressão diferencial RNA-seq é muitas vezes restrita, pois requer certas habilidades com linguagem R e a capacidade de escolher métodos apropriados. Para resolver esse problema, fornecemos uma introdução detalhada aos três métodos mais conhecidos (limma, EdgeR e DESeq2) e tutoriais para a aplicação da análise de expressão dif…
The authors have nothing to disclose.
Este trabalho foi apoiado pela National Natural Science Foundation of China (Grant No. 81860276) e key Special Fund Projects of National Key P&D Program (Grant No. 2018YFC1003200).