È stato fornito un protocollo dettagliato di metodi di analisi dell’espressione differenziale per il sequenziamento dell’RNA: limma, EdgeR, DESeq2.
Il sequenziamento dell’RNA (RNA-seq) è una delle tecnologie più utilizzate nella trascrittomica in quanto può rivelare la relazione tra l’alterazione genetica e processi biologici complessi e ha un grande valore nella diagnostica, nella prognostica e nella terapia dei tumori. L’analisi differenziale dei dati RNA-seq è fondamentale per identificare trascrizioni aberranti e limma, EdgeR e DESeq2 sono strumenti efficienti per l’analisi differenziale. Tuttavia, l’analisi differenziale RNA-seq richiede determinate abilità con il linguaggio R e la capacità di scegliere un metodo appropriato, che manca nel curriculum di educazione medica.
Qui forniamo il protocollo dettagliato per identificare i geni differenzialmente espressi (DEG) tra il colangiocarcinoma (CHOL) e i tessuti normali attraverso limma, DESeq2 e EdgeR, rispettivamente, e i risultati sono mostrati in grafici vulcanici e diagrammi di Venn. I tre protocolli di limma, DESeq2 e EdgeR sono simili ma hanno passaggi diversi tra i processi di analisi. Ad esempio, un modello lineare viene utilizzato per le statistiche in limma, mentre la distribuzione binomiale negativa viene utilizzata in edgeR e DESeq2. Inoltre, i dati normalizzati del conteggio RNA-seq sono necessari per EdgeR e limma, ma non sono necessari per DESeq2.
Qui forniamo un protocollo dettagliato per tre metodi di analisi differenziale: limma, EdgeR e DESeq2. I risultati dei tre metodi sono in parte sovrapposti. Tutti e tre i metodi hanno i loro vantaggi e la scelta del metodo dipende solo dai dati.
Il sequenziamento dell’RNA (RNA-seq) è una delle tecnologie più utilizzate nella trascrittomica con molti vantaggi (ad esempio, un’elevata riproducibilità dei dati) e ha notevolmente aumentato la nostra comprensione delle funzioni e delle dinamiche di processi biologici complessi1,2. L’identificazione di trascritti ablati in diversi contesti biologici, noti anche come geni differenzialmente espressi (DEG), è un passo chiave nell’analisi RNA-seq. RNA-seq consente di ottenere una profonda comprensione dei meccanismi molecolari e delle funzioni biologiche correlate alla patogenesi. Pertanto, l’analisi differenziale è stata considerata preziosa per la diagnostica, la prognostica e la terapia dei tumori3,4,5. Attualmente, sono stati sviluppati più pacchetti R/Bioconductor open source per l’analisi dell’espressione differenziale RNA-seq, in particolare limma, DESeq2 e EdgeR1,6,7. Tuttavia, l’analisi differenziale richiede alcune abilità con il linguaggio R e la capacità di scegliere il metodo appropriato, che manca nel curriculum di educazione medica.
In questo protocollo, basato sui dati di conteggio RNA-seq del colangiocarcinoma (CHOL) estratti da The Cancer Genome Atlas (TCGA), tre dei metodi più noti (limma8,EdgeR9 e DESeq210)sono stati effettuati, rispettivamente, dal programma R11 per identificare i DEG tra CHOL e tessuti normali. I tre protocolli di limma, EdgeR e DESeq2 sono simili ma hanno passaggi diversi tra i processi di analisi. Ad esempio, i dati normalizzati del conteggio RNA-seq sono necessari per EdgeR e limma8,9, mentre DESeq2 utilizza le proprie discrepanze di libreria per correggere i dati invece della normalizzazione10. Inoltre, edgeR è specificamente adatto per i dati RNA-seq, mentre il limma viene utilizzato per microarray e RNA-seq. Un modello lineare è adottato da limma per valutare i DEG12, mentre le statistiche in edgeR si basano sulle distribuzioni binomiali negative, tra cui stima empirica di Bayes, test esatti, modelli lineari generalizzati e test di quasi-verosimiglianza9.
In sintesi, forniamo i protocolli dettagliati dell’analisi dell’espressione differenziale RNA-seq utilizzando rispettivamente limma, DESeq2 e EdgeR. Facendo riferimento a questo articolo, gli utenti possono facilmente eseguire l’analisi differenziale RNA-seq e scegliere i metodi di analisi differenziale appropriati per i loro dati.
Abbondanti trascrizioni ablate nei tumori possono essere facilmente identificate dall’analisi differenziale RNA-seq5. Tuttavia, l’applicazione dell’analisi dell’espressione differenziale RNA-seq è spesso limitata in quanto richiede determinate abilità con linguaggio R e la capacità di scegliere metodi appropriati. Per affrontare questo problema, forniamo un’introduzione dettagliata ai tre metodi più noti (limma, EdgeR e DESeq2) e tutorial per l’applicazione dell’analisi dell’espressione differ…
The authors have nothing to disclose.
Questo lavoro è stato sostenuto dalla National Natural Science Foundation of China (Grant No. 81860276) e dai Key Special Fund Projects del National Key R&D Program (Grant No. 2018YFC1003200).