Een gedetailleerd protocol van differentiële expressie analysemethoden voor RNA-sequencing werd verstrekt: limma, EdgeR, DESeq2.
RNA-sequencing (RNA-seq) is een van de meest gebruikte technologieën in transcriptomics omdat het de relatie tussen de genetische verandering en complexe biologische processen kan onthullen en grote waarde heeft in diagnostiek, prognose en therapieën van tumoren. Differentiële analyse van RNA-seq-gegevens is cruciaal om afwijkende transcripties te identificeren, en limma, EdgeR en DESeq2 zijn efficiënte tools voor differentiële analyse. RNA-seq differentiële analyse vereist echter bepaalde vaardigheden met R-taal en het vermogen om een geschikte methode te kiezen, die ontbreekt in het curriculum van medisch onderwijs.
Hierin bieden we het gedetailleerde protocol om differentieel uitgedrukte genen (DEG’s) tussen cholangiocarcinoom (CHOL) en normale weefsels te identificeren via respectievelijk limma, DESeq2 en EdgeR, en de resultaten worden weergegeven in vulkaanpercelen en Venn-diagrammen. De drie protocollen van limma, DESeq2 en EdgeR zijn vergelijkbaar, maar hebben verschillende stappen tussen de processen van de analyse. Een lineair model wordt bijvoorbeeld gebruikt voor statistieken in limma, terwijl de negatieve binomiale verdeling wordt gebruikt in edgeR en DESeq2. Bovendien zijn de genormaliseerde RNA-seq-tellingsgegevens noodzakelijk voor EdgeR en limma, maar niet nodig voor DESeq2.
Hier bieden we een gedetailleerd protocol voor drie differentiële analysemethoden: limma, EdgeR en DESeq2. De resultaten van de drie methoden overlappen elkaar gedeeltelijk. Alle drie de methoden hebben hun eigen voordelen en de keuze van de methode hangt alleen af van de gegevens.
RNA-sequencing (RNA-seq) is een van de meest gebruikte technologieën in transcriptomics met veel voordelen (bijv. hoge reproduceerbaarheid van gegevens) en heeft ons begrip van de functies en dynamiek van complexe biologische processen drastisch vergroot1,2. Identificatie van aberraattranscripties onder verschillende biologische context, die ook bekend staan als differentieel uitgedrukte genen (DEG’s), is een belangrijke stap in de RNA-seq-analyse. RNA-seq maakt het mogelijk om een diepgaand begrip te krijgen van pathogenese gerelateerde moleculaire mechanismen en biologische functies. Daarom is differentiële analyse als waardevol beschouwd voor diagnostiek, prognose en therapieën van tumoren3,4,5. Momenteel zijn er meer open-source R/Bioconductor-pakketten ontwikkeld voor RNA-seq differentiële expressieanalyse, met name limma, DESeq2 en EdgeR1,6,7. Differentiële analyse vereist echter bepaalde vaardigheden met R-taal en het vermogen om de juiste methode te kiezen, die ontbreekt in het curriculum van medisch onderwijs.
In dit protocol, gebaseerd op de cholangiocarcinoom (CHOL) RNA-seq telling gegevens geëxtraheerd uit The Cancer Genome Atlas (TCGA), drie van de meest bekende methoden (limma8, EdgeR9 en DESeq210) werden uitgevoerd, respectievelijk, door het R-programma11 om de DEG’s tussen CHOL en normale weefsels te identificeren. De drie protocollen van limma, EdgeR en DESeq2 zijn vergelijkbaar, maar hebben verschillende stappen tussen de processen van de analyse. De genormaliseerde RNA-seq-tellingsgegevens zijn bijvoorbeeld nodig voor EdgeR en limma8,9, terwijl DESeq2 zijn eigen bibliotheekverschillen gebruikt om gegevens te corrigeren in plaats van normaliseren10. Verder is edgeR specifiek geschikt voor RNA-seq data, terwijl de limma wordt gebruikt voor microarrays en RNA-seq. Limma keurt een lineair model goed om de DEG ‘s12te beoordelen , terwijl de statistieken in edgeR zijn gebaseerd op de negatieve binomiale verdelingen, waaronder empirische Bayes-schatting, exacte tests, gealdaliseerde lineaire modellen en quasi-waarschijnlijkheidstests9.
Samengevat bieden we de gedetailleerde protocollen van RNA-seq differentiële expressieanalyse met behulp van respectievelijk limma, DESeq2 en EdgeR. Door naar dit artikel te verwijzen, kunnen gebruikers eenvoudig de RNA-seq differentiële analyse uitvoeren en de juiste differentiële analysemethoden voor hun gegevens kiezen.
Overvloedige afwijkende transcripties bij kankers kunnen gemakkelijk worden geïdentificeerd door RNA-seq differentiële analyse5. De toepassing van RNA-seq differentiële expressieanalyse is echter vaak beperkt omdat het bepaalde vaardigheden met R-taal vereist en het vermogen om geschikte methoden te kiezen. Om dit probleem aan te pakken, bieden we een gedetailleerde inleiding tot de drie meest bekende methoden (limma, EdgeR en DESeq2) en zelfstudies voor het toepassen van de RNA-seq differenti?…
The authors have nothing to disclose.
Dit werk werd ondersteund door de National Natural Science Foundation of China (Grant No. 81860276) en Key Special Fund Projects of National Key R&D Program (Grant No. 2018YFC1003200).