Summary

Analyse du transcriptome à haut débit pour l’étude des interactions hôte-pathogène

Published: March 05, 2022
doi:

Summary

Le protocole présenté ici décrit un pipeline complet pour analyser les données de transcriptome de séquençage de l’ARN, des lectures brutes à l’analyse fonctionnelle, y compris le contrôle de la qualité et les étapes de prétraitement aux approches analytiques statistiques avancées.

Abstract

Les agents pathogènes peuvent causer une grande variété de maladies infectieuses. Les processus biologiques induits par l’hôte en réponse à l’infection déterminent la gravité de la maladie. Pour étudier de tels processus, les chercheurs peuvent utiliser des techniques de séquençage à haut débit (séquençage de l’ARN) qui mesurent les changements dynamiques du transcriptome de l’hôte à différents stades de l’infection, des résultats cliniques ou de la gravité de la maladie. Cette enquête peut mener à une meilleure compréhension des maladies, ainsi qu’à la découverte de cibles médicamenteuses et de traitements potentiels. Le protocole présenté ici décrit un pipeline complet pour analyser les données de séquençage de l’ARN, des lectures brutes à l’analyse fonctionnelle. Le pipeline est divisé en cinq étapes : (1) contrôle de la qualité des données; 2° la cartographie et l’annotation des gènes; 3° l’analyse statistique pour identifier les gènes exprimés différemment et les gènes co-exprimés; 4° la détermination du degré moléculaire de la perturbation des échantillons; et (5) l’analyse fonctionnelle. L’étape 1 élimine les artefacts techniques qui peuvent avoir une incidence sur la qualité des analyses en aval. À l’étape 2, les gènes sont cartographiés et annotés selon les protocoles standard de la bibliothèque. L’analyse statistique de l’étape 3 identifie les gènes qui sont exprimés différemment ou co-exprimés dans les échantillons infectés, par rapport aux échantillons non infectés. La variabilité de l’échantillon et la présence de valeurs aberrantes biologiques potentielles sont vérifiées à l’aide de l’approche du degré moléculaire de perturbation à l’étape 4. Enfin, l’analyse fonctionnelle de l’étape 5 révèle les voies associées au phénotype de la maladie. Le pipeline présenté vise à soutenir les chercheurs à travers l’analyse des données ARN-seq à partir d’études d’interaction hôte-pathogène et à conduire de futures expériences in vitro ou in vivo , qui sont essentielles pour comprendre le mécanisme moléculaire des infections.

Introduction

Les arbovirus, tels que la dengue, la fièvre jaune, le chikungunya et le zika, ont été largement associés à plusieurs épidémies endémiques et sont devenus l’un des principaux agents pathogènes responsables de l’infection des humains au cours des dernières décennies1,2. Les personnes infectées par le virus chikungunya (CHIKV) ont souvent de la fièvre, des maux de tête, des éruptions cutanées, une polyarthralgie et de l’arthrite3,4,5. Les virus peuvent subvertir l’expression génique de la cellule et influencer diverses voies de signalisation de l’hôte. Récemment, des études sur le transcriptome sanguin ont utilisé l’ARN-seq pour identifier les gènes exprimés différentiellement (DEG) associés à l’infection aiguë par le CHIKV par rapport à la convalescence6 ou aux témoins sains7. Les enfants infectés par le CHIKV avaient des gènes régulés à la hausse qui sont impliqués dans l’immunité innée, tels que ceux liés aux capteurs cellulaires pour l’ARN viral, à la signalisation JAK / STAT et aux voies de signalisation des récepteurs de type toll6. Les adultes gravement infectés par le CHIKV ont également montré l’induction de gènes liés à l’immunité innée, tels que ceux liés aux monocytes et à l’activation des cellules dendritiques, et aux réponses antivirales7. Les voies de signalisation enrichies en gènes régulés à la baisse comprenaient celles liées à l’immunité adaptative, telles que l’activation, la différenciation et l’enrichissement des lymphocytes T et B7.

Plusieurs méthodes peuvent être utilisées pour analyser les données du transcriptome des gènes hôtes et pathogènes. Souvent, la préparation de la bibliothèque RNA-seq commence par l’enrichissement des transcriptions poly-A matures. Cette étape élimine la plupart de l’ARN ribosomique (ARNr) et, dans certains cas, des ARN viraux/bactériens. Cependant, lorsque la question biologique implique la détection du transcrit pathogène et que l’ARN est séquencé indépendamment de la sélection précédente, de nombreux autres transcrits différents pourraient être détectés par séquençage. Par exemple, les ARNm sous-économiques se sont révélés être un facteur important pour vérifier la gravité des maladies8. De plus, pour certains virus tels que le CHIKV et le SARS-CoV-2, même les bibliothèques enrichies en poly-A génèrent des lectures virales qui peuvent être utilisées dans les analyses en aval9,10. Lorsqu’ils se concentrent sur l’analyse du transcriptome de l’hôte, les chercheurs peuvent étudier la perturbation biologique à travers les échantillons, identifier les gènes exprimés différemment et les voies enrichies, et générer des modules de co-expression7,11,12. Ce protocole met en évidence les analyses de transcriptome de patients infectés par le CHIKV et de personnes en bonne santé utilisant différentes approches bioinformatiques (Figure 1A). Les données d’une étude publiée précédemment7 portant sur 20 personnes en bonne santé et 39 personnes gravement infectées par le CHIKV ont été utilisées pour générer les résultats représentatifs.

Protocol

Les échantillons utilisés dans ce protocole ont été approuvés par les comités d’éthique du Département de microbiologie de l’Institut des sciences biomédicales de l’Université de São Paulo et de l’Université fédérale de Sergipe (Protocoles: 54937216.5.0000.5467 et 54835916.2.0000.5546, respectivement). 1. Installation du bureau Docker REMARQUE : Les étapes de préparation de l’environnement Docker sont différentes selon les s…

Representative Results

L’environnement informatique pour les analyses de transcriptome a été créé et configuré sur la plate-forme Docker. Cette approche permet aux utilisateurs Linux débutants d’utiliser des systèmes de terminaux Linux sans connaissances a priori en gestion. La plate-forme Docker utilise les ressources du système d’exploitation hôte pour créer un conteneur de services qui inclut des outils d’utilisateurs spécifiques (Figure 1B). Un conteneur basé sur la distribution Linux OS Ub…

Discussion

La préparation des bibliothèques de séquençage est une étape cruciale pour répondre aux questions biologiques de la meilleure façon possible. Le type de transcriptions d’intérêt de l’étude guidera quel type de bibliothèque de séquençage sera choisi et conduira à des analyses bioinformatiques. Par exemple, à partir du séquençage d’un agent pathogène et de l’interaction hôte, selon le type de séquençage, il est possible d’identifier des séquences à partir des deux ou simplement à partir de…

Disclosures

The authors have nothing to disclose.

Acknowledgements

HN est financé par faPESP (numéros de subvention: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 et 2013/08216-2) et CNPq (313662/2017-7).

Nous sommes particulièrement reconnaissants aux subventions suivantes pour les boursiers : ANAG (Processus FAPESP 2019/13880-5), VEM (Processus FAPESP 2019/16418-0), IMSC (Processus FAPESP 2020/05284-0), APV (Processus FAPESP 2019/27146-1) et RLTO (Processus CNPq 134204/2019-0).

Materials

CEMiTool Computational Systems Biology Laboratory 1.12.2 Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs.
EdgeR Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) 3.30.3 Differential expression analysis of RNA-seq expression profiles with biological replication
EnhancedVolcano Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) 1.6.0 Publication-ready volcano plots with enhanced colouring and labeling
FastQC Babraham Bioinformatics 0.11.9 Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing
FeatureCounts Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.0.0 Assign mapped sequencing reads to specified genomic features
MDP Computational Systems Biology Laboratory 1.8.0 Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls
R R Core Group 4.0.3 Programming language and free software environment for statistical computing and graphics
STAR Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.7.6a Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments
Bowtie2 Johns Hopkins University 2.4.2 Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences
Trimmomatic THE USADEL LAB 0.39 Trimming adapter sequence tasks for Illumina paired-end and single-ended data
Get Docker Docker 20.10.2 Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/)
WSL2-Kernel Windows NA https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel
Get Docker Linux Docker NA https://docs.docker.com/engine/install/ubuntu/
Docker Linux Repository Docker NA https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository
MDP Website Computational Systems Biology Laboratory NA https://mdp.sysbio.tools
Enrichr Website MaayanLab NA https://maayanlab.cloud/Enrichr/
webCEMiTool Computational Systems Biology Laboratory NA https://cemitool.sysbio.tools/
gProfiler Bioinformatics, Algorithmics and Data Mining Group NA https://biit.cs.ut.ee/gprofiler/gost
goseq Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) NA http://bioconductor.org/packages/release/bioc/html/goseq.html
SRA NCBI study NCBI NA https://www.ncbi.nlm.nih.gov/bioproject/PRJNA507472/

References

  1. Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
  2. Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
  3. Hua, C., Combe, B. Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017).
  4. Suhrbier, A., Jaffar-Bandjee, M. -. C., Gasque, P. Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012).
  5. Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
  6. Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
  7. Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
  8. Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
  9. Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
  10. Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
  11. Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
  12. Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
  13. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
  14. Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
  15. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, (2005).
  16. Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
  17. Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
  18. de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
  19. Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
  20. Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
  21. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  22. Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
  23. Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).

Play Video

Cite This Article
Aquime Gonçalves, A. N., Escolano Maso, V., Maia Santos de Castro, Í., Pereira Vasconcelos, A., Tomio Ogava, R. L., I Nakaya, H. High-Throughput Transcriptome Analysis for Investigating Host-Pathogen Interactions. J. Vis. Exp. (181), e62324, doi:10.3791/62324 (2022).

View Video