High-Throughput Transcriptome Analysis for Investigating Host-Pathogen Interactions

Andr&#233; Nicolau Aquime Gon&#231;alves; Vanessa Escolano Maso; &#205;caro Maia Santos de Castro; Amanda Pereira Vasconcelos; Rodrigo Luiz Tomio Ogava; Helder I Nakaya

doi:10.3791/62324

JoVE Journal > Immunology and Infection

Please note that all translations are automatically generated. Click here for the English version.

Immunology and Infection

Análisis de transcriptoma de alto rendimiento para investigar las interacciones huésped-patógeno

Published: March 05, 2022

doi:

10.3791/62324

André Nicolau Aquime Gonçalves², Vanessa Escolano Maso, Ícaro Maia Santos de Castro³, Amanda Pereira Vasconcelos, Rodrigo Luiz Tomio Ogava³, Helder I Nakaya^3,4

¹Laboratory of Pathology of Infectious Diseases, Department of Pathology, Medical School,University of São Paulo, ²Scientific Platform Pasteur USP, ³Department of Clinical and Toxicological Analyses, School of Pharmaceutical Sciences,University of São Paulo, ⁴Hospital Israelita Albert Einstein

Summary

El protocolo presentado aquí describe una tubería completa para analizar los datos del transcriptoma de secuenciación de ARN desde lecturas sin procesar hasta análisis funcionales, incluidos los pasos de control de calidad y preprocesamiento para enfoques analíticos estadísticos avanzados.

Abstract

Los patógenos pueden causar una amplia variedad de enfermedades infecciosas. Los procesos biológicos inducidos por el huésped en respuesta a la infección determinan la gravedad de la enfermedad. Para estudiar tales procesos, los investigadores pueden utilizar técnicas de secuenciación de alto rendimiento (RNA-seq) que miden los cambios dinámicos del transcriptoma del huésped en diferentes etapas de la infección, los resultados clínicos o la gravedad de la enfermedad. Esta investigación puede conducir a una mejor comprensión de las enfermedades, así como a descubrir posibles objetivos farmacológicos y tratamientos. El protocolo presentado aquí describe una tubería completa para analizar los datos de secuenciación de ARN desde lecturas sin procesar hasta análisis funcionales. La tubería se divide en cinco pasos: (1) control de calidad de los datos; (2) mapeo y anotación de genes; (3) análisis estadístico para identificar genes expresados diferencialmente y genes coexpresados; (4) determinación del grado molecular de la perturbación de las muestras; y (5) análisis funcional. El paso 1 elimina los artefactos técnicos que pueden afectar a la calidad de los análisis posteriores. En el paso 2, los genes se mapean y anotan de acuerdo con los protocolos de biblioteca estándar. El análisis estadístico en el paso 3 identifica genes que se expresan diferencialmente o coexpresan en muestras infectadas, en comparación con las no infectadas. La variabilidad de la muestra y la presencia de posibles valores biológicos atípicos se verifican utilizando el enfoque de grado molecular de perturbación en el paso 4. Finalmente, el análisis funcional en el paso 5 revela las vías asociadas con el fenotipo de la enfermedad. La tubería presentada tiene como objetivo apoyar a los investigadores a través del análisis de datos de ARN-seq de estudios de interacción huésped-patógeno e impulsar futuros experimentos in vitro o in vivo , que son esenciales para comprender el mecanismo molecular de las infecciones.

Introduction

Los arbovirus, como el dengue, la fiebre amarilla, el chikungunya y el zika, se han asociado ampliamente con varios brotes endémicos y se han convertido en uno de los principales patógenos responsables de infectar a los humanos en las últimas ^décadas1,2. Las personas infectadas con el virus chikungunya (CHIKV) a menudo tienen fiebre, dolor de cabeza, erupción cutánea, poliartralgia y artritis3,4,5. Los virus pueden subvertir la expresión génica de la célula e influir en varias vías de señalización del huésped. Recientemente, los estudios de transcriptoma sanguíneo utilizaron RNA-seq para identificar los genes expresados diferencialmente (DEG) asociados con la infección aguda por CHIKV en comparación con la convalecencia6 o los controles ^sanos7. Los niños infectados con CHIKV tenían genes regulados al alza que están involucrados en la inmunidad innata, como los relacionados con los sensores celulares para el ARN viral, la señalización JAK/STAT y las vías de señalización del receptor tipo ^toll6. Los adultos infectados agudamente con CHIKV también mostraron inducción de genes relacionados con la inmunidad innata, como los relacionados con los monocitos y la activación de las células dendríticas, y con las respuestas ^antivirales7. Las vías de señalización enriquecidas con genes regulados a la baja incluyeron las relacionadas con la inmunidad adaptativa, como la activación y diferenciación y enriquecimiento de células T en células T y ^B7.

Se pueden utilizar varios métodos para analizar los datos del transcriptoma de los genes huésped y patógeno. A menudo, la preparación de la biblioteca RNA-seq comienza con el enriquecimiento de transcripciones maduras de poli-A. Este paso elimina la mayor parte del ARN ribosómico (ARNr) y, en algunos de los casos, los ARN virales/bacterianos. Sin embargo, cuando la cuestión biológica involucra la detección de la transcripción del patógeno y el ARN se secuencia independientemente de la selección anterior, se podrían detectar muchas otras transcripciones diferentes mediante secuenciación. Por ejemplo, se ha demostrado que los ARNm subgenómicos son un factor importante para verificar la gravedad de las ^{enfermedades8}. Además, para ciertos virus como CHIKV y SARS-CoV-2, incluso las bibliotecas enriquecidas con poli-A generan lecturas virales que se pueden utilizar en análisis ^{posteriores9,10}. Cuando se centran en el análisis del transcriptoma del huésped, los investigadores pueden investigar la perturbación biológica a través de las muestras, identificar genes expresados diferencialmente y vías enriquecidas, y generar módulos de coexpresión7,11,12. Este protocolo destaca los análisis de transcriptomas de pacientes infectados por CHIKV e individuos sanos utilizando diferentes enfoques bioinformáticos (Figura 1A). Se utilizaron datos de un estudio publicado ^previamente7 que consta de 20 individuos sanos y 39 infectados agudamente por CHIKV para generar los resultados representativos.

Protocol

Las muestras utilizadas en este protocolo fueron aprobadas por los comités de ética tanto del Departamento de Microbiología del Instituto de Ciencias Biomédicas de la Universidad de São Paulo como de la Universidad Federal de Sergipe (Protocolos: 54937216.5.0000.5467 y 54835916.2.0000.5546, respectivamente). 1. Instalación de escritorio de Docker NOTA: Los pasos para preparar el entorno de Docker son diferentes entre los sistemas operativos (SO)…

Representative Results

El entorno informático para los análisis de transcriptomas se creó y configuró en la plataforma Docker. Este enfoque permite a los usuarios principiantes de Linux utilizar sistemas de terminal Linux sin conocimientos de gestión a priori. La plataforma Docker utiliza los recursos del sistema operativo host para crear un contenedor de servicios que incluye herramientas de usuarios específicos (Figura 1B). Se creó un contenedor basado en la distribución Linux OS Ubuntu 20.04 y se config…

Discussion

La preparación de las bibliotecas de secuenciación es un paso crucial para responder a las preguntas biológicas de la mejor manera posible. El tipo de transcripciones de interés del estudio guiará qué tipo de biblioteca de secuenciación se elegirá e impulsará los análisis bioinformáticos. Por ejemplo, a partir de la secuenciación de un patógeno y la interacción del huésped, de acuerdo con el tipo de secuenciación, es posible identificar secuencias de ambos o solo de las transcripciones del huésped.

<…

Disclosures

The authors have nothing to disclose.

Acknowledgements

HN es financiado por la FAPESP (números de subvención: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 y 2013/08216-2) y CNPq (313662/2017-7).

Estamos particularmente agradecidos a las siguientes becas para becarios: ANAG (Proceso FAPESP 2019/13880-5), VEM (Proceso FAPESP 2019/16418-0), IMSC (Proceso FAPESP 2020/05284-0), APV (Proceso FAPESP 2019/27146-1) y, RLTO (Proceso CNPq 134204/2019-0).

Materials

CEMiTool	Computational Systems Biology Laboratory	1.12.2	Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs.
EdgeR	Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au])	3.30.3	Differential expression analysis of RNA-seq expression profiles with biological replication
EnhancedVolcano	Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk])	1.6.0	Publication-ready volcano plots with enhanced colouring and labeling
FastQC	Babraham Bioinformatics	0.11.9	Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing
FeatureCounts	Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research	2.0.0	Assign mapped sequencing reads to specified genomic features
MDP	Computational Systems Biology Laboratory	1.8.0	Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls
R	R Core Group	4.0.3	Programming language and free software environment for statistical computing and graphics
STAR	Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research	2.7.6a	Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments
Bowtie2	Johns Hopkins University	2.4.2	Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences
Trimmomatic	THE USADEL LAB	0.39	Trimming adapter sequence tasks for Illumina paired-end and single-ended data
Get Docker	Docker	20.10.2	Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/)
WSL2-Kernel	Windows	NA	https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel
Get Docker Linux	Docker	NA	https://docs.docker.com/engine/install/ubuntu/
Docker Linux Repository	Docker	NA	https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository
MDP Website	Computational Systems Biology Laboratory	NA	https://mdp.sysbio.tools
Enrichr Website	MaayanLab	NA	https://maayanlab.cloud/Enrichr/
webCEMiTool	Computational Systems Biology Laboratory	NA	https://cemitool.sysbio.tools/
gProfiler	Bioinformatics, Algorithmics and Data Mining Group	NA	https://biit.cs.ut.ee/gprofiler/gost
goseq	Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk])	NA	http://bioconductor.org/packages/release/bioc/html/goseq.html
SRA NCBI study	NCBI	NA	https://www.ncbi.nlm.nih.gov/bioproject/PRJNA507472/

References

Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
Hua, C., Combe, B. Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017).
Suhrbier, A., Jaffar-Bandjee, M. -. C., Gasque, P. Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012).
Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, (2005).
Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Aquime Gonçalves, A. N., Escolano Maso, V., Maia Santos de Castro, Í., Pereira Vasconcelos, A., Tomio Ogava, R. L., I Nakaya, H. High-Throughput Transcriptome Analysis for Investigating Host-Pathogen Interactions. J. Vis. Exp. (181), e62324, doi:10.3791/62324 (2022).

Análisis de transcriptoma de alto rendimiento para investigar las interacciones huésped-patógeno

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

Análisis de transcriptoma de alto rendimiento para investigar las interacciones huésped-patógeno

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below