Performing Data Mining And Integrative Analysis Of Biomarker in Breast Cancer Using Multiple Publicly Accessible Databases

Min-na Chen; De Zeng; Zhuo-qun Zheng; Zheng Li; Jian-le Wu; Jun-yu Jin; He-jia Wang; Cui-zhen Huang; Hao-yu Lin

doi:10.3791/59238

JoVE Journal > Cancer Research

Please note that all translations are automatically generated. Click here for the English version.

Cancer Research

Realizar la minería de datos y análisis integrativos de biomarcadores en el cáncer de mama utilizando múltiples bases de datos accesibles públicamente

Published: May 17, 2019

doi:

10.3791/59238

Min-na Chen, De Zeng, Zhuo-qun Zheng, Zheng Li, Jian-le Wu, Jun-yu Jin, He-jia Wang, Cui-zhen Huang, Hao-yu Lin

¹Department of Thyroid and Breast Surgery,First Affiliated Hospital of Shantou University Medical College, ²Department of Medical Oncology,Cancer Hospital of Shantou University Medical College, ³Shantou University Medical College

Summary

Aquí, presentamos un protocolo para explorar el biomarcador y el predictor de supervivencia del cáncer de mama basado en el análisis integral de conjuntos de datos clínicos agrupados derivados de una variedad de bases de datos de acceso público, utilizando la estrategia de expresión, correlación y Análisis de supervivencia paso a paso.

Abstract

En los últimos años, las bases de datos emergentes fueron diseñadas para reducir las barreras para acercarse a los intrincados datasets genómicos del cáncer, facilitando así a los investigadores el análisis e interpretación de genes, muestras y datos clínicos a través de diferentes tipos de cáncer. En este documento, describimos un procedimiento práctico de operación, tomando ID1 (inhibidor de proteínas de unión al ADN 1) como ejemplo, para caracterizar los patrones de expresión de los predictores de biomarcadores y de supervivencia del cáncer de mama basado en conjuntos de datos clínicos agrupados derivados de bases de datos accesibles en línea, incluyendo ONCOMINE, bcGenExMiner v 4.0 (cáncer de mama-expresión genética v 4.0), GOBO (resultados basados en la expresión génica para el cáncer de mama en línea), HPA (el Atlas de proteína humana), y el trazador de Kaplan-Meier. El análisis comenzó con la consulta del patrón de expresión del gen de interés (p. ej., ID1) en muestras cancerosas frente a muestras normales. Luego, se realizó el análisis de correlación entre las características ID1 y clinicopatológica en el cáncer de mama. A continuación, los perfiles de expresión de ID1 se estratificaron según diferentes subgrupos. Finalmente, se analizó la asociación entre la expresión ID1 y el resultado de supervivencia. El procedimiento de operación simplifica el concepto para integrar tipos de datos multidimensionales a nivel genético a partir de diferentes bases de datos y probar hipótesis sobre la recurrencia y el contexto genómico de los eventos de alteración génica en el cáncer de mama. Este método puede mejorar la credibilidad y la representatividad de las conclusiones, de este modo, presentar la perspectiva informativa sobre un gen de interés.

Introduction

El cáncer de mama es una enfermedad heterogénea con diversas estrategias de pronóstico y tratamiento en diferentes subtipos moleculares, en los que la patogénesis y el desarrollo se asocian probablemente con mecanismos moleculares dispares de¹^,² ^, ³. sin embargo, la identificación de un objetivo terapéutico suele tardar años, o incluso décadas, desde el descubrimiento inicial en la investigación básica hasta el uso clínico⁴. La amplia aplicación del genoma de la tecnología de secuenciación de alto rendimiento para el genoma del cáncer ha avanzado mucho en el proceso de búsqueda de biomarcadores valiosos o objetivos terapéuticos ⁵.

La abrumadora cantidad de datos de genómica del cáncer generados a partir de las plataformas de genómica de cáncer a gran escala, como el ICGC (Consorcio Internacional del genoma del cáncer) y TCGA (el Atlas del genoma del cáncer), plantea un gran desafío para que los investigadores realicen datos exploración, integración y análisis, especialmente para usuarios que carecen de una formación intensiva en informática y computación⁶^,⁷^,⁸^,⁹^,¹⁰. En los últimos años, las bases de datos emergentes, (por ejemplo, ONCOMINE, bcGenExMiner v 4.0, y el trazador de Kaplan-Meier, etc.) fueron diseñados y desarrollados para bajar la barra para acercarse a los intrincados datasets genómicos del cáncer, facilitando así a los investigadores para analizar y interpretar los genes, las muestras y los datos clínicos en varios tipos de cáncer¹¹. El objetivo de este protocolo es describir una estrategia de investigación que se integró con múltiples niveles de información génica de una serie de bases de datos de acceso abierto, que han sido ampliamente reconocidas por un gran número de investigadores, para identificar los posibles biomarcadores y factores pronósticos para el cáncer de mama.

La base de datos ONCOMINE es una plataforma de minería de datos basada en la web con información de micromatrices de cáncer y está diseñada para facilitar el descubrimiento de nuevos biomarcadores y objetivos terapéuticos¹¹. Actualmente, hay más de 48 millones mediciones de expresión génica de 65 datasets de expresión génica en esta base de datos¹¹^,¹². El bcGenExMiner v 4.0 (una herramienta gratuita para la institución sin fines de lucro), también llamado cáncer de mama Gene-Expression Miner, es una aplicación basada en la web fácil de usar que comprende los resultados de microarrays de ADN de 3.414 pacientes de cáncer de mama recuperados y 1.209 experimentaron un evento peyorativo¹³. Está diseñado para mejorar el rendimiento del análisis de pronósticos genéticos con software estadístico R y paquetes.

El GOBO es una herramienta en línea multifuncional y fácil de usar con información de microarrays (p. ej., Affymetrix U133A) de un conjunto de líneas celulares de cáncer de mama de 51 muestras y un conjunto de datos de tumores mamarios de 1881 muestras, que permite una amplia gama de análisis¹⁴. Hay una variedad de aplicaciones disponibles en la base de datos GOBO, que incluyen el análisis rápido de los perfiles de expresión génica en diferentes subtipos moleculares de tumores de mama y líneas celulares, cribado de genes Co-expresados para la creación de metagenos potenciales, y Análisis de correlación entre el resultado y los niveles de expresión génica de genes individuales, conjuntos de genes o firmas genéticas en los datos del cáncer de mama¹⁵.

El Atlas de proteínas humanas es un programa de acceso abierto diseñado para que los científicos exploren el proteoma humano, que ya ha contribuido a un gran número de publicaciones en el campo de la biología humana y la enfermedad. El Atlas de proteínas humanas es reconocido como un recurso básico europeo para la comunidad de Ciencias de la vida¹⁶^,¹⁷.

El trazador Kaplan Meier es una herramienta en línea que integra la expresión génica y los datos clínicos simultáneamente que permite la evaluación del efecto pronóstico de 54.675 genes basados en 10.461 muestras de cáncer, que incluyen 1.065 gástrico, 2.437 pulmón, 1.816 ovario y 5.143 pacientes con cáncer de mama con un seguimiento medio de 33/49/40/69 meses¹⁸. La información de la expresión génica, la supervivencia sin recidiva (RFS) y la supervivencia global (os) se puede descargar de esta base de datos¹⁹^,²⁰.

Aquí describimos un procedimiento práctico de uso de múltiples bases de datos accesibles públicamente para comparar, analizar y visualizar patrones de alteraciones en la expresión del gen de interés a través de múltiples estudios oncológicos, con el objetivo de resumir el perfiles de expresión, valores pronósticos y posibles funciones biológicas en el cáncer de mama. Por ejemplo, estudios recientes han indicado las propiedades oncogénicas de las proteínas ID en los tumores y se asociaron con rasgos malignos, incluyendo la transformación celular, la inmortalización, la proliferación mejorada y la metástasis²¹^, ²²^,²³. Sin embargo, cada miembro de la familia de ID desempeña distintos roles en diferentes tipos de tumores sólidos, y su papel en el cáncer de mama sigue siendo incierto²⁴. En estudios previos, explorados a través de este método, descubrimos que ID1 era un indicador pronóstico significativo en el cáncer de mama²⁵. Por lo tanto, el protocolo tomará ID1 como un ejemplo para introducir los métodos de minería de datos.

El análisis comienza por consultar el patrón de expresión del gen de interés en muestras cancerosas frente a muestras normales en ONCOMINE. Entonces, la correlación de la expresión de los genes de interés en el cáncer de mama se realizó utilizando el BC-GenExMiner v 4.0, GOBO, y ONCOMINE. A continuación, los perfiles de expresión de ID1 se estratificaron según diferentes subgrupos utilizando las tres bases de datos anteriores. Finalmente, la asociación entre la expresión ID1 y la supervivencia fuera fue analizada usando BC-GenExMiner v 4.0, el Atlas proteico humano, y el trazador de Kaplan-Meier. El procedimiento de operación se mostró como el diagrama de flujo en la figura 1.

Protocol

1. Análisis de patrones de expresión Vaya a la interfaz Web de ONCOMINE26. Obtenga los niveles de expresión relativos de gene ID1 en varios tipos de neoplasias malignas escribiendo ID1 en el cuadro de búsqueda. Seleccione tipo de análisis en el menú filtros primarios . A continuación, seleccione cáncer frente a análisis normal, cáncer de mama vs análisis no…

Representative Results

Un resultado representativo de la minería de datos y el análisis integrativo del biomarcador de cáncer de mama se realizó utilizando ID1, uno de los inhibidores de los miembros de la familia que fijen el ADN, que se han notificado en el estudio anterior 25. Como se demostró en la figura 2, se analizaron las diferencias de la expresión ID1 mRNA entre el tumor y los tejid…

Discussion

El análisis exhaustivo de las bases de datos públicas puede indicar la función subyacente del gen de interés y revelar el posible vínculo entre este gen y los parámetros clinicopatológicos en el cáncer específico²⁷^,³¹. La exploración y el análisis basados en una sola base de datos pueden proporcionar perspectivas limitadas o aisladas debido al potencial sesgo de selección, o en cierta medida, posiblemente debido a la variedad de calidad de los datos, …

Disclosures

The authors have nothing to disclose.

Acknowledgements

Esta obra fue apoyada en parte por la Fundación de Ciencias naturales de la provincia de Guangdong, China (no. 2018A030313562), el proyecto de reforma docente de la base de enseñanza clínica de Guangdong (núm. 2016JDB092), Fundación Nacional de Ciencias naturales de China (81600358), y proyecto de talento innovador juvenil de colegios y universidades en la provincia de Guangdong, China (NO. 2017KQNCX073)

Materials

A personal computer or computing device with an Internet browser with Javascript enabled	Microsoft	051690762553	We support and test the following browsers: Google Chrome, Firefox 3.0 and above, Safari, and Internet Explorer 9.0 and above
Adobe Flash player	Adobe Systems Inc.	It can be freely downloaded from http://get.adobe.com/flashplayer/.	This browser plug-in is required for visualizing networks on the network analysis tab.
Chrome Broswer	Google Inc.	It can be freely downloaded from https://www.google.cn/chrome/	This is necessary for viewing PDF files including the Pathology Reports and many of the downloadable files.
Java Runtime Environment	Oracle Corporation	It can be downloaded from http://www.java.com/getjava/.
Office 365 ProPlus for Faculty	Microsoft	2003BFFD8117EA68	This is necessary for viewing the Pathology Reports and for viewing many of the downloadable files.
Vectr Online	Vectr Labs Inc.	It can be freely used from https://vectr.com/new	This is necessary for visualizing and editing many of the downloadable files and pictures.

References

van 't Veer, L. J., et al. Gene expression profiling predicts clinical outcome of breast cancer. Nature. 415 (6871), 530-536 (2002).
Loi, S., et al. Definition of clinically distinct molecular subtypes in estrogen receptor-positive breast carcinomas through genomic grade. Journal of Clinical Oncology. 25 (10), 1239-1246 (2007).
Cancer Genome Atlas, N. Comprehensive molecular portraits of human breast tumours. Nature. 490 (7418), 61-70 (2012).
Emerson, J. W., Dolled-Filhart, M., Harris, L., Rimm, D. L., Tuck, D. P. Quantitative assessment of tissue biomarkers and construction of a model to predict outcome in breast cancer using multiple imputation. Cancer Informatics. 7, 29-40 (2009).
Yu, H., et al. Integrative genomic and transcriptomic analysis for pinpointing recurrent alterations of plant homeodomain genes and their clinical significance in breast cancer. Oncotarget. 8 (8), 13099-13115 (2017).
He, W., et al. TCGA datasetbased construction and integrated analysis of aberrantly expressed long noncoding RNA mediated competing endogenous RNA network in gastric cancer. Oncology Reports. , (2018).
Liu, J., et al. An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics. Cell. 173 (2), 400-416 (2018).
Esgueva, R., et al. Next-generation prostate cancer biobanking: toward a processing protocol amenable for the International Cancer Genome Consortium. Diagnostic Molecular Pathology. 21 (2), 61-68 (2012).
Joly, Y., Dove, E. S., Knoppers, B. M., Bobrow, M., Chalmers, D. Data sharing in the post-genomic world: the experience of the International Cancer Genome Consortium (ICGC) Data Access Compliance Office (DACO). PLoS Computational Biology. 8 (7), e1002549 (2012).
Zhang, J., et al. International Cancer Genome Consortium Data Portal–a one-stop shop for cancer genomics data. Database (Oxford). 2011, (2011).
Rhodes, D. R., et al. ONCOMINE: a cancer microarray database and integrated data-mining platform. Neoplasia. 6 (1), 1-6 (2004).
Rhodes, D. R., et al. Oncomine 3.0: genes, pathways, and networks in a collection of 18,000 cancer gene expression profiles. Neoplasia. 9 (2), 166-180 (2007).
Jezequel, P., et al. bc-GenExMiner: an easy-to-use online platform for gene prognostic analyses in breast cancer. Breast Cancer Research and Treatment. 131 (3), 765-775 (2012).
Ringner, M., Fredlund, E., Hakkinen, J., Borg, A., Staaf, J. GOBO: gene expression-based outcome for breast cancer online. PLoS One. 6 (3), e17911 (2011).
Ponten, F., Jirstrom, K., Uhlen, M. The Human Protein Atlas–a tool for pathology. Journal of Pathology. 216 (4), 387-393 (2008).
Ponten, F., Schwenk, J. M., Asplund, A., Edqvist, P. H. The Human Protein Atlas as a proteomic resource for biomarker discovery. Journal of Internal Medicine. 270 (5), 428-446 (2011).
Gyorffy, B., et al. An online survival analysis tool to rapidly assess the effect of 22,277 genes on breast cancer prognosis using microarray data of 1,809 patients. Breast Cancer Research and Treatment. 123 (3), 725-731 (2010).
Stevinson, C., Lawlor, D. A. Searching multiple databases for systematic reviews: added value or diminishing returns?. Complementary Therapies in Medicine. 12 (4), 228-232 (2004).
Yin, J., et al. Integrating multiple genome annotation databases improves the interpretation of microarray gene expression data. BMC Genomics. 11, 50 (2010).
Patel, D., Morton, D. J., Carey, J., Havrda, M. C., Chaudhary, J. Inhibitor of differentiation 4 (ID4): From development to cancer. Biochimica et Biophysica Acta. 1855 (1), 92-103 (2015).
Kamalian, L., et al. Increased expression of Id family proteins in small cell lung cancer and its prognostic significance. Clinical Cancer Research. 14 (8), 2318-2325 (2008).
Cruz-Rodriguez, N., et al. High expression of ID family and IGJ genes signature as predictor of low induction treatment response and worst survival in adult Hispanic patients with B-acute lymphoblastic leukemia. Journal of Experimental and Clinical Cancer Research. 35, 64 (2016).
Yang, H. Y., et al. Expression and prognostic value of Id protein family in human breast carcinoma. Oncology Reports. 23 (2), 321-328 (2010).
Zhou, X. L., et al. Prognostic values of the inhibitor of DNAbinding family members in breast cancer. Oncology Reports. 40 (4), 1897-1906 (2018).
. Available from: https://www.oncomine.org (2018)
Lin, H. Y., Zeng, L., iang, Y. K., Wei, X. L., Chen, C. F. GATA3 and TRPS1 are distinct biomarkers and prognostic factors in breast cancer: database mining for GATA family members in malignancies. Oncotarget. 8 (21), 34750-34761 (2017).
. Available from: https://www.proteinatlas.org (2018)
Zhu, Y. F., Dong, M. Expression of TUSC3 and its prognostic significance in colorectal cancer. Pathology-Research and Practice. 214 (9), 1497-1503 (2018).
Nelson, J. C., et al. Validation sampling can reduce bias in health care database studies: an illustration using influenza vaccination effectiveness. Journal of Clinical Epidemiology. 66 (8 Suppl), S110-S121 (2013).
Haibe-Kains, B., Desmedt, C., Sotiriou, C., Bontempi, G. A comparative study of survival models for breast cancer prognostication based on microarray data: does a single gene beat them all?. Bioinformatics. 24 (19), 2200-2208 (2008).
Yang, C., et al. Understanding genetic toxicity through data mining: the process of building knowledge by integrating multiple genetic toxicity databases. Toxicology Mechanisms and Methods. 18 (2-3), 277-295 (2008).
Cannata, N., Merelli, E., Altman, R. B. Time to organize the bioinformatics resourceome. PLoS Computational Biology. 1 (7), e76 (2005).
Wren, J. D., Bateman, A. Databases, data tombs and dust in the wind. Bioinformatics. 24 (19), 2127-2128 (2008).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Chen, M., Zeng, D., Zheng, Z., Li, Z., Wu, J., Jin, J., Wang, H., Huang, C., Lin, H. Performing Data Mining And Integrative Analysis Of Biomarker in Breast Cancer Using Multiple Publicly Accessible Databases. J. Vis. Exp. (147), e59238, doi:10.3791/59238 (2019).

Realizar la minería de datos y análisis integrativos de biomarcadores en el cáncer de mama utilizando múltiples bases de datos accesibles públicamente

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

Realizar la minería de datos y análisis integrativos de biomarcadores en el cáncer de mama utilizando múltiples bases de datos accesibles públicamente

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below