Performing Data Mining And Integrative Analysis Of Biomarker in Breast Cancer Using Multiple Publicly Accessible Databases

Min-na Chen; De Zeng; Zhuo-qun Zheng; Zheng Li; Jian-le Wu; Jun-yu Jin; He-jia Wang; Cui-zhen Huang; Hao-yu Lin

doi:10.3791/59238

JoVE Journal > Cancer Research

Cancer Research

Realizando a mineração de dados e análise Integrativa do biomarcador no câncer de mama usando vários bancos de dados acessíveis publicamente

Published: May 17, 2019

doi:

10.3791/59238

Min-na Chen, De Zeng, Zhuo-qun Zheng, Zheng Li, Jian-le Wu, Jun-yu Jin, He-jia Wang, Cui-zhen Huang, Hao-yu Lin

¹Department of Thyroid and Breast Surgery,First Affiliated Hospital of Shantou University Medical College, ²Department of Medical Oncology,Cancer Hospital of Shantou University Medical College, ³Shantou University Medical College

Summary

Aqui, apresentamos um protocolo para explorar o biomarcador e preditor de sobrevivência do câncer de mama com base na análise abrangente de conjuntos de dados clínicos agrupados derivados de uma variedade de bases de dados acessíveis publicamente, utilizando a estratégia de expressão, correlação e análise de sobrevivência passo a passo.

Abstract

Nos últimos anos, as bases de dados emergentes foram projetadas para reduzir as barreiras para abordar os intrincados conjuntos de dados genóricos do câncer, facilitando assim que os investigadores analisem e interpretem genes, amostras e dados clínicos em diferentes tipos de câncer. Nisto, nós descrevemos um procedimento prático da operação, tomando ID1 (inibidor de proteínas de ligação do ADN 1) como um exemplo, para caracterizar os testes padrões da expressão de biomarcador e de preditores da sobrevivência do cancro da mama baseado em conjuntos de dados clínicos agrupados derivados de bancos de dados acessíveis on-line, incluindo ONCOMINE, bcGenExMiner v 4.0 (câncer de mama gene-expressão mineiro v 4.0), GOBO (resultado baseado em expressão gênica para câncer de mama on-line), HPA (o Atlas de proteína humana), e plotter de Kaplan-Meier. A análise começou com a consulta do padrão de expressão do gene de interesse (por exemplo, ID1) em amostras cancerosas versus amostras normais. Em seguida, foi realizada a análise de correlação entre ID1 e características clinicopatológicas no câncer de mama. Em seguida, os perfis de expressão de ID1 foram estratificados de acordo com diferentes subgrupos. Finalmente, analisou-se a associação entre expressão de ID1 e desfecho de sobrevida. O procedimento de operação simplifica o conceito de integração de tipos de dados multidimensionais no nível genético a partir de diferentes bases de dados e hipóteses de teste sobre recorrência e contexto genómico de eventos de alteração genética no câncer de mama. Este método pode melhorar a credibilidade e a representatividade das conclusões, assim, apresentar uma perspectiva informativa sobre um gene de interesse.

Introduction

O câncer de mama é uma doença heterogênea com diversas estratégias de prognóstico e tratamento em diferentes subtipos moleculares, em que a patogênese e o desenvolvimento estão provavelmente associados a mecanismos moleculares distintos^1,2 ^, ³. Entretanto, identificar um alvo terapêutico toma geralmente anos, ou mesmo décadas, da descoberta inicial na pesquisa básica ao uso clínico⁴. A ampla aplicação do genoma da tecnologia de sequenciamento de alto débito para o genoma do câncer avançou muito no processo de busca de biomarcadores valiosos ou alvos terapêuticos ⁵.

A quantidade esmagadora de dados de genômica de câncer gerada a partir das plataformas de genômica de câncer em grande escala, como o ICGC (consórcio internacional do genoma do câncer) e o TCGA (o Atlas do genoma do câncer), está colocando um grande desafio para os pesquisadores realizarem dados exploração, integração e análise, especialmente para usuários que não possuem treinamento intensivo em informática e computação⁶^,⁷^,⁸^,⁹^,¹⁰. Nos últimos anos, bases de dados emergentes, (por exemplo, ONCOMINE, bcGenExMiner v 4.0, e Kaplan-Meier plotter, etc.) foram projetados e desenvolvidos para reduzir a barra para abordar os intrincados conjuntos de dados genóricos do cancro, assim, facilitando os investigadores para analisar e interpretar os genes, amostras e dados clínicos em vários tipos de câncer¹¹. O objetivo deste protocolo é descrever uma estratégia de pesquisa que integrou com múltiplos níveis de informação genética de uma série de bases de dados de acesso aberto, que têm sido amplamente reconhecidas por um grande número de pesquisadores, para identificar os potenciais biomarcadores e fatores prognósticos para o cancro da mama.

A base de dados de oncomine é uma plataforma Web-baseada da mineração do dado com informação do microarray do cancro e é projetada facilitar a descoberta de biomarcadores novos e de alvos terapêuticos¹¹. Atualmente, há mais de 48 milhões medições de expressão gênica de conjuntos de dados de expressão de genes 65 neste banco de dados^11,12. O bcGenExMiner v 4.0 (uma ferramenta livre para a instituição sem fins lucrativos), também chamado de câncer de mama gene-Expression Miner, é um aplicativo baseado na Web de fácil utilização compreendendo resultados de Microarrays de DNA de 3.414 recuperado pacientes com câncer de mama e 1.209 experimentou um evento pejorativo¹³. Ele é projetado para melhorar o desempenho da análise de prognóstico genético com R software estatístico e pacotes.

O GOBO é uma ferramenta on-line multifuncional de fácil utilização com informações de Microarrays (por exemplo, Affymetrix U133A) de um conjunto de linha celular de câncer de mama de 51 amostras e um conjunto de dados de tumor de mama 1881-Sample, que permite uma ampla variedade de análises¹⁴. Há uma variedade de aplicações disponíveis na base de dados de gobo, que incluem a análise rápida de perfis da expressão de gene em subtipos moleculars diferentes de tumores da mama e de linhas de pilha, a seleção para genes coexpressados para a criação de Metagenes potenciais, e análise de correlação entre o desfecho e os níveis de expressão gênica de genes únicos, conjuntos de genes ou assinaturas genéticas no conjunto de dados de câncer de mama¹⁵.

O Atlas da proteína humana é um programa de acesso aberto projetado para que os cientistas explorem o Proteome humano, que tem contribuído já a um grande número publicações no campo da biologia humana e da doença. O Atlas da proteína humana é reconhecido como um recurso Central Europeu para a comunidade de Ciências da vida^16,17.

O plotador de Kaplan Meier é uma ferramenta em linha que integra a expressão genética e os dados clínicos simultaneamente que permite a avaliação do efeito prognóstico de 54.675 genes baseados em 10.461 amostras do cancro, que incluem 1.065 gastric, 2.437 pulmão, 1.816 ovariano e 5.143 pacientes com câncer de mama com seguimento médio de 33/49/40/69 meses¹⁸. Informações de expressão gênica, sobrevida livre de recaídas (RFS) e sobrevida global (os) estão disponíveis para download a partir deste banco de dados^19,20.

Aqui, nós descrevemos um procedimento prático da operação de usar bases de dados publicamente acessíveis múltiplas para comparar, analisar e Visualizar testes padrões das alterações na expressão do gene do interesse através dos estudos múltiplos do cancro, com o objetivo de resumir perfis de expressão, valores prognósticos e potenciais funções biológicas no cancro da mama. Por exemplo, estudos recentes indicaram as propriedades oncogênicas de proteínas de identificação em tumores e foram associadas a características malignas, incluindo transformação celular, imortalização, proliferação aumentada e metástase²¹^, ²²^,²³. Entretanto, cada membro da família da identificação joga papéis distintos em tipos diferentes de tumores contínuos, e seu papel no cancro da mama permanece obscuro²⁴. Em estudos prévios, explorados através deste método, verificou-se que o ID1 foi um indicador prognóstico significativo no câncer de mama²⁵. Portanto, o protocolo levará ID1 como um exemplo para introduzir os métodos de mineração de dados.

A análise começa a partir de consultar o padrão de expressão do gene de interesse em amostras cancerosas versus amostras normais em ONCOMINE. Em seguida, a correlação de expressão de genes de interesse em câncer de mama foi realizada utilizando-se o BC-GenExMiner v 4.0, GOBO e ONCOMINE. Em seguida, os perfis de expressão de ID1 foram estratificados de acordo com diferentes subgrupos utilizando as três bases de dados acima. Finalmente, a associação entre a expressão de ID1 e a sobrevida foi analisada utilizando-se o BC-GenExMiner v 4.0, o Atlas de proteínas humanas e o plotter de Kaplan-Meier. O procedimento de operação foi mostrado como o fluxograma na Figura 1.

Protocol

1. análise de padrão de expressão Vá para a interface Web ONCOMINE26. Obter os níveis de expressão relativa de gene ID1 em vários tipos de malignidades, digitando ID1 para a caixa de pesquisa. Selecione tipo de análise no menu filtros primários . Em seguida, selecione Cancer vs. análise normal, câncer de mama versus análise normal. Selec…

Representative Results

Um resultado representativo da mineração de dados e análise Integrativa do biomarcador de câncer de mama foi realizado usando ID1, um dos inibidores de membros da família de ligação ao DNA, que foram relatados no estudo anterior 25. Como demonstrado na Figura 2, as diferenças da expressão do mRNA de ID1 entre o tumor e os tecidos normais em vários tipos de câncer f…

Discussion

A análise detalhada de bases de dados públicas pode indicar a função subjacente do gene do interesse e revelar a ligação potencial entre este gene e parâmetros clinicopatológicos no cancro específico²⁷^,³¹. A exploração e análise com base em um único banco de dados pode fornecer perspectivas limitadas ou isoladas devido ao viés de seleção potencial, ou em certa medida, possivelmente devido à variedade de qualidade de dados, incluindo a coleta de d…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Este trabalho foi apoiado parcialmente pela Fundação da ciência natural da província de Guangdong, China (no. 2018A030313562), o projeto de reforma ensinando da base de ensino clínica de Guangdong (NO. 2016JDB092), Fundação Nacional da ciência natural de China (81600358), e projeto inovativo do Talent da juventude das faculdades e das universidades na província de Guangdong, China (NO. 2017KQNCX073)

Materials

A personal computer or computing device with an Internet browser with Javascript enabled	Microsoft	051690762553	We support and test the following browsers: Google Chrome, Firefox 3.0 and above, Safari, and Internet Explorer 9.0 and above
Adobe Flash player	Adobe Systems Inc.	It can be freely downloaded from http://get.adobe.com/flashplayer/.	This browser plug-in is required for visualizing networks on the network analysis tab.
Chrome Broswer	Google Inc.	It can be freely downloaded from https://www.google.cn/chrome/	This is necessary for viewing PDF files including the Pathology Reports and many of the downloadable files.
Java Runtime Environment	Oracle Corporation	It can be downloaded from http://www.java.com/getjava/.
Office 365 ProPlus for Faculty	Microsoft	2003BFFD8117EA68	This is necessary for viewing the Pathology Reports and for viewing many of the downloadable files.
Vectr Online	Vectr Labs Inc.	It can be freely used from https://vectr.com/new	This is necessary for visualizing and editing many of the downloadable files and pictures.

References

van 't Veer, L. J., et al. Gene expression profiling predicts clinical outcome of breast cancer. Nature. 415 (6871), 530-536 (2002).
Loi, S., et al. Definition of clinically distinct molecular subtypes in estrogen receptor-positive breast carcinomas through genomic grade. Journal of Clinical Oncology. 25 (10), 1239-1246 (2007).
Cancer Genome Atlas, N. Comprehensive molecular portraits of human breast tumours. Nature. 490 (7418), 61-70 (2012).
Emerson, J. W., Dolled-Filhart, M., Harris, L., Rimm, D. L., Tuck, D. P. Quantitative assessment of tissue biomarkers and construction of a model to predict outcome in breast cancer using multiple imputation. Cancer Informatics. 7, 29-40 (2009).
Yu, H., et al. Integrative genomic and transcriptomic analysis for pinpointing recurrent alterations of plant homeodomain genes and their clinical significance in breast cancer. Oncotarget. 8 (8), 13099-13115 (2017).
He, W., et al. TCGA datasetbased construction and integrated analysis of aberrantly expressed long noncoding RNA mediated competing endogenous RNA network in gastric cancer. Oncology Reports. , (2018).
Liu, J., et al. An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics. Cell. 173 (2), 400-416 (2018).
Esgueva, R., et al. Next-generation prostate cancer biobanking: toward a processing protocol amenable for the International Cancer Genome Consortium. Diagnostic Molecular Pathology. 21 (2), 61-68 (2012).
Joly, Y., Dove, E. S., Knoppers, B. M., Bobrow, M., Chalmers, D. Data sharing in the post-genomic world: the experience of the International Cancer Genome Consortium (ICGC) Data Access Compliance Office (DACO). PLoS Computational Biology. 8 (7), e1002549 (2012).
Zhang, J., et al. International Cancer Genome Consortium Data Portal–a one-stop shop for cancer genomics data. Database (Oxford). 2011, (2011).
Rhodes, D. R., et al. ONCOMINE: a cancer microarray database and integrated data-mining platform. Neoplasia. 6 (1), 1-6 (2004).
Rhodes, D. R., et al. Oncomine 3.0: genes, pathways, and networks in a collection of 18,000 cancer gene expression profiles. Neoplasia. 9 (2), 166-180 (2007).
Jezequel, P., et al. bc-GenExMiner: an easy-to-use online platform for gene prognostic analyses in breast cancer. Breast Cancer Research and Treatment. 131 (3), 765-775 (2012).
Ringner, M., Fredlund, E., Hakkinen, J., Borg, A., Staaf, J. GOBO: gene expression-based outcome for breast cancer online. PLoS One. 6 (3), e17911 (2011).
Ponten, F., Jirstrom, K., Uhlen, M. The Human Protein Atlas–a tool for pathology. Journal of Pathology. 216 (4), 387-393 (2008).
Ponten, F., Schwenk, J. M., Asplund, A., Edqvist, P. H. The Human Protein Atlas as a proteomic resource for biomarker discovery. Journal of Internal Medicine. 270 (5), 428-446 (2011).
Gyorffy, B., et al. An online survival analysis tool to rapidly assess the effect of 22,277 genes on breast cancer prognosis using microarray data of 1,809 patients. Breast Cancer Research and Treatment. 123 (3), 725-731 (2010).
Stevinson, C., Lawlor, D. A. Searching multiple databases for systematic reviews: added value or diminishing returns?. Complementary Therapies in Medicine. 12 (4), 228-232 (2004).
Yin, J., et al. Integrating multiple genome annotation databases improves the interpretation of microarray gene expression data. BMC Genomics. 11, 50 (2010).
Patel, D., Morton, D. J., Carey, J., Havrda, M. C., Chaudhary, J. Inhibitor of differentiation 4 (ID4): From development to cancer. Biochimica et Biophysica Acta. 1855 (1), 92-103 (2015).
Kamalian, L., et al. Increased expression of Id family proteins in small cell lung cancer and its prognostic significance. Clinical Cancer Research. 14 (8), 2318-2325 (2008).
Cruz-Rodriguez, N., et al. High expression of ID family and IGJ genes signature as predictor of low induction treatment response and worst survival in adult Hispanic patients with B-acute lymphoblastic leukemia. Journal of Experimental and Clinical Cancer Research. 35, 64 (2016).
Yang, H. Y., et al. Expression and prognostic value of Id protein family in human breast carcinoma. Oncology Reports. 23 (2), 321-328 (2010).
Zhou, X. L., et al. Prognostic values of the inhibitor of DNAbinding family members in breast cancer. Oncology Reports. 40 (4), 1897-1906 (2018).
. Available from: https://www.oncomine.org (2018)
Lin, H. Y., Zeng, L., iang, Y. K., Wei, X. L., Chen, C. F. GATA3 and TRPS1 are distinct biomarkers and prognostic factors in breast cancer: database mining for GATA family members in malignancies. Oncotarget. 8 (21), 34750-34761 (2017).
. Available from: https://www.proteinatlas.org (2018)
Zhu, Y. F., Dong, M. Expression of TUSC3 and its prognostic significance in colorectal cancer. Pathology-Research and Practice. 214 (9), 1497-1503 (2018).
Nelson, J. C., et al. Validation sampling can reduce bias in health care database studies: an illustration using influenza vaccination effectiveness. Journal of Clinical Epidemiology. 66 (8 Suppl), S110-S121 (2013).
Haibe-Kains, B., Desmedt, C., Sotiriou, C., Bontempi, G. A comparative study of survival models for breast cancer prognostication based on microarray data: does a single gene beat them all?. Bioinformatics. 24 (19), 2200-2208 (2008).
Yang, C., et al. Understanding genetic toxicity through data mining: the process of building knowledge by integrating multiple genetic toxicity databases. Toxicology Mechanisms and Methods. 18 (2-3), 277-295 (2008).
Cannata, N., Merelli, E., Altman, R. B. Time to organize the bioinformatics resourceome. PLoS Computational Biology. 1 (7), e76 (2005).
Wren, J. D., Bateman, A. Databases, data tombs and dust in the wind. Bioinformatics. 24 (19), 2127-2128 (2008).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Chen, M., Zeng, D., Zheng, Z., Li, Z., Wu, J., Jin, J., Wang, H., Huang, C., Lin, H. Performing Data Mining And Integrative Analysis Of Biomarker in Breast Cancer Using Multiple Publicly Accessible Databases. J. Vis. Exp. (147), e59238, doi:10.3791/59238 (2019).

Realizando a mineração de dados e análise Integrativa do biomarcador no câncer de mama usando vários bancos de dados acessíveis publicamente

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

Realizando a mineração de dados e análise Integrativa do biomarcador no câncer de mama usando vários bancos de dados acessíveis publicamente

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below