Performing Data Mining And Integrative Analysis Of Biomarker in Breast Cancer Using Multiple Publicly Accessible Databases

Min-na Chen; De Zeng; Zhuo-qun Zheng; Zheng Li; Jian-le Wu; Jun-yu Jin; He-jia Wang; Cui-zhen Huang; Hao-yu Lin

doi:10.3791/59238

JoVE Journal > Cancer Research

Please note that all translations are automatically generated. Click here for the English version.

Cancer Research

Esecuzione di data mining e analisi integrativa dei biomarcatori nel cancro al seno utilizzando più database accessibili pubblicamente

Published: May 17, 2019

doi:

10.3791/59238

Min-na Chen, De Zeng, Zhuo-qun Zheng, Zheng Li, Jian-le Wu, Jun-yu Jin, He-jia Wang, Cui-zhen Huang, Hao-yu Lin

¹Department of Thyroid and Breast Surgery,First Affiliated Hospital of Shantou University Medical College, ²Department of Medical Oncology,Cancer Hospital of Shantou University Medical College, ³Shantou University Medical College

Summary

Qui, presentiamo un protocollo per esplorare il biomarcatore e il predittore di sopravvivenza del cancro al seno sulla base dell’analisi completa dei dataset clinici aggregati derivati da una varietà di database accessibili pubblicamente, utilizzando la strategia di espressione, correlazione e analisi di sopravvivenza passo dopo passo.

Abstract

Negli ultimi anni, le banche dati emergenti sono state progettate per abbassare le barriere per avvicinarsi agli intricati DataSet genomici del cancro, facilitando così i simpatizzanti ad analizzare e interpretare i geni, i campioni e le informazioni cliniche su diversi tipi di cancro. Nel presente documento Descriviamo una procedura operativa pratica, prendendo ad esempio ID1 (inibitore delle proteine di legame del DNA 1), per caratterizzare i modelli di espressione di biomarcatori e predittori di sopravvivenza del cancro al seno sulla base di dataset clinici aggregati derivati da database accessibili online, tra cui ONCOMINE, bcGenExMiner v 4.0 (cancro al seno Gene-Expression Miner v 4.0), GOBO (risultato basato sull’espressione genica per il cancro al seno online), HPA (l’Atlante proteico umano) e il plotter Kaplan-Meier. L’analisi è iniziata con l’interrogazione del modello di espressione del gene di interesse (ad esempio, ID1) nei campioni cancerogeni rispetto ai campioni normali. Quindi, è stata eseguita l’analisi di correlazione tra ID1 e le caratteristiche clinicopatologiche nel carcinoma mammario. Successivamente, i profili di espressione di ID1 sono stati stratificati in base a diversi sottogruppi. Infine, è stata analizzata l’associazione tra l’espressione ID1 e l’esito della sopravvivenza. La procedura di funzionamento semplifica il concetto di integrare i tipi di dati multidimensionali a livello genetico da diversi database e ipotesi di test riguardanti il contesto di ricorrenza e genomica degli eventi di alterazione genica nel cancro al seno. Questo metodo può migliorare la credibilità e la rappresentatività delle conclusioni, in tal modo, presentare una prospettiva informativa su un gene di interesse.

Introduction

Il cancro al seno è una malattia eterogenea con diverse prognosi e strategie di trattamento in diversi sottotipi molecolari, in cui la patogenesi e lo sviluppo sono probabilmente associati a meccanismi molecolari disparati¹^,² ^, ³. Tuttavia, l’identificazione di un bersaglio terapeutico richiede solitamente anni, o addirittura decenni, dalla scoperta iniziale nella ricerca di base all’uso clinico⁴. L’ampia applicazione del genoma della tecnologia di sequenziamento ad alto rendimento per il genoma del cancro ha notevolmente avanzato il processo di ricerca di biomarcatori preziosi o bersagli terapeutici ⁵.

L’enorme quantità di dati di genomica del cancro generati dalle piattaforme di genomica del cancro su larga scala, come l’ICGC (Consorzio internazionale del genoma del cancro) e TCGA (l’Atlante del genoma del cancro), rappresenta una grande sfida per i ricercatori nell’eseguire esplorazione, integrazione e analisi, in particolare per gli utenti privi di formazione intensiva in informatica e computazione⁶^,⁷^,⁸^,⁹^,¹⁰. Negli ultimi anni, le banche dati emergenti (ad esempio, ONCOMINE, bcGenExMiner v 4.0 e Kaplan-Meier plotter, ecc.) sono state progettate e sviluppate per abbassare la barra per avvicinarsi agli intricati set di dati genomici del cancro, facilitando così i simpatizzanti ad analizzare e interpretare i geni, i campioni e i dati clinici tra i vari tipi di tumore¹¹. L’obiettivo di questo protocollo è quello di descrivere una strategia di ricerca che si integra con molteplici livelli di informazione genica da una serie di database di accesso aperto, che sono stati ampiamente riconosciuti da un gran numero di ricercatori, per identificare i potenziali biomarcatori e fattori prognostici per il carcinoma mammario.

Il database ONCOMINE è una piattaforma di data mining basata sul Web con informazioni sul microarray del cancro ed è progettata per facilitare la scoperta di nuovi biomarcatori e bersagli terapeutici¹¹. Attualmente, ci sono più di 48 milioni misurazioni dell’espressione genica da 65 set di dati di espressione genica in questo database¹¹^,¹². Il bcGenExMiner v 4.0 (uno strumento gratuito per l’istituzione senza scopo di lucro), chiamato anche cancro al seno Gene-Expression Miner, è un’applicazione Web-friendly che comprende i risultati di microarray di DNA di 3.414 pazienti con cancro al seno recuperati e 1.209 sperimentato un evento pejorative¹³. È progettato per migliorare le prestazioni di analisi prognostica genica con software e pacchetti statistici R.

Il GOBO è uno strumento multifunzionale user-friendly online con informazioni microarray (ad esempio, Affymetrix U133A) da un 51-campione di linea di cellule di cancro al seno set e un 1881-campione di dati del tumore al seno set, che consente una vasta gamma di analisi¹⁴. Ci sono una varietà di applicazioni disponibili nel database GOBO, che includono l’analisi rapida dei profili di espressione genica in diversi sottotipi molecolari di tumori al seno e linee cellulari, screening per geni co-espressi per la creazione di potenziali metageni, e analisi di correlazione tra il risultato e i livelli di espressione genica di geni singoli, insiemi di geni o firme genetiche nel set di dati sul cancro al seno¹⁵.

L’Atlante delle proteine umane è un programma di accesso aperto progettato per gli scienziati per esplorare il proteoma umano, che ha già contribuito a un gran numero di pubblicazioni nel campo della biologia umana e della malattia. L’Atlante delle proteine umane è riconosciuto come risorsa di base europea per la Comunità delle scienze biologiche¹⁶^,¹⁷.

Il plotter Kaplan Meier è uno strumento online che integra simultaneamente l’espressione genica e i dati clinici che consente di valutare l’effetto prognostico di 54.675 geni basati su 10.461 campioni di cancro, che includono 1.065 gastrico, 2.437 polmone, 1.816 ovarico e 5.143 pazienti affetti da tumore al seno con un follow-up medio di 33/49/40/69 mesi¹⁸. Le informazioni sull’espressione genica, la sopravvivenza libera da ricadute (RFS) e la sopravvivenza complessiva (OS) sono scaricabili da questo database¹⁹^,²⁰.

Qui, descriviamo una procedura operativa pratica di utilizzare più database accessibili pubblicamente per confrontare, analizzare e visualizzare modelli di alterazioni nell’espressione del gene di interesse in più studi sul cancro, con l’obiettivo di riassumere il profili di espressione, valori prognostici e potenziali funzioni biologiche nel carcinoma mammario. Ad esempio, studi recenti hanno indicato le proprietà oncogeniche delle proteine ID nei tumori e sono stati associati a caratteristiche maligne, tra cui la trasformazione cellulare, l’immortalizzazione, la proliferazione e la metastasi²¹^, ²²^,²³. Tuttavia, ogni membro della famiglia ID svolge ruoli distinti in diversi tipi di tumori solidi, e il loro ruolo nel cancro al seno rimane poco chiaro²⁴. Negli studi precedenti, esplorati attraverso questo metodo, abbiamo scoperto che ID1 era un indicatore prognostico significativo nel cancro al seno²⁵. Pertanto, il protocollo prenderà ID1 come esempio per introdurre i metodi di data mining.

L’analisi inizia dall’interrogazione del modello di espressione del gene di interesse nei campioni cancerogeni rispetto ai campioni normali in ONCOMINE. Quindi, la correlazione di espressione dei geni di interesse nel cancro al seno è stata eseguita utilizzando il BC-GenExMiner v 4.0, GOBO, e ONCOMINE. Successivamente, i profili di espressione di ID1 sono stati stratificati in base a diversi sottogruppi utilizzando i tre database precedenti. Infine, l’associazione tra l’espressione ID1 e la sopravvivenza è stata analizzata usando BC-GenExMiner v 4.0, l’Atlante proteico umano e il plotter Kaplan-Meier. La procedura operativa è stata mostrata come diagramma di flusso in Figura 1.

Protocol

1. analisi del modello di espressione Accedere all’interfaccia Web di ONCOMINE26. Ottenere i livelli di espressione relativi di gene ID1 in vari tipi di neoplasie digitando ID1 nella casella di ricerca. Selezionare tipo di analisi dal menu filtri primari . Quindi, selezionare cancro contro l’analisi normale, cancro al seno vs analisi normale. Selezi…

Representative Results

Un risultato rappresentativo dell’estrazione di dati e dell’analisi integrativa del biomarcatore del cancro al seno è stato eseguito usando ID1, uno degli inibitori dei membri della famiglia che legano il DNA, che sono stati riportati nello studio precedente 25. Come dimostrato in Figura 2, le differenze di ID1 espressione mRNA tra tumore e tessuti normali in più tipi di ca…

Discussion

Un’analisi completa delle banche dati pubbliche può indicare la funzione sottostante del gene di interesse e rivelare il potenziale legame tra questo gene e i parametri clinicopatologici in specifici tumori²⁷^,³¹. L’esplorazione e l’analisi basate su un unico database potrebbero fornire prospettive limitate o isolate a causa del potenziale bias di selezione, o in una certa misura, probabilmente a causa della varietà di qualità dei dati, compresa la raccolta dei…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Questo lavoro è stato in parte sostenuto dalla Fondazione di scienze naturali della provincia di Guangdong, Cina (No. 2018A030313562), il progetto di riforma didattica della base di insegnamento clinico Guangdong (NO. 2016JDB092), Fondazione nazionale di scienze naturali della Cina (81600358), e giovanile progetto di talenti innovativi di collegi e Università nella provincia di Guangdong, Cina (NO. 2017KQNCX073)

Materials

A personal computer or computing device with an Internet browser with Javascript enabled	Microsoft	051690762553	We support and test the following browsers: Google Chrome, Firefox 3.0 and above, Safari, and Internet Explorer 9.0 and above
Adobe Flash player	Adobe Systems Inc.	It can be freely downloaded from http://get.adobe.com/flashplayer/.	This browser plug-in is required for visualizing networks on the network analysis tab.
Chrome Broswer	Google Inc.	It can be freely downloaded from https://www.google.cn/chrome/	This is necessary for viewing PDF files including the Pathology Reports and many of the downloadable files.
Java Runtime Environment	Oracle Corporation	It can be downloaded from http://www.java.com/getjava/.
Office 365 ProPlus for Faculty	Microsoft	2003BFFD8117EA68	This is necessary for viewing the Pathology Reports and for viewing many of the downloadable files.
Vectr Online	Vectr Labs Inc.	It can be freely used from https://vectr.com/new	This is necessary for visualizing and editing many of the downloadable files and pictures.

References

van 't Veer, L. J., et al. Gene expression profiling predicts clinical outcome of breast cancer. Nature. 415 (6871), 530-536 (2002).
Loi, S., et al. Definition of clinically distinct molecular subtypes in estrogen receptor-positive breast carcinomas through genomic grade. Journal of Clinical Oncology. 25 (10), 1239-1246 (2007).
Cancer Genome Atlas, N. Comprehensive molecular portraits of human breast tumours. Nature. 490 (7418), 61-70 (2012).
Emerson, J. W., Dolled-Filhart, M., Harris, L., Rimm, D. L., Tuck, D. P. Quantitative assessment of tissue biomarkers and construction of a model to predict outcome in breast cancer using multiple imputation. Cancer Informatics. 7, 29-40 (2009).
Yu, H., et al. Integrative genomic and transcriptomic analysis for pinpointing recurrent alterations of plant homeodomain genes and their clinical significance in breast cancer. Oncotarget. 8 (8), 13099-13115 (2017).
He, W., et al. TCGA datasetbased construction and integrated analysis of aberrantly expressed long noncoding RNA mediated competing endogenous RNA network in gastric cancer. Oncology Reports. , (2018).
Liu, J., et al. An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics. Cell. 173 (2), 400-416 (2018).
Esgueva, R., et al. Next-generation prostate cancer biobanking: toward a processing protocol amenable for the International Cancer Genome Consortium. Diagnostic Molecular Pathology. 21 (2), 61-68 (2012).
Joly, Y., Dove, E. S., Knoppers, B. M., Bobrow, M., Chalmers, D. Data sharing in the post-genomic world: the experience of the International Cancer Genome Consortium (ICGC) Data Access Compliance Office (DACO). PLoS Computational Biology. 8 (7), e1002549 (2012).
Zhang, J., et al. International Cancer Genome Consortium Data Portal–a one-stop shop for cancer genomics data. Database (Oxford). 2011, (2011).
Rhodes, D. R., et al. ONCOMINE: a cancer microarray database and integrated data-mining platform. Neoplasia. 6 (1), 1-6 (2004).
Rhodes, D. R., et al. Oncomine 3.0: genes, pathways, and networks in a collection of 18,000 cancer gene expression profiles. Neoplasia. 9 (2), 166-180 (2007).
Jezequel, P., et al. bc-GenExMiner: an easy-to-use online platform for gene prognostic analyses in breast cancer. Breast Cancer Research and Treatment. 131 (3), 765-775 (2012).
Ringner, M., Fredlund, E., Hakkinen, J., Borg, A., Staaf, J. GOBO: gene expression-based outcome for breast cancer online. PLoS One. 6 (3), e17911 (2011).
Ponten, F., Jirstrom, K., Uhlen, M. The Human Protein Atlas–a tool for pathology. Journal of Pathology. 216 (4), 387-393 (2008).
Ponten, F., Schwenk, J. M., Asplund, A., Edqvist, P. H. The Human Protein Atlas as a proteomic resource for biomarker discovery. Journal of Internal Medicine. 270 (5), 428-446 (2011).
Gyorffy, B., et al. An online survival analysis tool to rapidly assess the effect of 22,277 genes on breast cancer prognosis using microarray data of 1,809 patients. Breast Cancer Research and Treatment. 123 (3), 725-731 (2010).
Stevinson, C., Lawlor, D. A. Searching multiple databases for systematic reviews: added value or diminishing returns?. Complementary Therapies in Medicine. 12 (4), 228-232 (2004).
Yin, J., et al. Integrating multiple genome annotation databases improves the interpretation of microarray gene expression data. BMC Genomics. 11, 50 (2010).
Patel, D., Morton, D. J., Carey, J., Havrda, M. C., Chaudhary, J. Inhibitor of differentiation 4 (ID4): From development to cancer. Biochimica et Biophysica Acta. 1855 (1), 92-103 (2015).
Kamalian, L., et al. Increased expression of Id family proteins in small cell lung cancer and its prognostic significance. Clinical Cancer Research. 14 (8), 2318-2325 (2008).
Cruz-Rodriguez, N., et al. High expression of ID family and IGJ genes signature as predictor of low induction treatment response and worst survival in adult Hispanic patients with B-acute lymphoblastic leukemia. Journal of Experimental and Clinical Cancer Research. 35, 64 (2016).
Yang, H. Y., et al. Expression and prognostic value of Id protein family in human breast carcinoma. Oncology Reports. 23 (2), 321-328 (2010).
Zhou, X. L., et al. Prognostic values of the inhibitor of DNAbinding family members in breast cancer. Oncology Reports. 40 (4), 1897-1906 (2018).
. Available from: https://www.oncomine.org (2018)
Lin, H. Y., Zeng, L., iang, Y. K., Wei, X. L., Chen, C. F. GATA3 and TRPS1 are distinct biomarkers and prognostic factors in breast cancer: database mining for GATA family members in malignancies. Oncotarget. 8 (21), 34750-34761 (2017).
. Available from: https://www.proteinatlas.org (2018)
Zhu, Y. F., Dong, M. Expression of TUSC3 and its prognostic significance in colorectal cancer. Pathology-Research and Practice. 214 (9), 1497-1503 (2018).
Nelson, J. C., et al. Validation sampling can reduce bias in health care database studies: an illustration using influenza vaccination effectiveness. Journal of Clinical Epidemiology. 66 (8 Suppl), S110-S121 (2013).
Haibe-Kains, B., Desmedt, C., Sotiriou, C., Bontempi, G. A comparative study of survival models for breast cancer prognostication based on microarray data: does a single gene beat them all?. Bioinformatics. 24 (19), 2200-2208 (2008).
Yang, C., et al. Understanding genetic toxicity through data mining: the process of building knowledge by integrating multiple genetic toxicity databases. Toxicology Mechanisms and Methods. 18 (2-3), 277-295 (2008).
Cannata, N., Merelli, E., Altman, R. B. Time to organize the bioinformatics resourceome. PLoS Computational Biology. 1 (7), e76 (2005).
Wren, J. D., Bateman, A. Databases, data tombs and dust in the wind. Bioinformatics. 24 (19), 2127-2128 (2008).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Chen, M., Zeng, D., Zheng, Z., Li, Z., Wu, J., Jin, J., Wang, H., Huang, C., Lin, H. Performing Data Mining And Integrative Analysis Of Biomarker in Breast Cancer Using Multiple Publicly Accessible Databases. J. Vis. Exp. (147), e59238, doi:10.3791/59238 (2019).

Esecuzione di data mining e analisi integrativa dei biomarcatori nel cancro al seno utilizzando più database accessibili pubblicamente

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

Esecuzione di data mining e analisi integrativa dei biomarcatori nel cancro al seno utilizzando più database accessibili pubblicamente

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below