Performing Data Mining And Integrative Analysis Of Biomarker in Breast Cancer Using Multiple Publicly Accessible Databases

Min-na Chen; De Zeng; Zhuo-qun Zheng; Zheng Li; Jian-le Wu; Jun-yu Jin; He-jia Wang; Cui-zhen Huang; Hao-yu Lin

doi:10.3791/59238

JoVE Journal > Cancer Research

Please note that all translations are automatically generated. Click here for the English version.

Cancer Research

Die Durchführung von Datenkinining und die integrative Analyse von Biomarker bei Brustkrebs mit mehreren, öffentlich zugänglichen Datenbanken

Published: May 17, 2019

doi:

10.3791/59238

Min-na Chen, De Zeng, Zhuo-qun Zheng, Zheng Li, Jian-le Wu, Jun-yu Jin, He-jia Wang, Cui-zhen Huang, Hao-yu Lin

¹Department of Thyroid and Breast Surgery,First Affiliated Hospital of Shantou University Medical College, ²Department of Medical Oncology,Cancer Hospital of Shantou University Medical College, ³Shantou University Medical College

Summary

Hier stellen wir ein Protokoll vor, um den Biomarker und den Überlebensprediger von Brustkrebs zu erforschen, das auf der umfassenden Analyse von gebündelten klinischen Datensätzen basiert, die aus einer Vielzahl von öffentlich zugänglichen Datenbanken abgeleitet werden, und dabei die Strategie des Ausdrucks, der Korrelation und Überlebensanalyse Schritt für Schritt.

Abstract

In den letzten Jahren wurden neue Datenbanken entwickelt, um die Barrieren für die Annäherung an die experimentellen genetischen Daten des Krebses zu verringern und damit den Forschern die Möglichkeit zu geben, Gene, Proben und klinische Daten über verschiedene Krebsarten zu analysieren und zu interpretieren. Hier beschreiben wir ein praktisches Operationsverfahren, bei dem ID1 (Inhibitor von DNA-Bindungsproteinen 1) als Beispiel die Expressionsmuster von Biomarker und Überlebensvorhersagen von Brustkrebs anhand von gebündelten klinischen Datensätzen, die von gebündelten klinischen Datensätzen abgeleitet werden, charakterisiert werden. Online-zugängliche Datenbanken, darunter ONCOMINE, bcGenExMiner v4.0 (Brustkrebs-Gen-Ausdruck miner v4.0), GOBO (Gene expression-basiertes Outcome for Breast cancer Online), HPA (Der menschliche Proteinatlas) und Kaplan-Meier Plotter. Die Analyse begann mit der Abfrage des Ausdrucksmusters des Gens von Interesse (z.B. ID1) bei Krebsproben vs. normalen Proben. Anschließend wurde die Korrelationsanalyse zwischen ID1 und klinikathologischen Merkmalen bei Brustkrebs durchgeführt. Als nächstes wurden die Expressionsprofile von ID1 nach verschiedenen Untergruppen geschichtet. Schließlich wurde der Zusammenhang zwischen ID1-Ausdruck und Überlebensergebnis analysiert. Das Operationsverfahren vereinfacht das Konzept, multidimensionale Datentypen auf der Genebene aus verschiedenen Datenbanken und Testhypothesen auf Rezidiven und genomischen Kontext von Genveränderungsereignissen bei Brustkrebs zu integrieren. Diese Methode kann die Glaubwürdigkeit und Repräsentativität der Schlussfolgerungen verbessern und damit eine informative Perspektive auf ein Gen von Interesse bieten.

Introduction

Brustkrebs ist eine heterogene Erkrankung mit unterschiedlichen Prognose-und Behandlungsstrategien in verschiedenen molekularen Subtypen, bei der die Pathogenese und-entwicklung wahrscheinlich mit unterschiedlichen molekularen Mechanismen 1^{, 2 in} Verbindung gebracht werden. ^, ³. Die Identifizierung eines therapeutischen Ziels dauert jedoch in der Regel Jahre oder sogar Jahrzehnte, von der ersten Entdeckung in derGrundlagenforschung bis zur klinischen Anwendung 4. Die genomweite Anwendung der Hochdurchsatz-Sequenzierungstechnologie für Krebsgenom hat den Prozess der Suche nach wertvollen Biomarkern oder therapeutischen Zielen 5 stark vorangetrieben.

Die überwältigende Menge an Krebsgenomik-Daten, die von den großen Krebs-Genomik-Plattformen wie dem ICGC (International Cancer Genome Consortium) und dem TCGA (The Cancer Genome Atlas) generiert werden, stellt die Forscher vor eine große Herausforderung, Daten durchzuführen. Exploration, Integration und Analytik, insbesondere für Anwender, die nicht intensiv in Informatik und Berechnung 6,⁷^{, 8,}⁹^,¹⁰^. In den letzten Jahren wurden neue Datenbanken (z.B. ONCOMINE, bcGenExMiner v4.0 und Kaplan-Meier Plotter, etc.) entwickelt und entwickelt, um die Messlatte für die Annäherung an die komplexen genetischen Daten des Krebses zu senken und so den Forschern die Analyse zu erleichtern und Interpretieren Sie die Gene, Proben und klinischen Daten über verschiedene Krebsarten 11. Ziel dieses Protokolls ist es, eine Forschungsstrategie zu beschreiben, die mit mehreren Ebenen von Geninformationen aus einer Reihe von Open-Access-Datenbanken integriert ist, die von einer Vielzahl von Forschern weithin anerkannt wurden, um die potenziellen Biomarker zu identifizieren und Prognostische Faktoren für Brustkrebs.

Die ONCOMINE Datenbank ist eine webbasierte Data-Mining-Plattform mit Krebs-Mikroarray-Informationen und soll die Entdeckung neuartiger Biomarker und therapeutischer Ziele^{11 erleichtern}. Derzeit gibt es in dieser Datenbank 11,¹²mehr als 48 Millionen Genexpressionsmessungen von 65Genexpressionsdatensätzen. Die bcGenExMiner v4.0 (ein kostenloses Tool für gemeinnützige Einrichtung), auch Brustkrebs Gene-Expression Miner genannt, ist eine benutzerfreundliche webbasierte Anwendung, die DNA-Mikroarrays Ergebnisse von 3.414 erholten Brustkrebspatientinnen enthält und 1.209 Erfahrungen erlebten. Abstimmungsvolle Veranstaltung¹³. Es wurde entwickelt, um die Leistung der genetischen Prognoseanalyse mit statistischer Software und-Paketen zu verbessern.

Das GOBO ist ein multifunktionales, benutzerfreundliches Online-Tool mit Mikroarrox-Informationen (z.B. Affymetrix U133A) aus einem 51-Proben-Brustkrebszellensatz und einem 1881-Proben-Brusttumordatensatz, der eine Vielzahl von Analysen ermöglicht 14. In der GOBO-Datenbank gibt es eine Vielzahl von Anwendungen, die eine schnelle Analyse von Genexpressionsprofilen in verschiedenen molekularen Subtypen von Brusttumoren und Zelllinien, das Screening auf mitausgedrückte Gene zur Erzeugung potenzieller Metagen und das Screening von Co-Expressen für die Entstehung potenzieller Metagen und die Analyse von Genexpressionsprofilen für die Entstehung potenzieller Metagen und die Analyse von Genexpressionsprofilen in verschiedenen molekularen Subtypen von Brusttumoren und Zelllinien, das Screening auf mitausgedrückte Gene zur Erzeugung potenzieller Metenen und die Bereitstellung von Korrelationsanalyse zwischen Ergebnis und Genexpression von einzelnen Genen, Gensätzen oder Gen-Signaturen in Brustkrebsdaten setzen sich auf 15.

Der Human Protein Atlas ist ein Open-Access-Programm, das für Wissenschaftler entwickelt wurde, um menschliche Proteome zu erforschen, die bereits zu einer Vielzahl von Publikationen auf dem Gebiet der menschlichen Biologie und Krankheit beigetragen haben. Der Human Protein Atlas ist als europäische Kernressource für Life-Science-Community 16^,¹⁷anerkannt.

Der Kaplan Meier Plotter ist ein Online-Tool, das die Genexpression und klinische Daten gleichzeitig integriert und die prognostizistische Wirkung von 54.675 Genen auf der Grundlage von 10.461 KrebsProben, darunter 1.065 gastric, 2.437 Lunge, 1.816 Eierstöcke und 5.143, ermöglicht. Brustkrebspatientinnen mit einer mittleren Nachbeobachtung von 33/49/40/69 Monate¹⁸. Informationen zur Genexpression, zum rückfallfreien Überleben (RFS) und zum Gesamtüberleben (OS) sind aus dieser Datenbank^19,20^{heruntergeladen}.

Hier beschreiben wir ein praktisches Operationsverfahren, bei dem mehrere öffentlich zugängliche Datenbanken verwendet werden, um Veränderungsmuster in der Expression des Interesses über mehrere Krebsstudien hinweg zu vergleichen, zu analysieren und zu visualisieren, mit dem Ziel, die Expressionsprofile, prognostische Werte und mögliche biologische Funktionen bei Brustkrebs. So haben neuere Studien die onkogenen Eigenschaften von ID-Proteinen bei Tumoren aufgezeigt und waren mit bösartigen Merkmalen in Verbindung gebracht worden, darunter zelluläre Transformation, Verewigung, verstärkte Proliferation und Metastasen 21^, ²²^,²³. Allerdings spielt jedes Mitglied der ID-Familie unterschiedliche Rollen in verschiedenen Arten von soliden Tumoren, und ihre Rolle bei Brustkrebs bleibt unklar²⁴. In früheren Studien, die mit dieser Methode untersucht wurden, stellten wir fest, dass ID1 ein aussagekräftiger prognostischer Indikator für Brustkrebs 25 war. Daher wird das Protokoll ID1 als Beispiel für die Einführung der Data-Mining-Methoden nehmen.

Die Analyse beginnt damit, das Ausdrucksmuster des Gens von Interesse an Krebsproben vs. normalen Proben in ONCOMINE zu hinterfragen. Dann wurde der Ausdruck Korrelation von Genen von Interesse an Brustkrebs mit dem bc-GenExMiner v4.0, GOBO und ONCOMINE durchgeführt. Als nächstes wurden die Expressionsprofile von ID1 nach verschiedenen Untergruppen mit den oben genannten drei Datenbanken geschichtet. Schließlich wurde der Zusammenhang zwischen ID1-Ausdruck und Überleben aus mit bc-GenExMiner v4.0, dem menschlichen Proteinatlas, und Kaplan-Meier-Plotter analysiert. Der Operationsvorgang wurde als Flussdiagramm in Abbildung1 gezeigt.

Protocol

1. Ausdrucksmuster Analyse Gehen Sie zur ONCOMINE Webschnittstelle26. Erhalten Sie die relativen Expressionswerte des Gens ID1 in verschiedenen Arten von bösartigen Erkrankungen, indem Sie ID1 in die Suchboxeingeben. Wählen Sie den Analysetyp aus dem Menü Primärfilter . Wählen Sie dann Krebs vs . NormaleAnalyse, Brustkrebs vs. NormaleAnalyse. …

Representative Results

Ein repräsentatives Ergebnis des Data-Mining und der integrativen Analyse von Brustkrebsbiomarker wurde mit ID1 durchgeführt, einem der Inhibitoren von DNA-bindenden Familienmitgliedern, die in der vorherigen Studie 25 berichtet wurden. Wie in Abbildung2 gezeigt, wurden die Unterschiede der ID1 mRNA-Expression zwischen Tumor und normalem Gewebe bei mehreren Krebsarten anhan…

Discussion

Eine umfassende Analyse öffentlicher Datenbanken kann die zugrunde liegende Funktion des Gens von Interesse aufzeigen und den möglichen Zusammenhang zwischen diesem Gen und klinikathologischen Parametern in bestimmten Krebsarten²⁷^,³¹aufzeigen. Die Erkundung und Analyse auf der Grundlage einer einzigen Datenbank könnte aufgrund der potenziellen Selektionsneigung oder in gewissem Maße, möglicherweise aufgrund der Vielfalt der Datenqualität, einschließlich de…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Diese Arbeit wurde teilweise von der Natural Science Foundation der Provinz Guangdong, China (Nr. 2018A030313562), dem Lehrreformprojekt der Guangdong Clinical Teaching Base (NO. 2016JDB092), National Natural Science Foundation of China (81600358), und Youth Innovative Talent Project of Colleges and Universities in Guangdong Province, China (NO. 2017KQNCX073)

Materials

A personal computer or computing device with an Internet browser with Javascript enabled	Microsoft	051690762553	We support and test the following browsers: Google Chrome, Firefox 3.0 and above, Safari, and Internet Explorer 9.0 and above
Adobe Flash player	Adobe Systems Inc.	It can be freely downloaded from http://get.adobe.com/flashplayer/.	This browser plug-in is required for visualizing networks on the network analysis tab.
Chrome Broswer	Google Inc.	It can be freely downloaded from https://www.google.cn/chrome/	This is necessary for viewing PDF files including the Pathology Reports and many of the downloadable files.
Java Runtime Environment	Oracle Corporation	It can be downloaded from http://www.java.com/getjava/.
Office 365 ProPlus for Faculty	Microsoft	2003BFFD8117EA68	This is necessary for viewing the Pathology Reports and for viewing many of the downloadable files.
Vectr Online	Vectr Labs Inc.	It can be freely used from https://vectr.com/new	This is necessary for visualizing and editing many of the downloadable files and pictures.

References

van 't Veer, L. J., et al. Gene expression profiling predicts clinical outcome of breast cancer. Nature. 415 (6871), 530-536 (2002).
Loi, S., et al. Definition of clinically distinct molecular subtypes in estrogen receptor-positive breast carcinomas through genomic grade. Journal of Clinical Oncology. 25 (10), 1239-1246 (2007).
Cancer Genome Atlas, N. Comprehensive molecular portraits of human breast tumours. Nature. 490 (7418), 61-70 (2012).
Emerson, J. W., Dolled-Filhart, M., Harris, L., Rimm, D. L., Tuck, D. P. Quantitative assessment of tissue biomarkers and construction of a model to predict outcome in breast cancer using multiple imputation. Cancer Informatics. 7, 29-40 (2009).
Yu, H., et al. Integrative genomic and transcriptomic analysis for pinpointing recurrent alterations of plant homeodomain genes and their clinical significance in breast cancer. Oncotarget. 8 (8), 13099-13115 (2017).
He, W., et al. TCGA datasetbased construction and integrated analysis of aberrantly expressed long noncoding RNA mediated competing endogenous RNA network in gastric cancer. Oncology Reports. , (2018).
Liu, J., et al. An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics. Cell. 173 (2), 400-416 (2018).
Esgueva, R., et al. Next-generation prostate cancer biobanking: toward a processing protocol amenable for the International Cancer Genome Consortium. Diagnostic Molecular Pathology. 21 (2), 61-68 (2012).
Joly, Y., Dove, E. S., Knoppers, B. M., Bobrow, M., Chalmers, D. Data sharing in the post-genomic world: the experience of the International Cancer Genome Consortium (ICGC) Data Access Compliance Office (DACO). PLoS Computational Biology. 8 (7), e1002549 (2012).
Zhang, J., et al. International Cancer Genome Consortium Data Portal–a one-stop shop for cancer genomics data. Database (Oxford). 2011, (2011).
Rhodes, D. R., et al. ONCOMINE: a cancer microarray database and integrated data-mining platform. Neoplasia. 6 (1), 1-6 (2004).
Rhodes, D. R., et al. Oncomine 3.0: genes, pathways, and networks in a collection of 18,000 cancer gene expression profiles. Neoplasia. 9 (2), 166-180 (2007).
Jezequel, P., et al. bc-GenExMiner: an easy-to-use online platform for gene prognostic analyses in breast cancer. Breast Cancer Research and Treatment. 131 (3), 765-775 (2012).
Ringner, M., Fredlund, E., Hakkinen, J., Borg, A., Staaf, J. GOBO: gene expression-based outcome for breast cancer online. PLoS One. 6 (3), e17911 (2011).
Ponten, F., Jirstrom, K., Uhlen, M. The Human Protein Atlas–a tool for pathology. Journal of Pathology. 216 (4), 387-393 (2008).
Ponten, F., Schwenk, J. M., Asplund, A., Edqvist, P. H. The Human Protein Atlas as a proteomic resource for biomarker discovery. Journal of Internal Medicine. 270 (5), 428-446 (2011).
Gyorffy, B., et al. An online survival analysis tool to rapidly assess the effect of 22,277 genes on breast cancer prognosis using microarray data of 1,809 patients. Breast Cancer Research and Treatment. 123 (3), 725-731 (2010).
Stevinson, C., Lawlor, D. A. Searching multiple databases for systematic reviews: added value or diminishing returns?. Complementary Therapies in Medicine. 12 (4), 228-232 (2004).
Yin, J., et al. Integrating multiple genome annotation databases improves the interpretation of microarray gene expression data. BMC Genomics. 11, 50 (2010).
Patel, D., Morton, D. J., Carey, J., Havrda, M. C., Chaudhary, J. Inhibitor of differentiation 4 (ID4): From development to cancer. Biochimica et Biophysica Acta. 1855 (1), 92-103 (2015).
Kamalian, L., et al. Increased expression of Id family proteins in small cell lung cancer and its prognostic significance. Clinical Cancer Research. 14 (8), 2318-2325 (2008).
Cruz-Rodriguez, N., et al. High expression of ID family and IGJ genes signature as predictor of low induction treatment response and worst survival in adult Hispanic patients with B-acute lymphoblastic leukemia. Journal of Experimental and Clinical Cancer Research. 35, 64 (2016).
Yang, H. Y., et al. Expression and prognostic value of Id protein family in human breast carcinoma. Oncology Reports. 23 (2), 321-328 (2010).
Zhou, X. L., et al. Prognostic values of the inhibitor of DNAbinding family members in breast cancer. Oncology Reports. 40 (4), 1897-1906 (2018).
. Available from: https://www.oncomine.org (2018)
Lin, H. Y., Zeng, L., iang, Y. K., Wei, X. L., Chen, C. F. GATA3 and TRPS1 are distinct biomarkers and prognostic factors in breast cancer: database mining for GATA family members in malignancies. Oncotarget. 8 (21), 34750-34761 (2017).
. Available from: https://www.proteinatlas.org (2018)
Zhu, Y. F., Dong, M. Expression of TUSC3 and its prognostic significance in colorectal cancer. Pathology-Research and Practice. 214 (9), 1497-1503 (2018).
Nelson, J. C., et al. Validation sampling can reduce bias in health care database studies: an illustration using influenza vaccination effectiveness. Journal of Clinical Epidemiology. 66 (8 Suppl), S110-S121 (2013).
Haibe-Kains, B., Desmedt, C., Sotiriou, C., Bontempi, G. A comparative study of survival models for breast cancer prognostication based on microarray data: does a single gene beat them all?. Bioinformatics. 24 (19), 2200-2208 (2008).
Yang, C., et al. Understanding genetic toxicity through data mining: the process of building knowledge by integrating multiple genetic toxicity databases. Toxicology Mechanisms and Methods. 18 (2-3), 277-295 (2008).
Cannata, N., Merelli, E., Altman, R. B. Time to organize the bioinformatics resourceome. PLoS Computational Biology. 1 (7), e76 (2005).
Wren, J. D., Bateman, A. Databases, data tombs and dust in the wind. Bioinformatics. 24 (19), 2127-2128 (2008).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Chen, M., Zeng, D., Zheng, Z., Li, Z., Wu, J., Jin, J., Wang, H., Huang, C., Lin, H. Performing Data Mining And Integrative Analysis Of Biomarker in Breast Cancer Using Multiple Publicly Accessible Databases. J. Vis. Exp. (147), e59238, doi:10.3791/59238 (2019).

Die Durchführung von Datenkinining und die integrative Analyse von Biomarker bei Brustkrebs mit mehreren, öffentlich zugänglichen Datenbanken

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

Die Durchführung von Datenkinining und die integrative Analyse von Biomarker bei Brustkrebs mit mehreren, öffentlich zugänglichen Datenbanken

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below