Aquí, presentamos un protocolo para explorar el biomarcador y el predictor de supervivencia del cáncer de mama basado en el análisis integral de conjuntos de datos clínicos agrupados derivados de una variedad de bases de datos de acceso público, utilizando la estrategia de expresión, correlación y Análisis de supervivencia paso a paso.
En los últimos años, las bases de datos emergentes fueron diseñadas para reducir las barreras para acercarse a los intrincados datasets genómicos del cáncer, facilitando así a los investigadores el análisis e interpretación de genes, muestras y datos clínicos a través de diferentes tipos de cáncer. En este documento, describimos un procedimiento práctico de operación, tomando ID1 (inhibidor de proteínas de unión al ADN 1) como ejemplo, para caracterizar los patrones de expresión de los predictores de biomarcadores y de supervivencia del cáncer de mama basado en conjuntos de datos clínicos agrupados derivados de bases de datos accesibles en línea, incluyendo ONCOMINE, bcGenExMiner v 4.0 (cáncer de mama-expresión genética v 4.0), GOBO (resultados basados en la expresión génica para el cáncer de mama en línea), HPA (el Atlas de proteína humana), y el trazador de Kaplan-Meier. El análisis comenzó con la consulta del patrón de expresión del gen de interés (p. ej., ID1) en muestras cancerosas frente a muestras normales. Luego, se realizó el análisis de correlación entre las características ID1 y clinicopatológica en el cáncer de mama. A continuación, los perfiles de expresión de ID1 se estratificaron según diferentes subgrupos. Finalmente, se analizó la asociación entre la expresión ID1 y el resultado de supervivencia. El procedimiento de operación simplifica el concepto para integrar tipos de datos multidimensionales a nivel genético a partir de diferentes bases de datos y probar hipótesis sobre la recurrencia y el contexto genómico de los eventos de alteración génica en el cáncer de mama. Este método puede mejorar la credibilidad y la representatividad de las conclusiones, de este modo, presentar la perspectiva informativa sobre un gen de interés.
El cáncer de mama es una enfermedad heterogénea con diversas estrategias de pronóstico y tratamiento en diferentes subtipos moleculares, en los que la patogénesis y el desarrollo se asocian probablemente con mecanismos moleculares dispares de1,2 , 3. sin embargo, la identificación de un objetivo terapéutico suele tardar años, o incluso décadas, desde el descubrimiento inicial en la investigación básica hasta el uso clínico4. La amplia aplicación del genoma de la tecnología de secuenciación de alto rendimiento para el genoma del cáncer ha avanzado mucho en el proceso de búsqueda de biomarcadores valiosos o objetivos terapéuticos 5.
La abrumadora cantidad de datos de genómica del cáncer generados a partir de las plataformas de genómica de cáncer a gran escala, como el ICGC (Consorcio Internacional del genoma del cáncer) y TCGA (el Atlas del genoma del cáncer), plantea un gran desafío para que los investigadores realicen datos exploración, integración y análisis, especialmente para usuarios que carecen de una formación intensiva en informática y computación6,7,8,9,10. En los últimos años, las bases de datos emergentes, (por ejemplo, ONCOMINE, bcGenExMiner v 4.0, y el trazador de Kaplan-Meier, etc.) fueron diseñados y desarrollados para bajar la barra para acercarse a los intrincados datasets genómicos del cáncer, facilitando así a los investigadores para analizar y interpretar los genes, las muestras y los datos clínicos en varios tipos de cáncer11. El objetivo de este protocolo es describir una estrategia de investigación que se integró con múltiples niveles de información génica de una serie de bases de datos de acceso abierto, que han sido ampliamente reconocidas por un gran número de investigadores, para identificar los posibles biomarcadores y factores pronósticos para el cáncer de mama.
La base de datos ONCOMINE es una plataforma de minería de datos basada en la web con información de micromatrices de cáncer y está diseñada para facilitar el descubrimiento de nuevos biomarcadores y objetivos terapéuticos11. Actualmente, hay más de 48 millones mediciones de expresión génica de 65 datasets de expresión génica en esta base de datos11,12. El bcGenExMiner v 4.0 (una herramienta gratuita para la institución sin fines de lucro), también llamado cáncer de mama Gene-Expression Miner, es una aplicación basada en la web fácil de usar que comprende los resultados de microarrays de ADN de 3.414 pacientes de cáncer de mama recuperados y 1.209 experimentaron un evento peyorativo13. Está diseñado para mejorar el rendimiento del análisis de pronósticos genéticos con software estadístico R y paquetes.
El GOBO es una herramienta en línea multifuncional y fácil de usar con información de microarrays (p. ej., Affymetrix U133A) de un conjunto de líneas celulares de cáncer de mama de 51 muestras y un conjunto de datos de tumores mamarios de 1881 muestras, que permite una amplia gama de análisis14. Hay una variedad de aplicaciones disponibles en la base de datos GOBO, que incluyen el análisis rápido de los perfiles de expresión génica en diferentes subtipos moleculares de tumores de mama y líneas celulares, cribado de genes Co-expresados para la creación de metagenos potenciales, y Análisis de correlación entre el resultado y los niveles de expresión génica de genes individuales, conjuntos de genes o firmas genéticas en los datos del cáncer de mama15.
El Atlas de proteínas humanas es un programa de acceso abierto diseñado para que los científicos exploren el proteoma humano, que ya ha contribuido a un gran número de publicaciones en el campo de la biología humana y la enfermedad. El Atlas de proteínas humanas es reconocido como un recurso básico europeo para la comunidad de Ciencias de la vida16,17.
El trazador Kaplan Meier es una herramienta en línea que integra la expresión génica y los datos clínicos simultáneamente que permite la evaluación del efecto pronóstico de 54.675 genes basados en 10.461 muestras de cáncer, que incluyen 1.065 gástrico, 2.437 pulmón, 1.816 ovario y 5.143 pacientes con cáncer de mama con un seguimiento medio de 33/49/40/69 meses18. La información de la expresión génica, la supervivencia sin recidiva (RFS) y la supervivencia global (os) se puede descargar de esta base de datos19,20.
Aquí describimos un procedimiento práctico de uso de múltiples bases de datos accesibles públicamente para comparar, analizar y visualizar patrones de alteraciones en la expresión del gen de interés a través de múltiples estudios oncológicos, con el objetivo de resumir el perfiles de expresión, valores pronósticos y posibles funciones biológicas en el cáncer de mama. Por ejemplo, estudios recientes han indicado las propiedades oncogénicas de las proteínas ID en los tumores y se asociaron con rasgos malignos, incluyendo la transformación celular, la inmortalización, la proliferación mejorada y la metástasis21, 22,23. Sin embargo, cada miembro de la familia de ID desempeña distintos roles en diferentes tipos de tumores sólidos, y su papel en el cáncer de mama sigue siendo incierto24. En estudios previos, explorados a través de este método, descubrimos que ID1 era un indicador pronóstico significativo en el cáncer de mama25. Por lo tanto, el protocolo tomará ID1 como un ejemplo para introducir los métodos de minería de datos.
El análisis comienza por consultar el patrón de expresión del gen de interés en muestras cancerosas frente a muestras normales en ONCOMINE. Entonces, la correlación de la expresión de los genes de interés en el cáncer de mama se realizó utilizando el BC-GenExMiner v 4.0, GOBO, y ONCOMINE. A continuación, los perfiles de expresión de ID1 se estratificaron según diferentes subgrupos utilizando las tres bases de datos anteriores. Finalmente, la asociación entre la expresión ID1 y la supervivencia fuera fue analizada usando BC-GenExMiner v 4.0, el Atlas proteico humano, y el trazador de Kaplan-Meier. El procedimiento de operación se mostró como el diagrama de flujo en la figura 1.
El análisis exhaustivo de las bases de datos públicas puede indicar la función subyacente del gen de interés y revelar el posible vínculo entre este gen y los parámetros clinicopatológicos en el cáncer específico27,31. La exploración y el análisis basados en una sola base de datos pueden proporcionar perspectivas limitadas o aisladas debido al potencial sesgo de selección, o en cierta medida, posiblemente debido a la variedad de calidad de los datos, …
The authors have nothing to disclose.
Esta obra fue apoyada en parte por la Fundación de Ciencias naturales de la provincia de Guangdong, China (no. 2018A030313562), el proyecto de reforma docente de la base de enseñanza clínica de Guangdong (núm. 2016JDB092), Fundación Nacional de Ciencias naturales de China (81600358), y proyecto de talento innovador juvenil de colegios y universidades en la provincia de Guangdong, China (NO. 2017KQNCX073)
A personal computer or computing device with an Internet browser with Javascript enabled |
Microsoft | 051690762553 | We support and test the following browsers: Google Chrome, Firefox 3.0 and above, Safari, and Internet Explorer 9.0 and above |
Adobe Flash player | Adobe Systems Inc. | It can be freely downloaded from http://get.adobe.com/flashplayer/. | This browser plug-in is required for visualizing networks on the network analysis tab. |
Chrome Broswer | Google Inc. | It can be freely downloaded from https://www.google.cn/chrome/ | This is necessary for viewing PDF files including the Pathology Reports and many of the downloadable files. |
Java Runtime Environment | Oracle Corporation | It can be downloaded from http://www.java.com/getjava/. | |
Office 365 ProPlus for Faculty | Microsoft | 2003BFFD8117EA68 | This is necessary for viewing the Pathology Reports and for viewing many of the downloadable files. |
Vectr Online | Vectr Labs Inc. | It can be freely used from https://vectr.com/new | This is necessary for visualizing and editing many of the downloadable files and pictures. |