Ici, nous présentons un protocole pour explorer le biomarqueur et le prédicteur de survie du cancer du sein sur la base de l’analyse exhaustive des ensembles de données cliniques regroupées provenant d’une variété de bases de donnees accessibles au public, en utilisant la stratégie d’expression, de corrélation et l’analyse de survie pas à pas.
Ces dernières années, les bases de données émergentes ont été conçues pour réduire les barrières à l’approche des ensembles de données génomiques complexes du cancer, facilitant ainsi les enquêteurs pour analyser et interpréter les gènes, les échantillons et les données cliniques sur différents types de cancers. Dans les présentes, nous décrivons une procédure d’opération pratique, en prenant l’exemple de l’ADN (inhibiteur des protéines de liaison 1), pour caractériser les schémas d’expression des biomarqueurs et des prédicteurs de survie du cancer du sein basés sur des ensembles de données cliniques groupés dérivés de bases de données accessibles en ligne, y compris ONCOMINE, bcGenExMiner v 4.0 (Breast Cancer gene-expression miner v 4.0), GOBO (résultat basé sur l’expression génique pour le cancer du sein en ligne), HPA (l’Atlas des protéines humaines), et le traceur Kaplan-Meier. L’analyse a commencé par l’interrogation du modèle d’expression du gène d’intérêt (p. ex., le type d’échantillon) dans les échantillons cancéreux par rapport aux échantillons normaux. Ensuite, on a effectué l’analyse de corrélation entre les caractéristiques clinicopathologiques et de l’évaluation du cancer du sein. Ensuite, les profils d’expression de l’, ont été stratifiés selon différents sous-groupes. Enfin, on a analysé l’association entre l’expression et le résultat de survie. La procédure d’opération simplifie le concept pour intégrer des types de données multidimensionnelles au niveau du gène à partir de différentes bases de données et des hypothèses de test concernant la récurrence et le contexte génomique des événements d’altération génique dans le cancer du sein. Cette méthode peut améliorer la crédibilité et la représentativité des conclusions, ce qui présente une perspective informative sur un gène d’intérêt.
Le cancer du sein est une maladie hétérogène avec diverses stratégies de pronostic et de traitement dans différents sous-types moléculaires, dans lesquels la pathogenèse et le développement sont probablement associés à des mécanismes moléculaires disparates1,2 , 3. Cependant, l’identification d’une cible thérapeutique prend habituellement des années, voire des décennies, de la découverte initiale dans la recherche fondamentale à l’utilisation clinique4. L’application à l’échelle du génome de la technologie de séquençage à haut débit pour le génome du cancer a grandement avancé le processus de recherche de biomarqueurs précieux ou de cibles thérapeutiques 5.
La quantité écrasante de données sur la génomique du cancer générées par les plates-formes de génomique du cancer à grande échelle, telles que l’ICGC (International cancer génome Consortium) et TCGA (l’Atlas du génome du cancer), pose un grand défi pour les chercheurs d’effectuer des données exploration, intégration et analytique, en particulier pour les utilisateurs dépourvus de formation intensive en informatique et en calcul6,7,8,9,10. Ces dernières années, des bases de données émergentes (p. ex., ONCOMINE, bcGenExMiner v 4.0, et le traceur Kaplan-Meier, etc.) ont été conçues et développées pour abaisser la barre pour approcher les ensembles de données génomiques complexes du cancer, facilitant ainsi les enquêteurs à analyser et interpréter les gènes, les échantillons et les données cliniques sur différents types de cancers11. Le but de ce protocole est de décrire une stratégie de recherche qui s’intègre à de multiples niveaux d’information génique provenant d’une série de bases de données à accès libre, qui ont été largement reconnues par un grand nombre de chercheurs, pour identifier les biomarqueurs potentiels et facteurs pronostiques du cancer du sein.
La base de données ONCOMINE est une plate-forme d’exploration de données basée sur le Web avec des informations sur les MICROMATRICES cancéreuses et est conçue pour faciliter la découverte de nouveaux biomarqueurs et de cibles thérapeutiques11. Actuellement, il y a plus de 48 millions mesures d’expression génique de 65 datasets d’expression génique dans cette base de données11,12. Le bcGenExMiner v 4.0 (un outil gratuit pour l’institution à but non lucratif), également appelé cancer du sein gene-expression miner, est une application Web conviviale comprenant des résultats de microarrays d’ADN de 3 414 patients atteints de cancer du sein récupérés et 1 209 a connu un événement péjoratif13. Il est conçu pour améliorer les performances d’analyse pronostique des gènes avec les logiciels et les packages statistiques R.
Le GOBO est un outil en ligne multifonctionnel et convivial avec des informations sur les microarrays (par exemple, Affymetrix U133A) à partir d’un ensemble de cellules cancéreuses du sein à échantillon de 51 et un ensemble de données sur les tumeurs mammaires de 1881 échantillons, qui permet un large éventail d’analyses14. Il existe une variété d’applications disponibles dans la base de données GOBO, qui comprennent l’analyse rapide des profils d’expression génique dans différents sous-types moléculaires des tumeurs du sein et des lignées cellulaires, le dépistage des gènes co-exprimés pour la création de métagènes potentiels, et analyse de corrélation entre le résultat et les niveaux d’expression génique des gènes isolés, des ensembles de gènes ou des signatures génétiques dans les données du cancer du sein ensemble15.
L’Atlas des protéines humaines est un programme d’accès ouvert destiné aux scientifiques à explorer le protéome humain, qui a déjà contribué à un grand nombre de publications dans le domaine de la biologie humaine et de la maladie. L’Atlas des protéines humaines est reconnu comme une ressource de base européenne pour la communauté des sciences de la vie16,17.
Le traceur Kaplan Meier est un outil en ligne intégrant l’expression génique et les données cliniques simultanément qui permet l’évaluation de l’effet pronostique de 54 675 gènes basés sur 10 461 échantillons de cancer, qui comprennent 1 065 gastrique, 2 437 poumon, 1 816 ovarienne et 5 143 patients atteints de cancer du sein avec un suivi moyen de 33/49/40/69 mois18. Les informations sur l’expression génique, la survie sans rechute (RFS) et la survie globale (OS) sont téléchargeables à partir de cette base de données19,20.
Ici, nous décrivons une procédure pratique d’utilisation de plusieurs bases de données accessibles au public pour comparer, analyser et visualiser les modèles de modifications dans l’expression du gène d’intérêt dans plusieurs études sur le cancer, dans le but de résumer les les profils d’expression, les valeurs pronostiques et les fonctions biologiques potentielles dans le cancer du sein. Par exemple, des études récentes ont indiqué les propriétés oncogéniques des protéines d’identification dans les tumeurs et ont été associées à des caractéristiques malignes, y compris la transformation cellulaire, l’immortalisation, la prolifération accrue et les métastases21, 22,23. Cependant, chaque membre de la famille d’ID joue des rôles distincts dans différents types de tumeurs solides, et leur rôle dans le cancer du sein reste incertain24. Dans des études antérieures, explorées par cette méthode, nous avons constaté que l’indice de pronostic était un indicateur pronostique significatif dans le cancer du sein25. Par conséquent, le protocole prendra l’exemple de la méthode pour introduire les méthodes d’exploration de données.
L’analyse commence par l’interrogation du modèle d’expression du gène d’intérêt dans les échantillons cancéreux par rapport aux échantillons normaux dans ONCOMINE. Ensuite, la corrélation d’expression des gènes d’intérêt dans le cancer du sein a été réalisée en utilisant le BC-GenExMiner v 4.0, GOBO, et ONCOMINE. Ensuite, les profils d’expression de l’, ont été stratifiés selon différents sous-groupes à l’aide des trois bases de données ci-dessus. Enfin, on a analysé l’association entre l’expression et la survie en utilisant BC-GenExMiner v 4.0, l’Atlas des protéines humaines et le traceur Kaplan-Meier. La procédure d’opération a été montrée comme organigramme dans la figure 1.
Une analyse exhaustive des bases de données publiques peut indiquer la fonction sous-jacente du gène d’intérêt et révéler le lien potentiel entre ce gène et les paramètres clinicopathologiques dans le cancer spécifique27,31. L’exploration et l’analyse basées sur une seule base de données peuvent fournir des perspectives limitées ou isolées en raison du biais potentiel de sélection, ou dans une certaine mesure, peut-être en raison de la varié…
The authors have nothing to disclose.
Ce travail a été partiellement soutenu par la Fondation des sciences naturelles de la province de Guangdong, Chine (no. 2018A030313562), le projet de réforme pédagogique de la base d’enseignement clinique de Guangdong (NO. 2016JDB092), Fondation nationale des sciences naturelles de la Chine (81600358), et projet de jeunes talents innovants des collèges et universités dans la province de Guangdong, Chine (n ° 2017KQNCX073)
A personal computer or computing device with an Internet browser with Javascript enabled |
Microsoft | 051690762553 | We support and test the following browsers: Google Chrome, Firefox 3.0 and above, Safari, and Internet Explorer 9.0 and above |
Adobe Flash player | Adobe Systems Inc. | It can be freely downloaded from http://get.adobe.com/flashplayer/. | This browser plug-in is required for visualizing networks on the network analysis tab. |
Chrome Broswer | Google Inc. | It can be freely downloaded from https://www.google.cn/chrome/ | This is necessary for viewing PDF files including the Pathology Reports and many of the downloadable files. |
Java Runtime Environment | Oracle Corporation | It can be downloaded from http://www.java.com/getjava/. | |
Office 365 ProPlus for Faculty | Microsoft | 2003BFFD8117EA68 | This is necessary for viewing the Pathology Reports and for viewing many of the downloadable files. |
Vectr Online | Vectr Labs Inc. | It can be freely used from https://vectr.com/new | This is necessary for visualizing and editing many of the downloadable files and pictures. |