Summary

A Novel bayésienne changement de point Algorithme pour l'échelle du génome Analyse des données ChIPseq divers types de

Published: December 10, 2012
doi:

Summary

Notre point de changement bayésien (BCP) algorithme s'appuie sur l'état de l'art des progrès de la modélisation ruptures par modèles de Markov cachés et les applique à immunoprécipitation de la chromatine séquençage (ChIPseq) l'analyse des données. BCP se comporte bien dans les types de données à la fois larges et ponctuées, mais il excelle dans l'identification précise robustes, reproductibles îles de l'enrichissement d'histone diffuse.

Abstract

ChIPseq est une technique largement utilisée pour étudier les interactions protéine-ADN. Des profils de densité de lecture sont générés à l'aide de la prochaine séquence d'ADN lié à une protéine et l'alignement du lit court à un génome de référence. Régions enrichies sont révélés comme des pics, qui diffèrent souvent de façon spectaculaire dans la forme, en fonction de la protéine cible 1. Par exemple, des facteurs de transcription se lient souvent dans un site et la séquence de manière spécifique et ont tendance à produire des pics ponctuées, alors que les modifications des histones sont plus omniprésents et sont caractérisés par de larges îles diffuses d'enrichissement 2. De manière fiable l'identification de ces régions a été au centre de notre travail.

Algorithmes pour l'analyse des données ChIPseq ont eu recours à diverses méthodes heuristiques, à partir de 3-5 pour plus rigoureuses modèles statistiques, p.ex. modèles de Markov cachés (HMM) 6-8. Nous avons cherché une solution qui réduit au minimum la nécessité de difficile à définir, ad hoc paramètres qui sont souventcompromettre la résolution et de réduire l'utilisation intuitive de l'outil. En ce qui concerne les méthodes basées sur HMM, nous avons cherché à limiter les procédures d'estimation de paramètres et simples, les classifications à états finis qui sont souvent utilisés.

En outre, l'analyse des données ChIPseq conventionnelle implique catégorisation de la lecture devrait profils de densité que soit ponctuée diffuse ou suivie par l'application ultérieure de l'outil approprié. Nous avons également pour but de remplacer la nécessité pour ces deux modèles distincts avec un seul modèle plus polyvalent, qui peut répondre avec compétence l'ensemble du spectre des types de données.

Pour atteindre ces objectifs, nous avons d'abord construit un cadre statistique qui, naturellement, modelés ChIPseq structures de données en utilisant une avance fine pointe de la HMM 9, qui utilise uniquement des formules explicites, une innovation cruciale pour ses avantages de performance. Des modèles plus sophistiqués, puis heuristiques, notre HMM accueille infinies états cachés par unModèle bayésien. Nous l'avons appliquée à l'identification des points de changement de la densité raisonnables lire, ce qui a encore définir des segments de l'enrichissement. Notre analyse a révélé la façon dont notre Changement de point de Bayes (BCP) algorithme a une complexité de calcul réduite, témoigne d'un moment de l'exécution abrégée et empreinte mémoire. L'algorithme PCA a été appliquée avec succès à la fois de pointe et ponctuée d'identification île diffuse avec une précision robuste et limités paramètres définis par l'utilisateur. Cette illustré à la fois sa polyvalence et sa facilité d'utilisation. Par conséquent, nous croyons qu'il peut être mis en œuvre facilement à travers de larges gammes de types de données et les utilisateurs finaux d'une façon qui est facilement comparés et contrastés, ce qui en fait un excellent outil pour ChIPseq analyse de données qui peuvent aider à la collaboration et à la corroboration entre les groupes de recherche. Ici, nous démontrons l'application de la BCP au facteur de transcription existante et les données épigénétiques 10,11 12 à illustrer son utilité.

Protocol

1. Préparation des fichiers d'entrée pour l'analyse PCA Alignez le lit court produite à partir du séquençage pistes (ChIP et les bibliothèques d'entrée) au génome de référence appropriée en utilisant le logiciel préféré courte alignement lecture. Les emplacements mappées devraient être convertis en des 6 données de la colonne navigateur extensibles (LIT) format 13 (UCSC Genome Browser, http://genome.ucsc.edu/ ), une …

Representative Results

BCP excelle à identifier les régions d'enrichissement large dans les données de modification des histones. Comme point de référence, nous avons déjà comparé nos résultats à ceux de SICER 3, un outil existant qui a réalisé une excellente performance. Pour mieux illustrer les avantages de BCP, nous avons examiné une modification des histones qui avait été bien étudié pour établir une base pour évaluer les taux de réussite. Dans cet esprit, nous avons ensuite analysé H3K36me3, car il a ?…

Discussion

Nous avons cherché à développer un modèle d'analyse de données permettant d'identifier ChIPseq deux structures ponctuées et diffuse des données aussi bien. Jusqu'à présent, les régions de l'enrichissement, notamment des régions diffuses, qui reflètent les attentes présupposé de taille grande île, ont été difficiles à identifier. Pour résoudre ces problèmes, nous avons utilisé les plus récentes avancées en matière de technologie HMM, qui possèdent de nombreux avantages par rapport…

Disclosures

The authors have nothing to disclose.

Acknowledgements

STARR Prix de la Fondation (MQZ), NIH ES017166 (MQZ), NSF grant DMS0906593 (HX).

Materials

Name of the reagent Company Catalogue number Comments (optional)
Linux-based workstation

References

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Play Video

Cite This Article
Xing, H., Liao, W., Mo, Y., Zhang, M. Q. A Novel Bayesian Change-point Algorithm for Genome-wide Analysis of Diverse ChIPseq Data Types. J. Vis. Exp. (70), e4273, doi:10.3791/4273 (2012).

View Video