Notre point de changement bayésien (BCP) algorithme s'appuie sur l'état de l'art des progrès de la modélisation ruptures par modèles de Markov cachés et les applique à immunoprécipitation de la chromatine séquençage (ChIPseq) l'analyse des données. BCP se comporte bien dans les types de données à la fois larges et ponctuées, mais il excelle dans l'identification précise robustes, reproductibles îles de l'enrichissement d'histone diffuse.
ChIPseq est une technique largement utilisée pour étudier les interactions protéine-ADN. Des profils de densité de lecture sont générés à l'aide de la prochaine séquence d'ADN lié à une protéine et l'alignement du lit court à un génome de référence. Régions enrichies sont révélés comme des pics, qui diffèrent souvent de façon spectaculaire dans la forme, en fonction de la protéine cible 1. Par exemple, des facteurs de transcription se lient souvent dans un site et la séquence de manière spécifique et ont tendance à produire des pics ponctuées, alors que les modifications des histones sont plus omniprésents et sont caractérisés par de larges îles diffuses d'enrichissement 2. De manière fiable l'identification de ces régions a été au centre de notre travail.
Algorithmes pour l'analyse des données ChIPseq ont eu recours à diverses méthodes heuristiques, à partir de 3-5 pour plus rigoureuses modèles statistiques, p.ex. modèles de Markov cachés (HMM) 6-8. Nous avons cherché une solution qui réduit au minimum la nécessité de difficile à définir, ad hoc paramètres qui sont souventcompromettre la résolution et de réduire l'utilisation intuitive de l'outil. En ce qui concerne les méthodes basées sur HMM, nous avons cherché à limiter les procédures d'estimation de paramètres et simples, les classifications à états finis qui sont souvent utilisés.
En outre, l'analyse des données ChIPseq conventionnelle implique catégorisation de la lecture devrait profils de densité que soit ponctuée diffuse ou suivie par l'application ultérieure de l'outil approprié. Nous avons également pour but de remplacer la nécessité pour ces deux modèles distincts avec un seul modèle plus polyvalent, qui peut répondre avec compétence l'ensemble du spectre des types de données.
Pour atteindre ces objectifs, nous avons d'abord construit un cadre statistique qui, naturellement, modelés ChIPseq structures de données en utilisant une avance fine pointe de la HMM 9, qui utilise uniquement des formules explicites, une innovation cruciale pour ses avantages de performance. Des modèles plus sophistiqués, puis heuristiques, notre HMM accueille infinies états cachés par unModèle bayésien. Nous l'avons appliquée à l'identification des points de changement de la densité raisonnables lire, ce qui a encore définir des segments de l'enrichissement. Notre analyse a révélé la façon dont notre Changement de point de Bayes (BCP) algorithme a une complexité de calcul réduite, témoigne d'un moment de l'exécution abrégée et empreinte mémoire. L'algorithme PCA a été appliquée avec succès à la fois de pointe et ponctuée d'identification île diffuse avec une précision robuste et limités paramètres définis par l'utilisateur. Cette illustré à la fois sa polyvalence et sa facilité d'utilisation. Par conséquent, nous croyons qu'il peut être mis en œuvre facilement à travers de larges gammes de types de données et les utilisateurs finaux d'une façon qui est facilement comparés et contrastés, ce qui en fait un excellent outil pour ChIPseq analyse de données qui peuvent aider à la collaboration et à la corroboration entre les groupes de recherche. Ici, nous démontrons l'application de la BCP au facteur de transcription existante et les données épigénétiques 10,11 12 à illustrer son utilité.
Nous avons cherché à développer un modèle d'analyse de données permettant d'identifier ChIPseq deux structures ponctuées et diffuse des données aussi bien. Jusqu'à présent, les régions de l'enrichissement, notamment des régions diffuses, qui reflètent les attentes présupposé de taille grande île, ont été difficiles à identifier. Pour résoudre ces problèmes, nous avons utilisé les plus récentes avancées en matière de technologie HMM, qui possèdent de nombreux avantages par rapport…
The authors have nothing to disclose.
STARR Prix de la Fondation (MQZ), NIH ES017166 (MQZ), NSF grant DMS0906593 (HX).
Name of the reagent | Company | Catalogue number | Comments (optional) |
Linux-based workstation |