Modele dap

 

où Ω désigne un sous-ensemble des modèles les plus plausibles sélectionnés à explorer explicitement et l`estimation de l`erreur d`approximation C − ∑ γ → ′ (γ → l = γ → ′ | α →) BF (γ → ′). La clé de l`algorithme DAP est la construction de l`ensemble Ω: il est souhaitable que les modèles en Ω capturent la grande majorité de la masse de probabilité postérieure; d`autre part, Ω devrait être assez compact pour une exploration efficace. Dans cet article, nous proposons deux approches différentes pour construire Ω. Dans les deux cas, nous définissons la taille du modèle d`association, “γ → l”, comme le nombre de QTNs supposé (également connu comme la norme 0 du vecteur γ → l), i.e., “γ → l ‖ = ∑ i = 1pγli, et partitionner l`espace modèle complet de {γ → l} par la taille des modèles d`association , i.e., {γ → l} = {‖ γ → l ‖ = 0} ∪ {‖ γ → l ‖ = 1} ∪… ∪ {‖ γ → l ‖ = p}. Nous réanalysons le jeu de données eQTL inter-population généré à partir du projet GEUVADIS (ressources Web) via la procédure d`inférence proposée en 3 étapes. Dans cette nouvelle analyse, nous nous concentrons sur l`examen de deux types d`annotations génomiques qui sont connues pour influer sur l`enrichissement des eQTNs: la distance SNP au site de départ de la transcription (TSS) du gène cible et les annotations évaluant la capacité d`une mutation ponctuelle à perturber liaison de facteur de transcription (TF). À la suite de Wen et coll., 13, nous regroupons tous les SNP à 100 kb d`un gène dans des bacs non superposés de 1 Ko en fonction de leurs distances par rapport au TSS et utilisons l`étiquette du casier correspondant pour chaque PNS pour représenter sa distance au TSS (DTSS) comme variable catégorique. En outre, un SNP est classé comme un SNP contraignant s`il est prédit de façon à perturber fortement la liaison TF par le modèle CENTIPEDE en utilisant le ENCODE DNaseI data26 (ressources Web). Si un SNP est situé dans une région d`empreinte de DNaseI mais qu`il n`y a pas de preuve solide pour perturber la liaison TF, il est classé comme un SNP d`empreinte; Sinon, le SNP est étiqueté comme un SNP de base. En raison de la contrainte de calcul, notre analyse d`enrichissement précédente rapportée dans Wen et coll. 13 était basée sur une seule itération de l`algorithme MCMC-within-EM (ou EM-MCMC) (c.-à-d., l`E-Step est effectuée par l`algorithme MCMC), parce que notre objectif principal était l`enrichissement Test.

Bien que les preuves soient suffisamment solides à des fins de dépistage, les paramètres d`enrichissement étaient connus pour être gravement sous-estimés. Cette procédure en trois étapes représente une stratégie empirique cohérente de Bayes pour s`adapter au modèle hiérarchique proposé pour l`inférence. Dans les trois étapes, la difficulté de calcul réside dans l`évaluation efficace de la probabilité postérieure PR (γ → l | y → l, GL, α →). Nous proposons un algorithme pour résoudre ce problème dans les sections suivantes. Le progiciel implémentant les approches computationnelles (en langage de programmation C++) est disponible gratuitement (ressources Web). Dans cet article, nous proposons un modèle hiérarchique probabiliste qui est généralisé à partir de notre récente work13 pour décrire les associations génétiques multi-SNP tout en tenant compte des annotations génomiques fonctionnelles. Sur la base de ce modèle, nous considérons l`analyse des données d`association génétique dans deux contextes: les études de cartographie GWASs traditionnelles et moléculaires CIS-QTL. Notez qu`une caractéristique distincte de la cartographie moléculaire QTL est que des dizaines de milliers (ou des centaines de milliers) de phénotypes moléculaires (par exemple, l`expression génique, la méthylation de l`ADN) sont mesurés et analysés simultanément, ce qui impose des statistiques uniques Défis.


 Comentários