Logo Logo
Hilfe
Kontakt
Switch language to English
Baurecht, Hansjörg (2017): Compare and Contrast Meta Analysis (CCMA): an application for genomewide association studies. Dissertation, LMU München: Fakultät für Mathematik, Informatik und Statistik
[img]
Vorschau
PDF
Baurecht_Hansjoerg.pdf

8MB

Abstract

Genetic epidemiology has moved from linkage studies via candidate gene association studies towards genome wide association studies (GWAS), which use single nucleotide variants (SNVs), the smallest genetic entity, to map diseases to susceptibility loci in a hypothesis free way. The era of GWAS started in 2005, when high throughput genotyping became feasible and affordable, and it has since been a great success. GWAS have revealed many markers associated with complex diseases, and meta-analyses of several GWAS further increased the set of known disease-related variants. Besides the identification of disease specific effects, GWAS-based methods revealed susceptibility loci shared between several clinically related and also unrelated diseases. These pleiotropic loci are of high biological interest considering that they may mark shared or branching pathophysiological mechanisms. Customized genotyping arrays, e.g. the Immunochip, further supported the view that several diseases map to the same susceptibility loci showing agonistic and antagonistic effects. Some methods have been proposed for investigating and searching for genetic overlap between diseases, however there is still a need for sound statistical methods to address this issue. The aim of this thesis was to develop a method based on meta-analysis techniques to compare and contrast two complex diseases, in particular, to find agonistic and antagonistic loci that may contribute to the understanding of the genetic architecture of psoriasis and atopic eczema. This work presents a new method, the Compare & Contrast Meta Analysis (CCMA), which allows researchers to compare and contrast two diseases on a genetic basis. Meta-analysis techniques are used to impose a test statistic that allows for identifying agonistic and antagonistic effects. A closed form for the density and cumulative distribution function of the CCMA test statistic is presented, which, conveniently for practical reasons, turns out to be exponentially distributed. Hence, thresholds for suggestive and genome- wide significant association can easily be derived and, in contrast to the already reported Subset-Based Meta Analysis (SBMA), the mode of pleiotropy can be inferred directly. Modified versions of the test statistic allow incorporating study size, which, depending on the transformation matrix, improve the power for detecting agonistic or antagonistic effects. The power and type I error of the CCMA method are compared with those of the SBMA method by simulation. The CCMA method shows marginally lower power than SBMA but the type I error is better controlled. The CCMA method is applied to several published GWAS on atopic eczema and psoriasis. In order to compare it with the computer intensive multinomial regression models (MNM), the SBMA is used to reduce the vast amount of SNVs to those showing at least suggestive disease-specific or pleiotropic effects. These SNVs are reanalyzed using MNM, and their effect categorization (disease-specific or pleiotropic) is compared with the ones obtained by the CCMA method. The comparison reveals high agreement of 85.5% overall and 93.6% without the most complex Human Leukocyte Antigen (HLA) region, which demonstrates the usability of the new method. Finally, the CCMA is compared with the COMPARED & OVERLAP approach in terms of identification of associated SNVs and concordance of effect categorization with the MNM as gold standard. This work shows that the CCMA method is an appealing approach to identify disease-specific and pleiotropic loci using available GWAS data and effectively exploits additional cross-phenotype information. It shows comparable power to the SBMA method while better controlling the type 1 error and outperforms the COMPARED & OVERLAP approach. It shows high agreement with the MNM in terms of effect categorization. Finally, the CCMA method can also be applied to other genome-wide molecular data such as gene expression, epigenomics or metabolomics, as well as to other research questions that arise in environmental epidemiology. In that context, the influence of lifestyle factors or environmental exposures on two different diseases can be investigated with regard to their concordant or contrasting effect.

Abstract

Die genetische Epidemiologie hat sich in den letzten Jahren von Kopplungsstudien über Kandidatengen-Assoziationsstudien hin zu genomweiten Assoziationsstudien (GWAS) entwickelt, welche basierend auf der kleinsten genetischen Einheit, den Einzelnukleotidvari- anten (single nucleotide variants, SNVs), Erkrankungen auf agnostische Weise im Genom kartiert. Die Ära der GWAS, die 2005 begann, als die Hochdurchsatzgenotypisierung zu annehmbaren Kosten technisch realisierbar wurde, war ein großer Erfolg. GWAS haben viele Marker, die mit komplexen Erkrankungen assoziiert sind, identifiziert, und Meta-Analysen von mehreren GWAS zur gleichen Erkrankung haben die Menge der bekannten krankheitsbezogenen Varianten erweitert. Neben krankheitsspezifischen Effekten wurden mit GWAS-basierten Methoden gemeinsame Loci von klinisch verwandten und nicht verwandten Erkrankungen entdeckt. Diese pleiotropen Loci sind von großem biologis- chem Interesse, da sie gemeinsame und verzweigende pathophysiologische Mechanismen anzeigen. Die erfolgreiche Verwendung nutzerspezifischer Genchips, wie z.B. des Immunochip, belegen die Vermutung, dass verschiedenen Erkrankungen dieselben Suszeptibilitätsloci zugrunde liegen, die agonistische oder antagonistische Effekte aufweisen. Es wurden bereits statistische Methoden entwickelt, um gemeinsame genetische Komponenten verschiedener Erkrankungen zu identifizieren, jedoch besteht weiterhin Forschungsbedarf in diesem Bereich. Ziel dieser Arbeit ist es, eine auf Meta-Analyse basierende Methode zu entwickeln, um zwei komplexe Erkrankungen zu vergleichen und zu kontrastieren, insbesondere um agonistische und antagonistische Loci zu identifizieren, die zum Verständnis der genetischen Grundlage der Psoriasis und des atopischem Ekzems beitragen. Die vorliegende Arbeit präsentiert die Compare & Contrast Meta Analysis (CCMA) Methode, die es erlaubt, zwei Erkrankungen hinsichtlich ihrer genetischen Grundlage zu vergleichen und zu kontrastieren. Dazu wird eine Teststatistik basierend auf Meta-Analyse-Ergebnissen entwickelt, die agonistische und antagonistische Effekte untersucht. Für die Verteilung der Teststatistik kann eine geschlossene Form angegeben werden, die kritische Werte für suggestive und genomweite signifikante Assoziationen liefert. Analy- sen zur Power und zum Fehler 1. Art werden durchgeführt, um die CCMA-Methode mit der bereits bekannten Subset-Based Meta-Analyse (SBMA) zu vergleichen. Die CCMA-Methode wird auf verschiedene GWAS-Daten zur Psoriasis und zum atopischen Ekzem angewendet und selektiert SNVs mit krankheitsspezifischen oder pleiotropen Effekten, die die Signifikanzschranke für suggestive Assoziation unterschreiten. Diese SNVs werden mit Hilfe des multinomialen Regressionsmodells (MNM) erneut analysiert und die Kategorisierung in krankheitsspezifische oder pleiotrope Effekte mit jener der CCMA-Methode verglichen. Eine große Übereinstimmung beider Methoden von 85.5% insgesamt bzw. 93.6% ohne die komplexe humane Leukozytenantigenregion (HLA-Region) bestätigt die Verwendbarkeit der neuen Methode. Schließlich wird die CCMA mit der SBMA und der COMPARED & OVERLAP Methode hinsichtlich identifizierter SNVs und Übereinstimmung der Effektkategorisierung mit dem MNM als Goldstandard verglichen. Die CCMA-Methode basiert auf Meta-Analyse-Teststatistiken mit guter Power und ist schnell und einfach zu implementieren. Sie kann sowohl pleiotrope als auch krankheitsspezifische Marker identifizieren. Im Vergleich zu anderen Methoden liegen die Vorteile der CCMA in ihrer Einfachheit und Präzision, ohne individuelle Genotypdaten verwenden zu müssen. Die hohe Übereinstimmung mit dem multinomialen Regressionsmodell als Goldstandard bei der Effektkategorisierung unterstreicht die Nutzbarkeit der neuen Methode.