Logo Logo
Help
Contact
Switch language to German
Gene expression studies. from case-control to multiple-population-based studies
Gene expression studies. from case-control to multiple-population-based studies
Recent technological developments allow genome-wide scans of gene expression levels. The reduction of costs and increasing parallelization of processing enable the quantification of 47,000 transcripts in up to twelve samples on a single microarray. Thereby the data collection of large population-based studies was improved. During my PhD, I first developed a workflow for the statistical analyses of case-control studies of up to 50 samples. With large population-based data sets generated I established a pipeline for quality control, data preprocessing and correction for confounders, which resulted in substantially improved data. In total, I processed more than 3,000 genome-wide expression profiles using the generated pipeline. With 993 whole blood samples from the population-based KORA (Cooperative Health Research in the Region of Augsburg) study we established one of the largest population-based resource. Using this data set we contributed to a number of transcriptome-wide association studies within national (MetaXpress) and international (CHARGE) consortia. Here I will focus on three studies with main contributions: I) Association study of gene expression levels with blood pressure related phenotypes. II) Association study investigating changes of gene expression levels associated with aging. III) Analysis of the impact of genetic variation on the gene expression levels. National and international collaborations substantially increased the power of the studies and ensured independent replication. Within the German consortium we developed protocols for meta-analyses and optimized preprocessing of diverse data sets. Whole blood is particularly useful because of its easy sampling. Especially, we could show that the impact of genetic variation is very robust and replicable within heterogeneous population-based studies., Moderne technologische Entwicklungen erlauben einen genomweiten Einblick in die Expression der Gene. Die Kostenreduzierung und die Möglichkeit der Parallelisierung bei der Probenvorbereitung erlaubt es 47.000 Transkripte in bis zu zwölf Proben mit einem Microarray gleichzeitig zu quantifizieren. Dadurch wird die Datenerhebung von größeren populations-basierten Studien erleichtert. Während meiner PhD Zeit entwickelte ich zunächst einen Arbeitsablauf für die statistische Analyse von Fall-Kontroll-Studien mit weniger als 50 Proben. Mit der Generierung von populations-basierten Datensätzen etablierte ich eine Pipeline für die Qualitätskontrolle, die Vorbereitung der Daten und die Korrektur für Störfaktoren, was zu einem deutlich verbesserten Datensatz führte. Insgesamt habe ich mit dieser Pipeline mehr als 3.000 genomweite Expressionsprofile für die Auswertung vorbereitet. Mit 993 Proben aus Vollblut von Probanden der populations-basierten KORA-Studie (Kooperative Gesundheitsforschung in der Region Augsburg) haben wir dabei eine der größten populations-basierten Ressourcen geschaffen. Mit diesem Datensatz haben wir zu zahlreichen transkriptom-weiten Assoziationsstudien in nationalen (MetaXpress) und internationalen (CHARGE) Konsortien beigetragen. In dieser Arbeit werde ich mich auf drei Studien, an denen wir maßgeblich beteiligt waren, fokussieren: I) Eine Assoziationsstudie der Genexpressionslevel mit Phänotypen, die im Zusammenhang mit Blutdruck stehen. II) Eine Assoziationsstudie, die die Veränderung der Genexpression im Alter untersuchte. III) Eine Studie über den Einfluss der genetischen Variation auf die Genexpressionslevel. Nationale und internationale Kollaborationen haben die Aussagekraft dieser Studien wesentlich erhöht und konnten unabhängige Replikationen sicher stellen. Im Rahmen des deutschen Konsortiums entwickelten wir Protokolle für Meta-Analysen und optimierten die Vorbereitung von verschiedenen Datensätzen. Dabei erwiesen sich Proben aus Vollblut wegen der einfachen Gewinnung als besonders hilfreich. Außerdem konnten wir zeigen, dass vor allem der Einfluss der genetischen Variation sehr robust und replizierbar innerhalb heterogener populations-basierter Studien ist.
gene expression, eQTLs, transcriptome-wide association studies
Schramm, Katharina
2016
English
Universitätsbibliothek der Ludwig-Maximilians-Universität München
Schramm, Katharina (2016): Gene expression studies: from case-control to multiple-population-based studies. Dissertation, LMU München: Faculty of Medicine
[img]
Preview
PDF
Schramm_Katharina.pdf

9MB

Abstract

Recent technological developments allow genome-wide scans of gene expression levels. The reduction of costs and increasing parallelization of processing enable the quantification of 47,000 transcripts in up to twelve samples on a single microarray. Thereby the data collection of large population-based studies was improved. During my PhD, I first developed a workflow for the statistical analyses of case-control studies of up to 50 samples. With large population-based data sets generated I established a pipeline for quality control, data preprocessing and correction for confounders, which resulted in substantially improved data. In total, I processed more than 3,000 genome-wide expression profiles using the generated pipeline. With 993 whole blood samples from the population-based KORA (Cooperative Health Research in the Region of Augsburg) study we established one of the largest population-based resource. Using this data set we contributed to a number of transcriptome-wide association studies within national (MetaXpress) and international (CHARGE) consortia. Here I will focus on three studies with main contributions: I) Association study of gene expression levels with blood pressure related phenotypes. II) Association study investigating changes of gene expression levels associated with aging. III) Analysis of the impact of genetic variation on the gene expression levels. National and international collaborations substantially increased the power of the studies and ensured independent replication. Within the German consortium we developed protocols for meta-analyses and optimized preprocessing of diverse data sets. Whole blood is particularly useful because of its easy sampling. Especially, we could show that the impact of genetic variation is very robust and replicable within heterogeneous population-based studies.

Abstract

Moderne technologische Entwicklungen erlauben einen genomweiten Einblick in die Expression der Gene. Die Kostenreduzierung und die Möglichkeit der Parallelisierung bei der Probenvorbereitung erlaubt es 47.000 Transkripte in bis zu zwölf Proben mit einem Microarray gleichzeitig zu quantifizieren. Dadurch wird die Datenerhebung von größeren populations-basierten Studien erleichtert. Während meiner PhD Zeit entwickelte ich zunächst einen Arbeitsablauf für die statistische Analyse von Fall-Kontroll-Studien mit weniger als 50 Proben. Mit der Generierung von populations-basierten Datensätzen etablierte ich eine Pipeline für die Qualitätskontrolle, die Vorbereitung der Daten und die Korrektur für Störfaktoren, was zu einem deutlich verbesserten Datensatz führte. Insgesamt habe ich mit dieser Pipeline mehr als 3.000 genomweite Expressionsprofile für die Auswertung vorbereitet. Mit 993 Proben aus Vollblut von Probanden der populations-basierten KORA-Studie (Kooperative Gesundheitsforschung in der Region Augsburg) haben wir dabei eine der größten populations-basierten Ressourcen geschaffen. Mit diesem Datensatz haben wir zu zahlreichen transkriptom-weiten Assoziationsstudien in nationalen (MetaXpress) und internationalen (CHARGE) Konsortien beigetragen. In dieser Arbeit werde ich mich auf drei Studien, an denen wir maßgeblich beteiligt waren, fokussieren: I) Eine Assoziationsstudie der Genexpressionslevel mit Phänotypen, die im Zusammenhang mit Blutdruck stehen. II) Eine Assoziationsstudie, die die Veränderung der Genexpression im Alter untersuchte. III) Eine Studie über den Einfluss der genetischen Variation auf die Genexpressionslevel. Nationale und internationale Kollaborationen haben die Aussagekraft dieser Studien wesentlich erhöht und konnten unabhängige Replikationen sicher stellen. Im Rahmen des deutschen Konsortiums entwickelten wir Protokolle für Meta-Analysen und optimierten die Vorbereitung von verschiedenen Datensätzen. Dabei erwiesen sich Proben aus Vollblut wegen der einfachen Gewinnung als besonders hilfreich. Außerdem konnten wir zeigen, dass vor allem der Einfluss der genetischen Variation sehr robust und replizierbar innerhalb heterogener populations-basierter Studien ist.