Logo Logo
Help
Contact
Switch language to German
Bioinformatics Methods for NMR Chemical Shift Data
Bioinformatics Methods for NMR Chemical Shift Data
Nuclear magnetic resonance spectroscopy (NMR) is one of the most important methods for measuring the three-dimensional structure of biomolecules. Despite major progress in the NMR methodology, the solution of a protein structure is still a tedious and time-consuming task. The goal of this thesis is to develop bioinformatics methods which may strongly accelerate the NMR process. This work concentrates on a special type of measurements, the so-called chemical shifts. Chemical shifts are routinely measured at the beginning of a structure resolution process. As all data from the laboratory, chemical shifts may be error-prone, which might complicate or even circumvent the use of this data. Therefore, as the first result of the thesis, we present CheckShift, a method which automatically corrects a frequent error in NMR chemical shift data. However, the main goal of this thesis is the extraction of structural information hidden in chemical shifts. SimShift was developed as a first step in this direction. SimShift is the first approach to identify structural similarities between proteins based on chemical shifts. Compared to methods based on the amino acid sequence alone, SimShift shows its strength in detecting distant structural relationships. As a natural further development of the pairwise comparison of proteins, the SimShift algorithm is adapted for database searching. Given a protein, the improved algorithm, named SimShiftDB, searches a database of solved proteins for structurally homologue entries. The search is based only on the amino acid sequence and the associated chemical shifts. The detected similarities are additionally ranked based on calculations of statistical significance. Finally, the Chemical Shift Pipeline, the main result of this work, is presented. By combining automatic chemical shift error correction (CheckShift) and the database search algorithm (SimShiftDB), it is possible to achieve very high quality in 70% to 80% of the similarities identified. Thereby, only about 10% of the predictions are in error., Die nukleare Magnetresonanz-Spektroskopie (NMR) ist eine der wichtigsten Methoden, um die drei-dimensionale Struktur von Biomolekülen zu bestimmen. Trotz großer Fortschritte in der Methodik der NMR ist die Auflösung einer Proteinstruktur immer noch eine komplizierte und zeitraubende Aufgabe. Das Ziel dieser Doktorarbeit ist es, Bioinformatik-Methoden zu entwickeln, die den Prozess der Strukturaufklärung durch NMR erheblich beschleunigen können. Zu diesem Zweck konzentriert sich diese Arbeit auf bestimmte Messdaten aus der NMR, die so genannten chemischen Verschiebungen. Chemische Verschiebungen werden standardmäßig zu Beginn einer Strukturauflösung bestimmt. Wie alle Labordaten können chemische Verschiebungen Fehler enthalten, die die Analyse erschweren, wenn nicht sogar unmöglich machen. Als erstes Resultat dieser Arbeit wird darum CheckShift präsentiert, eine Methode, die es ermöglich einen weit verbreiteten Fehler in chemischen Verschiebungsdaten automatisch zu korrigieren. Das Hauptziel dieser Doktorarbeit ist es jedoch, strukturelle Informationen aus chemischen Verschiebungen zu extrahieren. Als erster Schritt in diese Richtung wurde SimShift entwickelt. SimShift ermöglicht es zum ersten Mal, strukturelle Ähnlichkeiten zwischen Proteinen basierend auf chemischen Verschiebungen zu identifizieren. Der Vergleich zu Methoden, die nur auf der Aminosäurensequenz basieren, zeigt die Überlegenheit des verschiebungsbasierten Ansatzes. Als eine natürliche Erweiterung des paarweisen Vergleichs von Proteinen wird darauffolgend SimShiftDB vorgestellt. Gegeben ein Protein, durchsucht SimShiftDB eine Datenbank bekannter Proteinstrukturen nach strukturell homologen Einträgen. Die Suche basiert hierbei nur auf der Aminosäuresequenz und den chemischen Verschiebungen des Proteins. Die detektierten Ähnlichkeiten werden zusätzlich nach statistischer Signifikanz bewertet. Mit der Chemical Shift Pipeline wird schließlich das Hauptresultat der Dissertation vorgestellt. Durch die Kombination der automatischen Fehlerkorrektur (CheckShift) mit dem Datenbank-Suchalgorithmus (SimShiftDB), wird in 70% bis 80% der vorhergesagten strukturellen Ähnlichkeiten eine sehr hohe Qualität erreicht. Der Anteil der fehlerhaften Vorhersagen beträgt nur etwa 10%.
chemical shifts, reference correction, database search, alignment, NMR
Ginzinger, Simon Wolfgang
2008
English
Universitätsbibliothek der Ludwig-Maximilians-Universität München
Ginzinger, Simon Wolfgang (2008): Bioinformatics Methods for NMR Chemical Shift Data. Dissertation, LMU München: Faculty of Mathematics, Computer Science and Statistics
[thumbnail of Ginzinger_Simon_Wolfgang.pdf]
Preview
PDF
Ginzinger_Simon_Wolfgang.pdf

1MB

Abstract

Nuclear magnetic resonance spectroscopy (NMR) is one of the most important methods for measuring the three-dimensional structure of biomolecules. Despite major progress in the NMR methodology, the solution of a protein structure is still a tedious and time-consuming task. The goal of this thesis is to develop bioinformatics methods which may strongly accelerate the NMR process. This work concentrates on a special type of measurements, the so-called chemical shifts. Chemical shifts are routinely measured at the beginning of a structure resolution process. As all data from the laboratory, chemical shifts may be error-prone, which might complicate or even circumvent the use of this data. Therefore, as the first result of the thesis, we present CheckShift, a method which automatically corrects a frequent error in NMR chemical shift data. However, the main goal of this thesis is the extraction of structural information hidden in chemical shifts. SimShift was developed as a first step in this direction. SimShift is the first approach to identify structural similarities between proteins based on chemical shifts. Compared to methods based on the amino acid sequence alone, SimShift shows its strength in detecting distant structural relationships. As a natural further development of the pairwise comparison of proteins, the SimShift algorithm is adapted for database searching. Given a protein, the improved algorithm, named SimShiftDB, searches a database of solved proteins for structurally homologue entries. The search is based only on the amino acid sequence and the associated chemical shifts. The detected similarities are additionally ranked based on calculations of statistical significance. Finally, the Chemical Shift Pipeline, the main result of this work, is presented. By combining automatic chemical shift error correction (CheckShift) and the database search algorithm (SimShiftDB), it is possible to achieve very high quality in 70% to 80% of the similarities identified. Thereby, only about 10% of the predictions are in error.

Abstract

Die nukleare Magnetresonanz-Spektroskopie (NMR) ist eine der wichtigsten Methoden, um die drei-dimensionale Struktur von Biomolekülen zu bestimmen. Trotz großer Fortschritte in der Methodik der NMR ist die Auflösung einer Proteinstruktur immer noch eine komplizierte und zeitraubende Aufgabe. Das Ziel dieser Doktorarbeit ist es, Bioinformatik-Methoden zu entwickeln, die den Prozess der Strukturaufklärung durch NMR erheblich beschleunigen können. Zu diesem Zweck konzentriert sich diese Arbeit auf bestimmte Messdaten aus der NMR, die so genannten chemischen Verschiebungen. Chemische Verschiebungen werden standardmäßig zu Beginn einer Strukturauflösung bestimmt. Wie alle Labordaten können chemische Verschiebungen Fehler enthalten, die die Analyse erschweren, wenn nicht sogar unmöglich machen. Als erstes Resultat dieser Arbeit wird darum CheckShift präsentiert, eine Methode, die es ermöglich einen weit verbreiteten Fehler in chemischen Verschiebungsdaten automatisch zu korrigieren. Das Hauptziel dieser Doktorarbeit ist es jedoch, strukturelle Informationen aus chemischen Verschiebungen zu extrahieren. Als erster Schritt in diese Richtung wurde SimShift entwickelt. SimShift ermöglicht es zum ersten Mal, strukturelle Ähnlichkeiten zwischen Proteinen basierend auf chemischen Verschiebungen zu identifizieren. Der Vergleich zu Methoden, die nur auf der Aminosäurensequenz basieren, zeigt die Überlegenheit des verschiebungsbasierten Ansatzes. Als eine natürliche Erweiterung des paarweisen Vergleichs von Proteinen wird darauffolgend SimShiftDB vorgestellt. Gegeben ein Protein, durchsucht SimShiftDB eine Datenbank bekannter Proteinstrukturen nach strukturell homologen Einträgen. Die Suche basiert hierbei nur auf der Aminosäuresequenz und den chemischen Verschiebungen des Proteins. Die detektierten Ähnlichkeiten werden zusätzlich nach statistischer Signifikanz bewertet. Mit der Chemical Shift Pipeline wird schließlich das Hauptresultat der Dissertation vorgestellt. Durch die Kombination der automatischen Fehlerkorrektur (CheckShift) mit dem Datenbank-Suchalgorithmus (SimShiftDB), wird in 70% bis 80% der vorhergesagten strukturellen Ähnlichkeiten eine sehr hohe Qualität erreicht. Der Anteil der fehlerhaften Vorhersagen beträgt nur etwa 10%.