Direkt zum Inhalt | Direkt zur Navigation

Eingang zum Volltext

Lizenz

Bitte beziehen Sie sich beim Zitieren dieses Dokumentes immer auf folgende
URN: urn:nbn:de:bsz:25-opus-27439
URL: http://www.freidok.uni-freiburg.de/volltexte/2743/


Hiller, Michael

Bioinformatics analyses of alternative splicing : non-EST based prediction, influence of secondary structures and tandem splice sites

Bioinformatik Analyse des Alternativen Spleißens : nicht-EST basierte Vorhersage, der Einfluß von Sekundärstrukturen und Tandemspleißstellen

Dokument1.pdf (1.233 KB) (Dissertation) (md5sum: e0426014e682204c26dd6cb245dcd848)

Kurzfassung in Englisch

After realizing its frequency in the last decade, alternative splicing has attracted considerable attention. Although several biological phenomena can be explained by alternative splicing today, research has just started to uncover all of its aspects.

This thesis investigates three aspects of alternative splicing, mostly by means of computational large-scale analyses. In the first part, we introduce a new approach to predict alternative splicing without using expressed sequence information. Given that our knowledge about the human transcriptome is still incomplete, ab initio prediction of alternative splicing is a rather recent but important research area. In contrast to existing methods, our approach is independent of orthologous sequences, thus it is applicable to a single genome.
By introducing an efficient dynamic programming algorithm, we reduce the computational complexity during the search for new splice events compared to a naive algorithm. The use of this algorithm is demonstrated in a genome-wide application, where we predict and verify novel human splice events.

In the second part, we investigate the influence of mRNA secondary structures on the regulation of the splicing process. We show that experimentally verified binding sites of splicing regulatory proteins have a higher single-strandedness.
As alternative and constitutive splicing often depends on several such binding sites, this indicates a general importance of mRNA secondary structures for splicing. Then, we develop a new motif finding method that benefits from using an informative prior probability distribution, which takes the single-strandedness of putative motif occurrences into account. We perform extensive tests with artificial and biological data sets and demonstrate that the additional information about secondary structures help to discriminate real binding sites from spurious ones.

In the third part, we analyze a group of splice events that have mostly escaped attention in the past. These splice events occur at tandem acceptor splice sites and result in minor changes of the mRNA and the protein. Genome-wide analyses provide evidence for a non-random distribution of these splice events at the genome and protein level, for tissue-specific regulation, and for evolutionary conservation. Moreover, we find that SNPs affecting such acceptors have a highly predictive effect on splicing. Extending our studies to tandem donors, we investigate differences between alternatively and not alternatively spliced tandem donors. We conclude that these donor and acceptor splice events represent one major mechanism to increase the proteome diversity and that some of them have consequences for protein function and human disease. Finally, we develop a relational database, which stores extensive information about tandem splice sites.

In summary, in this thesis, we introduce a new approach for ab initio splice event prediction, uncover another detail about the regulation of splicing,
develop a new de novo motif finding method, perform the first detailed genome-wide analysis of tandem splice sites, and develop a specific database of tandem donors and acceptors.


Kurzfassung in Englisch

Nachdem die Häufigkeit von alternativ gespleißten Genen im letzten Jahrzehnt erkannt wurde, hat das alternative Spleißen in der Wissenschaft große Aufmerksamkeit erfahren. Mehrere biologische Phänomene können heute durch alternatives Spleißen erklärt werden. Trotzdem hat die Forschung gerade erst begonnen alle Aspekte aufzudecken.

Diese Dissertation untersucht drei verschiedene Aspekte des alternativen Spleißens, hauptsächlich durch Anwendung von computerbasierten Analysen.
Im ersten Teil wird eine neue Methode für die Vorhersage von alternativen Spleißformen ohne Verwendung von exprimierten Sequenzen vorgestellt.
Wenn man bedenkt, dass unser Wissen über das humane Transkriptom noch unvollständig ist, stellt die ab initio Vorhersage von Spleißformen ein neues, aber wichtiges Forschungsgebiet dar. Im Gegensatz zu anderen Methoden ist unser Ansatz unabhängig von Informationen über orthologe Sequenzen und daher auf einzelne Genome anwendbar. Die Komplexität der Suche nach neuen Spleißformen kann durch die Entwicklung eines effizienten Algorithmus, der auf dem Prinzip der dynamischen Programmierung basiert, deutlich reduziert werden. Wir zeigen den Nutzen dieser Methode durch eine Anwendung auf das humane Genom, bei der wir neue Spleißvarianten vorhersagen und nachweisen.

Der zweite Teil der Arbeit untersucht den Einfluss von mRNA Sekundärstrukturen auf die Regulation des Spleißprozesses. Dabei zeigen wir, dass experimentell bestätigte Bindungsstellen von regulatorischen Spleißfaktoren eine signifikant höhere Einzelsträngigkeit aufweisen. Da alternatives und auch konstitutives Spleißen von mehreren solcher Bindungsstellen abhängt, deutet dieses Ergebnis auf einen generellen Einfluss von mRNA Sekundärstrukturen auf den Spleißprozess hin. Wir nutzen dieses Prinzip bei der Entwicklung eines neuen Algorithmus für die Erkennung von Motiven in biologischen Sequenzen. Dieser Algorithmus berücksichtigt die Einzelsträngigkeit möglicher Bindungsstellen, was durch eine sequenzspezifische a priori Wahrscheinlichkeitsverteilung modelliert wird. Umfassende Tests mit künstlichen und biologischen Datensätzen zeigen, dass diese zusätzliche Information hilfreich ist, um zwischen echten und falsch-positiven Bindungsstellen zu unterscheiden, was genauere Motivbeschreibungen erlaubt.

Im dritten Teil analysieren wir eine Gruppe von alternativen Spleißereignissen, die bisher wenig Beachtung gefunden haben. Diese Ereignisse geschehen an Tandemakzeptor-Spleißstellen und führen zu subtilen Veränderungen der mRNA und des entsprechenden Proteins. In genomweiten Untersuchungen fanden wir Hinweise, dass diese Spleißereignisse nicht zufällig im Genom und im Proteom verteilt sind; dass sie gewebespezifisch reguliert werden können; und dass eine Teilmenge evolutionär konserviert ist. Weiterhin konnten wir zeigen, dass SNPs in solchen Spleißstellen einen vorhersagbaren Effekt auf Veränderungen im Spleißmuster haben. Wir erweitern die Untersuchungen auf Tandemdonor-Spleißstellen und analysieren Unterschiede zwischen alternativen und konstitutiven Tandemdonoren.
Wir kommen zu dem Schluss, dass Tandem-Spleißstellen einen wichtigen Mechanismus zur Vergrößerung der Proteom Vielfalt darstellen. Außerdem haben einige dieser Spleißstellen Auswirkungen auf die Proteinfunktionalität sowie auf menschliche Erkrankungen. Um weitere Forschungen zu erleichtern, erstellen wir eine spezifische Datenbank, die umfassende Informationen über Tandem-Spleißstellen öffentlich zugänglich macht.

Zusammengefasst lässt sich sagen, wir entwickeln in dieser Dissertation einen neuen Ansatz für die ab initio Spleißformvorhersage; beschreiben ein weiteres Detail der Regulation des Spleißprozesses; stellen einen neuen Algorithmus für die Erkennung von unbekannten Sequenzmotiven vor; führen die erste umfassende Analyse von Tandem-Spleißereignissen durch und erstellen eine spezifische Datenbank über Tandemdonoren und -akzeptoren.


SWD-Schlagwörter: RNS-Spleißen
Freie Schlagwörter (englisch): alternative splicing , tandem splice sites
Institut: Institut für Informatik
Fakultät: Technische Fakultät (bisher: Fak. f. Angew. Wiss.)
DDC-Sachgruppe: Informatik
Dokumentart: Dissertation
Erstgutachter: Backofen, Rolf (Prof. Dr.)
Sprache: Englisch
Tag der mündlichen Prüfung: 04.12.2006
Erstellungsjahr: 2006
Publikationsdatum: 07.12.2006
Indexliste